Campbell Harvey: “Tortured D£βata”

發布時(shí)間(jiān):2020-07-08  |   '™≤£ 來(lái)源: 川總寫量化(huà)

作(zuò)者:石川
摘要(yào):If you torture the data long ™≠‍₩enough, it will confess.


引言


If you torture the data long enoπ∞£∏ugh, it will confess. —— Ronald Coase, 1991 年(nián)≤¶≈諾貝爾經濟學獎獲得(de)者


上(shàng)面這(zhè)句話(huà)的(dπ✘®e)直白(bái)翻譯是(shì),如(rú)果你(n₩Ω ≤ǐ)折磨數(shù)據足夠長(cháng)的↕¶(de)時(shí)間(jiān),它們<₽會(huì)招供的(de)。它的(de)隐↑<₹¶含意思是(shì),隻要(yào)人(rén)們想盡∑<φ辦法去(qù)過拟合,總能(néng)得(de)到(dào ♠≠)希望的(de)結論。這(zhè)句話(huà)用(yòng)來(lái)形容今天實證資‍≠‍産定價領域的(de)研究風(fēng)氣十分(fēn)ε‍₩™貼切。近(jìn)些(xiē)年(nián),Campbel ≠δl Harvey 教授舉起了(le)呼籲學術(shù)↓÷₽β界重視(shì)并消滅僞發現(xiàn)的(de)大(dà)旗。無論是₽£&γ(shì)他(tā)著名的(de)論文(‌ ≤€wén) Harvey, Liu, and Zhu (2016),還(há☆σ←Ωi)是(shì) 2017 年(nián)他(tδ ā)在 AFA 年(nián)會(huì)做(zuò)的(de≥←)主席演講(Harvey 2017,點擊直達推文(wén)鏈接),還(hái)是(shì)刊發于 Journal of Finance 的(de)最新文(wén)章(zhāng) Harvey and Liu​↓ (2020),都(dōu)是(shì)關于實證資産定價領域✔♦ε僞發現(xiàn)的(de)問(wèn)×φ題。而近(jìn)日(rì),在 Society of Financial S¥δtudies(SFS)協會(huì) 2020 年(nián)會(huì¥λ )上(shàng),Harvey 教授又(yòu)應∏‌ σ邀做(zuò)了(le) keynote,題目就(jiù$¶‌¥)叫 Tortured Data —— 飽受折磨 €的(de)數(shù)據


可(kě)能(néng)小(xiǎo)夥伴✔‌們更熟悉 AFA,而 Society of Finan€₹  cial Studies 的(de)來(lái)頭同樣不(bù)小(xiǎ↓"o),它是(shì) Review of Financial Studies 背後的(de)協會(huì)。據其官網介紹,以會(huì)議(yì‍↓¶£)論文(wén)最終被金(jīn)融領域三大(dà‌∞£≤)頂刊錄用(yòng)比例來(lái)評判≤≈,SFS 年(nián)會(huì)是(shì)最佳的(de)金α<×↔(jīn)融學會(huì)議(yì)。因此,在該✘×¶會(huì)議(yì)上(shàng)做(zuò) keyn♠↑‌ote 并再次呼籲僞發現(xiàn)問(wèn)題,足∞€見(jiàn)其重要(yào)性。今天這(zhè)篇小(xiǎo)文(wén)就(jiβ★♠ù)來(lái)介紹一(yī)下(xià≤π‌™) Harvey 教授的(de)最新演講。由于公衆号之前在這(zhè←☆¥)方面做(zuò)過一(yī)些(xiē)積累,因此也(yě)會(huì)在<↔Ω行(xíng)文(wén)中把相(xiàng)關內(nèi)容串聯起來 λ≤£(lái)。Harvey 教授指出,出現(xiàn)僞發現(xiàn)的(d¶♣e)原因包括以下(xià)幾種:


1. 數(shù)據挑選

2. 責任下(xià)放(fàng)

3. 多(duō)重假設檢驗

4. 方法多(duō)樣性

5. 數(shù)據操縱


值得(de)一(yī)提的(de)是(sh<λì),Harvey 教授在演講中不(bùα♣₽)失诙諧的(de)抨擊了(le)金(jīn)融以及其他(tā)領↓ ∞域的(de)一(yī)些(xiē)僞發現(xiàn),并同時(shí™±↑)“怼了(le)”學術(shù)界和(hé)業(yè)界(不(bù)乏 b↓¥∑ig names)。所以,建議(yì)你(nǐ)看(kàn)‍↓£φ完本文(wén)也(yě)去(qù)看(kàn)看(kàn)他(tā)的(de ♣↔)演講(參考文(wén)獻最後有(yǒu)鏈接)。


數(shù)據挑選


Harvey 教授通(tōng)過兩個(gè)例子(zǐ) ®說(shuō)明(míng)了(le)數(shù)據挑選的(de)危"∞害。首先遭到(dào)抨擊的(de)是(shì)來(lái)自(zì)一(×♦'yī)家(jiā)知(zhī)名投資管理×±σ(lǐ)公司在 2019 年(nián)寫的(de)一(y©"ī)篇 white paper,題為(wè∏↑§i) The overlooked persisten•₹™♠ce of active outperformance,非常 aggressive。它的(de)意思就(jiù)是(sh☆<≤ì)主動管理(lǐ)人(rén)其實能(néng)持續的(de)戰勝市(shì≥®☆Ω)場(chǎng),提供 α,但(dàn)卻被忽視(shì)了(le)。


f1.png


一(yī)直以來(lái),無論是(shì) Mic≈ γ↕hael Jensen 還(hái)是(shì) John Bogl♣¶≤e 都(dōu)告訴我們,在美(měi)國(★§<Ωguó)市(shì)場(chǎng)中,平均來(lái)看(kàn),主動管理(lǐ)人(rén) fee 後難以獲得(de)超額收益。然而,₽Ω這(zhè)篇 white paper 卻抛π♣‍出完全對(duì)立的(de)觀點。那(nà)麽,到(d♠↔γào)底是(shì)人(rén)們長(cháng)久以來(lái)的↕γ↔×(de)看(kàn)法錯(cuò)了(le),還(hái)是(sh∞↓≤ì)這(zhè)篇文(wén)章(zhāng)有(yǒu)問(wèn)題€←φ↓?經過仔細檢查,不(bù)難發現(xiàn)産生(shēng)上(shà♦λ☆Ωng)述分(fēn)歧的(de)原因。在這(zhè)篇♠γ÷♥ white paper 的(de)摘要(yào)中,有Ω₽(yǒu)下(xià)面這(zhè)句非常重要(yào)的(de)話(huà)×‍(下(xià)圖,highlight 的(de₩≠∑ε)部分(fēn)),它的(de)意思是(shì)“如δ÷(rú)果我們剔除市(shì)場(chǎng)中最差的ε✔•(de) 25% 主動管理(lǐ)策略,那(nà)麽最好(hǎo)的(d☆✘φ¥e)四分(fēn)之三戰勝了(le)市(shì)場(chǎng)。”


f2.png


f3.png


漂亮(liàng)!這(zhè)“神”邏輯嚴絲合縫。按照(z☆∏ ‌hào)這(zhè)個(gè)邏輯推演一(yī)下(xià),如(rú)果刨除£≤₹後 50% 的(de)話(huà),剩餘的(de)戰勝Ω÷≈市(shì)場(chǎng)更多(duō)!Ha≤®rvey 教授在演講中非常幽默的(de)抛出了(le)他(tā)對(duì)這₹& (zhè)種 data selection 的(de)反應。


f4.png


第二個(gè)例子(zǐ)來(lái)自↔>(zì)下(xià)面這(zhè)篇 2014 ♠ ₽年(nián)的(de)論文(wén)。作(zuò)者不♦∑>(bù)乏 Andrew Ang 這(zhè)樣的(®φ"de) big name,而且其中另一(yī)位作(zu€¥ ò)者是(shì) Harvey 在 Duke 商學院的(de)同事$ &<(shì)啊。這(zhè)真是(shì)……


f5.png


這(zhè)篇文(wén)章(zhāng)分(fēn)析了(le) Norw↓​★egian Government Pension Fund 的(d$εe)表現(xiàn),得(de)出的(de)結論是(sh±&ì)非常優異,隻不(bù)過是(shì)在下(xià)面這(zhè)個(gè)∏÷前提下(xià):


Abstracting from the financial ∞♣πcrisis, we conclude that active managemen±$×‌t of both equity and fixed income₹✘ has significantly contributed t★λ₽o the returns of the fund.


驚不(bù)驚喜?意不(bù)意外(wài)?它的(de)意思是(sh‌♥§ì),如(rú)果我們選擇性地(dì)遺忘金(jīn)融危機(jī),這(‍≈¶zhè)個(gè) fund 的(de)表現(xiàn)非常不(bù)錯±↓&(cuò)!嗯,除了(le)熊市(shì)之外(wài),所有(yǒu)的(d≠∞ e)牛市(shì)都(dōu)非常不(bù)錯(cΩ÷uò)。簡單點評一(yī)下(xià)這(zhè™$)兩個(gè)例子(zǐ)背後的(de)數(shù)據挑選危害↕¥Ω←。說(shuō)到(dào)底,金(jīσ<πn)融領域的(de)研究屬于“軟”科(kē)學,即研究結果依賴于提出怎樣的(de)假設,如(r‍× λú)何挑選和(hé)處理(lǐ)數(shù)據,以及如(rú)何分(↕'± fēn)析并解釋結果。但(dàn)刻意的(de)遺漏掉一(yī)些(xiē)數↔σ​™(shù)據來(lái)支持自(zì)己的(de)觀點,顯然是(shì)♥★錯(cuò)誤的(de)行(xíng)為(wèi)。


責任下(xià)放(fàng)


産生(shēng)僞發現(xiàn)的(de)第二個(gè)原♦$因是(shì)責任下(xià)放(fàng),意思是(shì)在研究γφ®中我們“無腦(nǎo)”相(xiàng)信别人<≈ (rén)的(de)分(fēn)析結果,而不(bù)→≈去(qù)試圖仔細分(fēn)析其是(shì)否§₩σ為(wèi)僞發現(xiàn)。


對(duì)于這(zhè)點,Harvey 舉了(le)他(tā)自(z✘♥¶ì)己的(de)一(yī)個(gè)例子(zǐλ‍® )。在他(tā)學術(shù)生(shēng)涯早期的(de)某天₹¥♣≈晚上(shàng) 9 點,接到(dào)了(le)來∏'π(lái)自(zì)高(gāo)盛的(de)電(diàn)話(huà)≤♥£₩,電(diàn)話(huà)那(nà)頭的(de)♥• →人(rén)不(bù)是(shì)别人(rén),而是(s∑εhì)大(dà)名鼎鼎的(de) Fischer Black(需要‍λγ₩(yào)背景知(zhī)識的(de)小¥ §(xiǎo)夥伴可(kě)看(kàn)《Fischer Black》一(yī)文(wén))。令他(tā)感到(dào)驚訝的(de)是( ‍shì),在這(zhè)通(tōng)電&× π(diàn)話(huà)之前,二人(rén)從(cóng)未∑™<見(jiàn)過面,因此他(tā)對(duì)于接到(d✘ ào) Black 的(de)來(lái)電(diànα₩$‍)感到(dào)困惑不(bù)已。不(bù)過,他(tā)的(de)困惑很(hěn)快(✘→® kuài)就(jiù)被揭開(kāi)了(le)。Black 開(kāi)門( ®♦¥mén)見(jiàn)山(shān)“你(nǐ) 1989∑$≠ 年(nián)發表在 Journal of Financial Economics 上(shàng)的(de)文(wén)章(zhān​&g)有(yǒu)錯(cuò)誤。”Black 指的(de)是(shì) Ha♣✔ rvey (1989) 這(zhè)篇論☆♦♠文(wén)。其中 Table 2(下(xià)圖)彙報(∑∑bào)了(le)一(yī)個(gè)時(shí)序回歸模型對(d∞σuì)下(xià)期股票(piào)收益率的(de)預測結果。其樣本內(nè×☆±✔i)的(de)準确性高(gāo)達 R-squared = 7.5%。B ‍∞lack 認為(wèi)這(zhè)麽高®φ↕≤(gāo)的(de) R-squared 是(shì) overfit©≤ting 造成的(de)。


f6.png


震驚之餘,Harvey 感到(dào)頗為(wèi)無辜;¥≤他(tā)馬上(shàng)反駁了(le) Black 并指出在這(zhèδ☆±)個(gè)表中,自(zì)己僅僅是(shì)根據前人(r逥©γn)的(de)模型來(lái)彙報(bào)了©>σσ(le)一(yī)個(gè) test results♥<¥,而且他(tā)也(yě)沒有(yǒu)進行(xín>♠♣÷g)任何最大(dà)化(huà) R-squared×£∑★ 的(de)嘗試,因此這(zhè)個(gè)過程中不(bù)存在任何的(de)↓‌φ數(shù)據操縱或者過拟合。然而,如(rú)今 Harvey 教授對(duì)這δδ♠(zhè)篇 1989 年(nián)的(de)論文( "↕¥wén)在樣本外(wài)進行(xíng)₹≈≤©了(le)複現(xiàn)(樣本外(wài)數(shù)據從(cóng) ≈∞ <1988 年(nián)到(dào) 2018 年(nián))£←&,并得(de)到(dào)了(le)完全不•≥∞(bù)同的(de)答(dá)案。在樣本外(wài)×←∞,預測回歸模型中的(de)一(yī)個(gè)重要(yào)解釋變量(jun©γ₽→k spread)的(de)系數(shù)符号竟然發生↔ ₽(shēng)了(le)變化(huà),且 R-squarε±¥ed 也(yě)下(xià)降到(dào)了(le) 1.∞®2% —— 并不(bù)顯著。


f7.png


這(zhè)種強烈的(de)對(duì)比表明(míng)了(σ®×≤le)他(tā)最初參照(zhào)前人(rén)研究(因此是(shì)₹β>責任下(xià)放(fàng)問(wèn)題)的(de) test resu♠•₩lts(R-squared = 7.5%)根本不(bù)靠譜。這(zhè₽​ α)個(gè)例子(zǐ)說(shuō)明(míng),即便我們非常小(xiǎo)心的(de)規避“折磨數(shù)據”‍₩©,但(dàn)我們相(xiàng)信并依賴的(d∏✘≈₽e)他(tā)人(rén)的(de)研究很(hěn)可​→♣©(kě)能(néng)早已是(shì)“折磨數(shù)據”‍≠£∞之後的(de)結果。怎麽樣?狠起來(lái),先從(cóng)自(zì)己開(kāi)始反省♠↕。面對(duì)上(shàng)述責任下(xiàφ✔)放(fàng)問(wèn)題,Harvey 教授非常坦誠的(de)說(s ≠•huō)到(dào):


Looking back in time, this telepho∞™ne call is ironic given™←  my research agenda is✔$ to improve research practices in ₽♠ finance and to call o∑φ​ut the data miners.


而“Black was right!”則是(shì)↓≥≠← Harvey 教授發自(zì)內(nèλ♥i)心的(de)感歎。我們仿佛能(néng)看(kàn)到(dào) Bγ¥ lack 鬼魅的(de)微(wēi)笑(xi <πào)了(le)。


f8.png


多(duō)重假設檢驗


造成僞發現(xiàn)的(de)第三個(gè×₩♥)原因是(shì)多(duō)重假設檢驗(multipl∑✘"₽e hypothesis testing),它指的(de)是(shì)ε∏®使用(yòng)同樣的(de)數(shù)據同時(shí)檢驗多>'(duō)個(gè)原假設。在實證資産定價研究中,所有(yǒu)的(de)學者都(dōu)使用(yòng↕∏>♣) CRSP 和(hé) Compustat 的(de)數(shù)據來π×(lái)挖因子(zǐ),因此總能(néng)找到(dào)樣本☆≥"<內(nèi)好(hǎo)使但(dàn)虛假的(γ©de)發現(xiàn)。關于多(duō)重假設檢驗,公衆号之前的(de)《出色不(bù)如(rú)走$∑π運》系裡(lǐ)文(wén)章(zhāng)已經反複討®₩(tǎo)論過了(le),感興趣的(de)小(xiǎo)夥伴請(qǐ‍≈ ng)查看(kàn)相(xiàng)關推文(wén)(IIIIIIV),此處不(bù)再贅述。


在談到(dào)多(duō)重假設檢驗的(λλ≠de)問(wèn)題時(shí),Harvey ©±<教授把它形象的(de)比喻為(wèi) The Ga☆♥₩₹rden of Forking Path←δs(小(xiǎo)徑分(fēn)叉的(de)花(γ¶αhuā)園) —— 這(zhè)個(gè)标題也(yě)×​是(shì)阿根廷作(zuò)家(jiā) Jorge‍  Luis Borges 于 1941 年(n✔≤ε€ián)創作(zuò)的(de)短(duǎn<♥α)篇故事(shì)。假設我們手裡(lǐ)有(y∑ ǒu) 20 個(gè)變量來(lái)構建策λβΩ略,考慮下(xià)面兩種情況:


1. 從(cóng)這(zhè) 20 個(gè)變量中随機(jī)挑出↑©"♠的(de)第 1 個(gè)就(jiù)得>★<δ(de)到(dào)了(le)非常好(hǎo)的(de)回測結果;于≥Ω是(shì)我們不(bù)再研究剩下(xià) 1≠ •±9 個(gè),并聲稱沒有(yǒu)過拟₩Ω"​合、沒有(yǒu)進行(xíng)多(duō)重假設檢驗;


2. 假設在另一(yī)個(gè)平行(xíng)宇宙中,我®¶ 們把全部 20 個(gè)變量試了(le)個(gè)遍,才最終找到(dào)了↔‍•≠(le)第一(yī)種情況中的(de)第一(yīπ§∞σ)個(gè)變量,得(de)到(dào)了(≥∞σle)很(hěn)好(hǎo)的(de)回測結果。這(φ Ω↓zhè)時(shí)我們認為(wèi),因為(wèi)一(yī)共測✔π了(le) 20 個(gè),因此這(zhè)個(gè)很(hěn)可(kě≈∏↑)能(néng)是(shì)因為(wèi)運氣,所以過拟合了(≥♥∏→le),所以選擇不(bù)相(xiàng)信它。


緊接著(zhe)問(wèn)題來(lái)了(le):這(zhè)兩≈ Ωφ種情況到(dào)底有(yǒu)沒有(y←¥>∑ǒu)區(qū)别?第一(yī)種情況下($♣xià)找到(dào)的(de)那(nà)個(♥'gè)變量是(shì)否真的(de)沒有(yǒu)受​÷$∞到(dào)多(duō)重假設檢驗的(de)影(yǐng)響?對(duì)于這(zhè)個(gè)問(wèn)™∞題,Harvey 教授表示:Both findings need to be Ω treated equally. 這(zhè)意味著(zhe),即便在第一(yī)種情況下(xiàΩ•♣ ),第一(yī)次就(jiù)挑出的(de)變量依然不(bù)☆≈×能(néng)令人(rén)信服,它應和(hé)第₹δ←≥二種情況同等對(duì)待。這(zhè)也(yě)同樣說(shuō)明>★‌☆(míng),變量或者策略的(de)先驗對(duì)于規避多(duō)≠π'£重假設檢驗影(yǐng)響的(de)重要× ≤±(yào)性。這(zhè)讓我想到(dào) Harvey (2017) 一(yī)文(w÷↔<én)提出的(de)貝葉斯後驗 p-value,它無疑÷♣更有(yǒu)助于分(fēn)析一(yī)個(gèλ¥↔>)變量或者策略是(shì)否真的(de)有(αβyǒu)效。關于貝葉斯後驗 p-value,請(qǐng)₹​γλ見(jiàn)《在追逐 p-value 的(de)道(dào)路(lù)上(×σγshàng)狂奔,卻在科(kē)學的(de)道(dào)路(lù)上(sh≈↑àng)漸行(xíng)漸遠(yuǎn)》


方法多(duō)樣性


方法多(duō)樣性和(hé)上(shàng)一(yī)節的÷φ(de)多(duō)重假設檢驗異曲同工(gōng);它指&β↕♦的(de)是(shì)使用(yòng)不(bù)同的(de)方法來(lái≤λ)進行(xíng)分(fēn)析,并挑出最好(hǎo)的(de)。


If the researcher tries©β✘ a large enough number of strateg∑<§≥y configurations, a backtest can alwaΩ<₹ys be fit to any desired perfo↕ rmance for a fixed sampl∞σ♦e length. —— Marcos Lopez de Prado


某日(rì),一(yī)家(jiā)著名的(de)機(jī)構找到(dào∏≤ ) Harvey 教授,請(qǐng)他(€™∑tā)評價一(yī)下(xià)該機(jī)構研發的(de)股票(piào€α)月(yuè)度收益率預測模型。在介紹這(zhè)個(gè)模型之α✘✔前,讓我們先來(lái)醞釀一(yī)下(xià)情緒。回顧↔←€ 下(xià)本文(wén)第二節 Harvey (1989) 中的(de↕α♥)模型,它在 1988 年(nián)之前的(de®>♣') R-squared 是(shì) 7.5%(被 Bl€λ©ack 質疑了(le)),而在 1988 到(dào) 20σ↔♣£18 之間(jiān)的(de) R-squared 僅為(>Ω♠wèi) 1.2%,其在整個(gè)窗(chδ uāng)口內(nèi)的(de) R-squared 為(wèi) 4%$₹。它的(de)效果是(shì)下(xià)面這(zhè)樣→¶‌§,符合我們的(de)認知(zhī)。


f9.png


再來(lái)看(kàn)看(kàn)這(zhè)←♦'∑家(jiā)著名機(jī)構的(de)模型¥δλ。它們預測了(le)世界上(shàng) 59 個(gè)國(gu≠'ó)家(jiā)市(shì)場(chǎng)®€→的(de)月(yuè)頻(pín)收益率;模型的(de)特征如(rú)下(δ•xià)圖所示。


f10.png


劃一(yī)下(xià)關鍵詞:每個(gè)市(shì)場(chǎng) 200 個(gè)變量!統計(jì)₩★分(fēn)析!最先進的(de)機(jī)器(qì)學習(xí)算(s≤☆'uàn)法!針對(duì)每個(gè)市(shì)場(chǎng),經過兩年(nián) ε₹intensive data colle₽×®←ction 找到(dào)了(le) 20₽∑♣>0 個(gè)變量,用(yòng)不(bù)同的(de)機(jī)器(qì)學¶♦♥習(xí)算(suàn)法去(qù) fit……再來(lái)看(kàn)看(kàn)效果(一(yī)定要(yào)和(→λ"±hé) Harvey 1987 對(duì)比!)。用(yòng)該機(jī)™$構自(zì)己的(de)話(huà):“處處精準”,“¶→25 個(gè)最大(dà)經濟體(tǐ)市(shì∏©✔$)場(chǎng)的(de) R-squa "✔red 為(wèi) 0.96”,“所有(yǒu) 59 個(gè)市(β∞♦δshì)場(chǎng)的(de) R-s≥ &δquared 為(wèi) 0.98”。在講到(dào)這(zhè)裡(lǐ)時(shí),Harvey 教÷φ÷ε授又(yòu)來(lái)了(le)一(yī)把 Harve₽¥y 式幽默。他(tā)指出最初看(kàn)到(dào)這(zhè)♠'兩個(gè) R-squared 的(de)¥​∞∑時(shí)候以為(wèi)對(duì)方默認省略了(le)百分(fēn)号≈​,如(rú)果是(shì)那(nà)樣的(de)話(huà),那(n∞$à)麽這(zhè)個(gè)複雜(zá)模型和(hé) Ha₽€ rvey (1987) 在樣本外(wài)(1988 ✘φ 到(dào) 2018)的(de) R-s∞ε₽quared = 1.2% 就(jiù)差不(bù)多(duō)≥>。但(dàn)是(shì)他(tā)錯(cuò)了(le),沒有(yǒu)百分(•♣fēn)号,真的(de)是(shì)處處精準。


f11.png


到(dào)底有(yǒu)多(duō)精準?2≠≠008 年(nián) 10 月(yuè)是(€ shì)金(jīn)融危機(jī)時(shí)ε☆£期的(de)最大(dà)單月(yuè)跌幅,高(gāo)達 -35%。看α σ(kàn)看(kàn)在 2008 年(ni®&án) 9 月(yuè)模型預測的(de)下★ •©(xià)個(gè)月(yuè)收益率是(shì)多(duō)少(shǎo₩××)?沒錯(cuò),-35%!分(fēn)毫不(bù)差!兩個(gè)模型比較一(yī)下(xià):


f13.png


當“足夠多(duō)的(de)變量”遇見₽↓®ε(jiàn)“足夠複雜(zá)的(de)算(su•↑↔àn)法”,就(jiù)碰撞出“精緻的(de)錯(cuò)誤”。但×♣δ‌(dàn)更令人(rén)稱奇的(de)是€••↓(shì),該模型不(bù)僅樣本內(nèi)處處精準,再來(♣ €Ωlái)看(kàn)看(kàn)該機(jī)構≠≠給出的(de)樣本外(wài)結果,同樣“非凡”。然而,後來(lái)經σπ•仔細檢查發現(xiàn),該模型建模時(★↔♣shí)已經包含了(le)所謂的(de)樣本外∑×(wài)數(shù)據,即樣本外(wài)并非真正的(de)樣∏®₹↑本外(wài)。


f14.png


數(shù)據操縱(p-hacking)


導緻僞發現(xiàn)的(de)最後一(yī)個α§≥✔(gè)原因是(shì) p-hacking,即為(wèi‌••★)了(le)追求超低(dī) p-value 而進行(xíng)的(de)♠®數(shù)據操縱。


在發表偏差的(de)影(yǐng)響下(xià),學術(≤ ÷shù)界都(dōu)在追求超低(dī) p-val≤∏₽ue。Harvey, Liu, and Zhu (♣φ2016) 分(fēn)析了(le) 1963 年(nián)到(dào) ↕←2012 年(nián)間(jiān)發表在金(jīn)融領域最頂級期刊上(sΩφ<hàng)的(de) 300 多(duō)個(✘>₩∞gè)因子(zǐ)模型的(de) t-statistics(p-va↓♦$ lue 越低(dī),t-statistic↓δ 越高(gāo))的(de)分(fēn)布,發現(xiàn↑♣) t-statistic 取值在 2 到(dào) 2.★¥57 的(de)文(wén)章(zhāng)數(sh★ ù)和(hé) t-statistic 取值在 2.57 到↑ ∑₩(dào) 3.14 的(de)文(wén)章(zhā∑‌ng)數(shù)十分(fēn)接近(jìn)。


f15.png


然而,t-statistic = 2.57 對(duì)應的(de) p-va→→'↓lue 大(dà)概是(shì) 0.005;而 t-statiα<φ÷stic = 3 對(duì)應的(de) p✘∑-value 則是(shì) 0.001。顯然,找到(dào) p-valu≥αe = 0.001 的(de)因子(zǐ)要≥​↔(yào)比找到(dào) p-value = 0.0↓α05 的(de)因子(zǐ)要(yào)困難得(de)多(duō),但(dà •€n)它們的(de)文(wén)章(zhāng)數(shù)量卻大(φ←dà)緻相(xiàng)當。這(zhè)隻能(néng)說(shuō)明β₽ •(míng)在頂級期刊發表文(wén)章(zhāng)時(shí)÷♥↔,學者們傾向于更低(dī)的(de) p-value。那(nà)麽問(wèn)題來(lái)了(le):哪那(<←nà)麽容易找到(dào)這(zhè)麽多(duō)超低(dī)的(de‌£) p-value?答(dá)案是(shì):通(tōng)過數(shù)據≥♥™δ操縱去(qù)湊。而在 p-hacking 方面,金(jīn)融界和(hé)醫(yīσ∞)學界相(xiàng)比又(yòu)是(shì)小(xiǎo)巫見(j€ φ♥iàn)大(dà)巫。Harvey 教授在演講中舉了(le)一(yī£∏•)個(gè)著名的(de)例子(zǐ)。一(yī)篇來(lái)自(zì)♥Ω Cornell 大(dà)學、發表于醫(yī)學界知(zh¶∏ī)名雜(zá)志(zhì) JAMA Pediatrics 上(shàng)的(de)論文(wén)指出,在蘋果上(shàng)貼上↔®¶(shàng)卡通(tōng)貼紙(zhǐ),可(kě)以提高(gāo±∑) 8 至 11 歲兒(ér)童在蘋果和↓±(hé)餅幹之間(jiān)挑選蘋果的(de)概率。


f16.png


這(zhè)篇論文(wén)的(de)一(y♣ ī)作(zuò)是(shì) Brian Wansink,三作(✔☆zuò)是(shì) Collin Payne。接下(xià)來(láσ₽♦​i)就(jiù)看(kàn)看(kàn)這(zh≈α$è)二位的(de)表演。該文(wén)發表于  ↔®↔2012 年(nián)。回顧其研究進程,在 2&π∞008 年(nián)之前都(dōu)沒有(yǒu)什(shén)麽确定性的(α'de)結論,直到(dào) Payne 發給 Wansink 的(d‍♣♣e)一(yī)封郵件(jiàn)中透露了(le)所謂的(✔↕✘de)“重大(dà)進展”:


f17.png


注意上(shàng)面括号裡(lǐ)的(de)內(nèi)容“wit>  ≤h a bit more wizardry”,開(kāi)魔 ★法學校(xiào)嗎(ma)?它指的(de)是(shì),經過一(yī)些Ω≤₩(xiē)巧妙的(de)加工(gōng),數(shù)據就(jiù™ π∏)能(néng)支持他(tā)們的(de)結論。再來(lái)看(k≤ε'∞àn)看(kàn) 2012 年(nián) Wansink 的(dβ©∑λe)郵件(jiàn):


f18.png


p-value 隻有(yǒu) 0.06,還(hái)不(bù)夠低(dī)₩π←,需要(yào)把數(shù)據再“搞一★÷•(yī)搞”,最好(hǎo)能(néng)讓 p-value 到(dào)±± 0.05 以下(xià)。不(bù)過最終,他(tā)們也(↑γ×'yě)沒能(néng)再進一(yī)步降低(dī) p-value,φ≤在最終發表的(de)版本中,p-value 仍為(wèi♥δ) 0.06。令人(rén)欣慰的(de)是(shì),σ‌→如(rú)此大(dà)膽的(de)學術(☆​>shù)造假最終被發現(xiàn),而該文(wén)也(yě£↔)在 2017 年(nián)底被撤回。除了(le) p-hacking 之外(wài),該文(wén)更大α↑®(dà)的(de)問(wèn)題是(shì)它'¥聲稱使用(yòng)的(de)樣本是(shì'★→✘) 8 至 11 歲的(de)兒(ér)童,但(dàn>α≈)事(shì)實卻并非如(rú)此……時(shí)至今日(rì),Wansin∑×₩k 已有(yǒu) 18 篇論文(wén)被撤回,而他(tā)也(yě)≠∏ 早已因為(wèi)學術(shù)不(bù)端而被"ε©✔ Cornell 掃地(dì)出門(mén)。從(cóng)調查其學術(shù)不(bù)端中發現(xi∑ ±÷àn)的(de)一(yī)些(xiē)資料可(♣↕‌£kě)以看(kàn)出,數(shù)據操縱以及 p-hacking¶↔ 已經深深的(de)紮根于這(zhè)位世界著₹'名營養學家(jiā)的(de)研究價值觀……


f20.png


坦白(bái)的(de)說(shuō),在 em∞αpirical analysis 中,任何人(rén)都(✔♦dōu)會(huì)或多(duō)或少(≥<shǎo)的(de)進行(xíng)一(yī)些(xiē)數(s•™​≤hù)據的(de)細分(fēn)或者劃分(fēn),而“數(shù)據細分≥±§(fēn)”或者“數(shù)據劃分(fēn)”本身★™(shēn)其實是(shì)中性的(de)✘÷詞語。但(dàn)如(rú)果它的(de)目的(de)是(shì)為÷ ∏<(wèi)了(le) p-hacking,那(nà)麽就(j$‌☆♠iù)很(hěn)可(kě)能(néng)會(huì)造成僞發¥>©♥現(xiàn)。這(zhè)是(shì)我們應該避免的(deλ≈↕γ)。


結語


以上(shàng)五節介紹了(le)産生(shēng)僞發現(&π♠xiàn)的(de)五個(gè)常見(jiàσ ¶n)原因:數(shù)據挑選、責任下(xià)放(fàng)、多(d®β∑uō)重假設檢驗、方法多(duō)樣性和(hé) p-hack→≈ing。這(zhè)些(xiē)情況在量化(huà)投資中均會εΩ>(huì)出現(xiàn),正确的(de)♥↕ 對(duì)待它們就(jiù)顯得(de)尤₽÷π♣為(wèi)重要(yào)。對(duì)于做(zuò)數(shù)據分(fēn)♥λ★析的(de)人(rén)(包括我自(zì)己)來(lái)說(shuō),常常✔¥挂在嘴邊的(de)一(yī)句話(huà)是(shì)• ☆“Let the data speak”(讓數(shù)據發聲)$≥。但(dàn)事(shì)實是(shì)數(shù)據不(bù)會(huì♥α₽¶)發聲,而是(shì)進行(xíng)數(shù)據分(fēn)析的(de)人®±€(rén)通(tōng)過數(shù)據發聲ε 。而在這(zhè)背後,又(yòu)有(yǒu)多↑α↕(duō)少(shǎo)不(bù)同的(de)動機(jī)、原♦↕β因、理(lǐ)由來(lái)追求數(shù÷‍≤→)據分(fēn)析師(shī)希望看(kà§™↓€n)到(dào)的(de)結論,或者希望講述的(de)故事(shì)呢(↑☆£ne)?最後,讓我用(yòng) Harvey 教授對(duì)​™投資者的(de)建議(yì)結束本文(wén):


Investors need to be<≠→ especially vigilant in this era of big dat‍♦€¥a, large number of predictors←σ, a plethora of methods,¶↓ and the incentives to strategε'"δically manipulate the da∞↔×ta to uncover a convenient "truth".


寫完本文(wén),我不(bù)禁要(yào)給 Har↑≠§vey 教授點贊。但(dàn)更令我印象深刻的(de)是(s♠♠hì),Fischer Black wa ‍±>s right! Again!



參考文(wén)獻

Harvey, C. R. (1989). Time-varying c♣δonditional covariances in tes ₩∞'ts of asset pricing models. Journal of Financial Economics 24(2), 289 – 317.

Harvey, C. R. (2017). Presiden♠"↕tial address: The scieγ©©αntific outlook in financial econ♣φλ€omics. Journal of Finance 72(4), 1399 – 1440.

Harvey, C. R. and Y. Liu (2↓♣020). False (and missed) discoveries iγ☆n financial economic₹δs. Journal of Finance 75(5), 2503 2553.

Harvey, C. R., Y. Liu, and"♦✔" H. Zhu (2016). … and the cross-secti‍∑εδon of expected returns. Review of Financial Studiesδ¶ 29(1), 5 – 68.

Harvey 教授演講鏈接:https://iu.mediaspace.kaltura.com/♠π'φmedia/1_b70bmzv3

Harvey 教授演講 slides:static/file/Tortured-Data.pdf♦×♣φ



免責聲明(míng):入市(shì)有(yǒu)風(fēng)險,投資需謹慎。在任何情況下(xià)₹§←',本文(wén)的(de)內(nèi)容、信•¶​↑息及數(shù)據或所表述的(de)意見(jiàn)并不(bù)構成對(duì↕®≠)任何人(rén)的(de)投資建議(y→×ì)。在任何情況下(xià),本文(wén)作(zuò)者及所屬機(jī)構不★<(bù)對(duì)任何人(rén)因使用(yòng)本文(wén)¥∏的(de)任何內(nèi)容所引緻的(de)任何損失負任何責任λε。除特别說(shuō)明(míng)外(wài),文(wén♠λ)中圖表均直接或間(jiān)接來(lái)自(<↑★εzì)于相(xiàng)應論文(wén),僅為(wèi)介紹之用 ¥¥ε(yòng),版權歸原作(zuò)者和(hé)期刊所有(yǒu₩↔ )。