資産定價中的(de)實證挑戰 (III)

發布時(shí)間(jiān):2025-02-10  |   ∏β® 來(lái)源: 川總寫量化(huà)

作(zuò)者:石川

摘要(yào):本文(wén)對(duì)比傳統計(jì)量經濟學與機(jī)器(qì)學習‌±(xí)的(de)建模範式。兩種範式在目标導向(解釋性 vs 預測≈♦性)與建模邏輯(假設驅動 vs 數(shù)據驅動)的(de)根本差異♥♦×≈,正重塑實證資産定價的(de)方法論體(tǐ)系,為(w™↓↔èi)應對(duì)高(gāo)維非線性定價難題提供新路(lù)徑。


0 前文(wén)回顧


前文(wén)《資産定價中的(de)實證挑戰 (I)》和(hé)《資産定價中的(de)實證挑戰 (II)》勾勒了(le)當下(xià)實證資産定價面≈≥'←臨的(de)各種挑戰。作(zuò)為(wèi)系列的(de)第三篇,本文(wé∏£∞n)探討(tǎo)這(zhè)種挑戰對(duì)統計(jì)建模有(yǒu)怎‌Ω 樣的(de)啓示。對(duì)實證資産定★♥α價來(lái)說(shuō),以下(xi‌≈à)這(zhè)組公式描述它的(de)核心問(wèn)♥™±題:


  


其中  是(shì)  期資産  的(de)超額收益率,高(gāo)維向量  表征了(le)我們在  期能(néng)夠獲得(de)的(de)全部信息,  是(shì)基于  所含信息對(duì)資産  的(de)  期超額收益率所做(zuò)的(de)展望(即條件(jià™✔→∏n)預期超額收益率),  是(shì)随機(jī)噪聲(滿足  )。問(wèn)題 (1) 的(de)核心是(shì)找到(dà∞↓o)将  映射到(dào)  的(de)函數(shù)  。


我們暫且将收集和(hé)處理(lǐ)  的(de)問(wèn)題擱置一(yī)™♦₽§旁,而把討(tǎo)論的(de)重點聚焦在找尋  上(shàng)。為(wèi)了(le)→↔給下(xià)文(wén)的(de)討(tǎo)論定下(xià)∏ε基調,讓我們從(cóng) Leo Breiman 提出的(de)關于統 ¶♣±計(jì)建模的(de)兩種文(wén)化(huà)講起。Leo Breiman 在他(tā)的(de)著名論文(wén) Statistical Modeling: × The Two Cultures 中,詳細探討(tǎo)了(le)統計(jì)建模的(de)兩種文(wé®←n)化(huà)(Breiman 2001)。


本文(wén)的(de)討(tǎo)論受到(dào)了(le) Mull<♣<ainathan and Spiess (↕ε±♣2017)、Athey and Imbens (2019) 以及 Kelly and Xiu (2023) 這(zhè)三篇經典論文(wén)的(de)啓發。在討(tεσ∑ǎo)論統計(jì)建模時(shí),你(nǐ)無法也(yě)βδ§✔不(bù)應忽視(shì) Breima♣♣'​n 描述的(de)兩種文(wén)化(huà)。


1 Data Modeling


第一(yī)種是(shì)數(shù)據建₩¶模(data modeling)文(wén)化(huà)。它假設數(s♠•±‍hù)據生(shēng)成過程是(shì)基于某個(gè)随機(jΩ×♣ī)模型,并基于這(zhè)一(yī)假設進行(xíng)統計(jì)推斷。這←♦γ(zhè)種文(wén)化(huà)的(de)主要(yào)目π"‍§标是(shì)為(wèi)了(le)理(lǐ)解數(shù)據中的(de)結©λ構和(hé)關系。換言之,對(duì)于傳統的(de)數(sh≥×←ù)據建模文(wén)化(huà)而言,其≈&核心是(shì)基于一(yī)系列假設和(hé)理(lǐ)論來(lái)理(l₹₽×ǐ)解數(shù)據産生(shēng)的(<∑✘♥de)機(jī)制(zhì)。


人(rén)們熟知(zhī)的(de)計(jì)量經濟學方¶♣法便屬于這(zhè)種文(wén)化(huà);計(¥✔jì)量經濟學依賴于建立明(míng)确的(de)模型來(láiε©↓↕)解釋變量之間(jiān)的(de)關系,通₽φ✔☆(tōng)常模型會(huì)假設線性關系<®¶、誤差的(de)正态分(fēn)布等。這(zhè)種♣←™方法的(de)主要(yào)目标是(shì)參數(sh®₹ù)估計(jì)而非預測,旨在解釋變量之間(£≈jiān)的(de)因果關系。當數(shù)據滿足β→₩>模型假設時(shí),這(zhè)種方法能(néng)提供有(yǒu)力的εδ(de)因果關系解釋。


回到(dào)問(wèn)題 (1),從(cóng)計(jì)量經濟學β<"的(de)角度,我們使用(yòng)協變量的(de)線 "λ&性函數(shù)  (其中  代表未知(zhī)參數(shù))近(jìn)似∞≠♥  ,即假設  和(hé)  之間(jiān)滿足如(rú)下(xià)線性回歸模型:


  


利用(yòng)實際收益率和(hé)協變量數(shù)據,我們可(kě)以通© ±(tōng)過 OLS 估計(jì)上(shàn ✔∞←g)述模型中的(de)參數(shù)  。當模型滿足 Gauss-Markov 定理(lǐ)的(de)假設時(s↓​"hí),OLS 估計(jì)量是(shì&$)最優線性無偏估計(jì)量(BLUE)。為(wèi)了(le)進行σ$(xíng)統計(jì)檢驗,人(rén)們通(tōn≈₹$≠g)常假設随機(jī)擾動滿足正态分(fēn) α布,并以此構造關于  的(de)檢驗統計(jì)量,進而對(duì)協變量的(de)預測信息進行☆↔​σ(xíng)統計(jì)推斷。


傳統的(de)實證研究方法,無論是(shì)時(shí)序₩₽♥回歸還(hái)是(shì)以 Fama and MacBeth (1973) 為(wèi)代表的(de)截面回歸,都(dōu)是(shì)遵循這(zhè)€✘種文(wén)化(huà)。然而,如(rú)果人(€​rén)們關心的(de)是(shì)預測準确性而非參數(shù)估計(jì$≠)的(de)無偏性會(huì)怎樣呢(ne)?例如(rú),我們可(kě)"₩♠以以犧牲無偏性為(wèi)代價構造一(yī)些(xiē)有(yǒu≤€ ©)偏的(de)估計(jì)量,從(cóng)而保證更低(dī)≠πλ≠的(de)方差以抵消偏差的(de)上(shàng)升,并最終達到(dào)整☆←¶₩體(tǐ)均方誤差的(de)降低(dī)。James and Stein (1961) 提出的(de)收縮估計(jì)量就(jiù)是≈π↓♠(shì)這(zhè)樣一(yī)個(gè)例子(zǐ)。因此,具有(yǒε♣¥u)無偏性質的(de) OLS 估計(jì)量并非均方誤×δ•₹差最小(xiǎo)的(de)估計(jì)量。另外(wài),當協變量的(d¶ε¶εe)個(gè)數(shù)很(hěn)多(duō)、逼近λ♥™(jìn)甚至超過樣本個(gè)數(shù)又(yòuα¶σ≥)會(huì)怎樣呢(ne)?


2 Algorithmic Modeling


第二種是(shì)算(suàn)法建模(algori↕‍  thmic modeling)文(wén)化(huà)。這(zhè)種方法更加×₹≥注重預測的(de)準确性而非模型的(de)解釋性。算(suδ àn)法建模通(tōng)常不(bù)會(huì)'®&¶關于數(shù)據生(shēng)成過程做✔♥(zuò)出嚴格的(de)結構性假設,而是(shì)使用(yòng)✘​•∑數(shù)據驅動的(de)方法來(lái)直接從(có<Ω↔ ng)數(shù)據中學習(xí),即人(rén)們常說∑  ♣(shuō)的(de)``讓數(shù)據發聲≤♠''。包括決策樹(shù)、随機(jī)森(sēn)林(lín)₽×δ、神經網絡等機(jī)器(qì)學習(xí)模型就(ji∑ ÷πù)是(shì)這(zhè)種文(wén)化(huà '​)的(de)代表。這(zhè)種方法的(de)優勢™λ•✘是(shì)它可(kě)以靈活地(dì)處理(lǐ)複雜(z‌¶á)、非線性和(hé)高(gāo)維的(de)數(shù)據☆§'←,而無需假設數(shù)據的(de)結構或關系。當然,機(¥ Ωγjī)器(qì)學習(xí)模型常被人(rén)诟病的(de)是(shì✘×↑ )其黑(hēi)箱特性,即缺乏傳統模型的(de)可(k₩¥ě)解釋性。


再回到(dào)實證資産定價。我們可(kě)以将機(jī)器(qì)學習(xí£§βε)中的(de)監督學習(xí)視(shì)為(wèi)函數(shù)€§逼近(jìn)問(wèn)題,從(cóng)而去(qù)找尋 ♥↓©₹ 。在這(zhè)種文(wén)化(huà)下(γ✔φ₽xià),我們不(bù)對(duì)數(shù)據做(zuò§★β​)任何結構性假設,而是(shì)選定一(yī)類模型 ε•↕(例如(rú)神經網絡)  并在給定的(de)損失函數(shù)(loss fun÷γ&←ction)  下(xià)從(cóng)數(shù)據中學習(xí)模型 '★的(de)參數(shù)(用(yòng)來(lái)供模型學習(xí)φ• 的(de)數(shù)據被稱為(wèi)訓練集數(shù)據)。


為(wèi)了(le)便于討(tǎo)論,令  代表訓練集的(de)第  個(gè)觀測值(此處下(xià)标  表示觀測值    而非個(gè)股,即  表示某期某個(gè)股票(piào)的(de)協變量以及和(hé)它對(du>≠π↑ì)應的(de)該股票(piào)下(xià)一(yī)期的(de)超額收益率β‌β↑),并假設一(yī)共有(yǒu)  個(gè)觀測值(例如(rú),對(duì)于期數(shù)為(wβ​èi)  、資産個(gè)數(shù)為(wèi)  的(de)面闆數(shù)據,  )。機(jī)器(qì)學習(xí)會(huì)以最小(xiǎo)化&☆(huà)所有(yǒu)觀測值的(de)損失函數(shù)均值為(w≤♣®èi)目标估計(jì)  的(de)參數(shù),即


  


然而,對(duì)于機(jī)器(qì)學習(xí)來$≠(lái)說(shuō),建模的(de)核心是(shì)最優化(huà)模型®‌✘↑在樣本外(wài)的(de)泛化(huà)性能(néng→'★),或最小(xiǎo)化(huà)泛化(huà™☆ )誤差。因此,為(wèi)了(le)防止式 (2) 這(zhè ↑☆π)個(gè)樸素優化(huà)目标過度拟合訓$®&α練集數(shù)據,伴随機(jī)器(q£££​ì)學習(xí)而來(lái)的(de)一(yī¶±&$)個(gè)重要(yào)概念就(jiù)是(shì)₩Ωπ€正則化(huà)(regularizati ≠φ↔on)。在式 (2) 中加入正則化(huà∑™Ω¥)項可(kě)得(de):


  


正則化(huà)項  通(tōng)過約束模型的(de)複雜(zá)度來(lái)調¥βα∞節偏差(bias)和(hé)方差(variance)之間(jiān)的☆•(de)權衡(bias-variance tradeoff☆‍ ₽),進而實現(xiàn)最優的(de)泛化(huà♥>•≤)性能(néng)。令  表示某個(gè)樣本外(wài)的(d‌↔α©e)新觀測值,其中  由真實模型以及噪聲決定,即  (假設噪聲的(de)方差為(wèi)  )。另一(yī)方面,模型  的(de)預測值為(wèi)  。模型的(de)泛化(huà)誤差  經過推導可(kě)分(fēn)解為(wèi):


  


式中第一(yī)項是(shì)随機(jī)噪聲的(de)方差,不(​∞bù)可(kě)被消除;第二項表示偏差的(de)平方;第三項表示方差。偏差&±β♦是(shì)模型預測的(de)期望值與真實值£α∏之間(jiān)的(de)差異。高(gāo)偏差意味著β×(zhe)模型的(de)預測值在整體(tǐ)上↔♦​®(shàng)偏離(lí)了(le)真實值,即模型過于簡單‍ ↔×(欠拟合),沒有(yǒu)捕捉到(dào)數(sσγ®hù)據中潛藏的(de)模式。方差衡量了(le)模型預測值的(de)¶​≈變化(huà)範圍。高(gāo)方差意味著β§(zhe)模型對(duì)于訓練集數(shù)據的₹$₽(de)小(xiǎo)波動非常敏感,即模型過于複雜(zá ≠∑)(過拟合),捕捉了(le)訓練數(shù)據中的(de)噪聲。最優的(de)&±模型應該一(yī)方面足夠靈活以捕捉數(shù)據內(γ•nèi)在關聯,而另一(yī)方面又(y★π≥òu)不(bù)至于太過靈活以至于對(duì)噪聲建模。


最優的(de)正則化(huà)強度一(yī)般通(tōng∑∞ ↔)過超參數(shù)調優(hyperparameter tuning‍®Ω)确定。為(wèi)此,可(kě)以将樣本數(♥φ shù)據劃分(fēn)成訓練集和(hé)測試集,并使用(yòng)交叉驗證™​(cross-validation)來(lái)評估不(bù)同正則α♦ε•化(huà)強度下(xià)模型的(de)泛化(huà)能(néng)‍  ×力。相(xiàng)對(duì)于計(jì)量經濟學,更加靈活的(deσβ✔)機(jī)器(qì)學習(xí)方法可(kě)以逼近(jìn)非線性、高(gπΩāo)維和(hé)複雜(zá)的(de)函數(shù)關系,而無★∏ ↑需顯式地(dì)設定模型的(de)形式。這(zhè)也(yě)讓機(jσ←✔ī)器(qì)學習(xí)成為(wèi)應對(duì)當下(xià ≥)實證資産定價挑戰的(de)天然工(gōng)具。


3 Comment


當我們透過兩種文(wén)化(huà)審視(shì)計(jì)量經濟學★λ和(hé)機(jī)器(qì)學習(xí)Ω₩時(shí),可(kě)以清晰地(dì)看(kàn)到§®(dào)二者的(de)差異。正如(rú) Brei&$₩©man (2001) 所強調的(de)那(₽≥∞&nà)樣,傳統統計(jì)方法和(hé)機(jī)器(qì)學∏₹ε習(xí)研究目标的(de)最根本差異在于,前者在假設數(s‌γhù)據模型已知(zhī)的(de)前提下(xià)♦★估計(jì)模型參數(shù)并進行(xíλ>•ng)統計(jì)檢驗;而後者在未知(zhī)數(shù)據模型的(de)→ ≠前提下(xià)最大(dà)化(huà)預測準确性(或最小(xi¥✘§÷ǎo)化(huà)泛化(huà)誤差)。


換言之,對(duì)于計(jì)量經濟學而言,參數(sh✘ →ù)估計(jì)先于預測準确性;而對(duì)于機(jī)→φ✘器(qì)學習(xí)來(lái)說(shuō),預測準确性先于參數(s<λ&hù)估計(jì)。


如(rú)果從(cóng)資産定價的(de)實證研究‍γ 目标來(lái)審視(shì)這(zhè)一(yī)差異,計(jì₩¥♥♥)量經濟學主要(yào)關注于定價模型能(néng)否在樣本內(nèi)(in-sample)為(wèi)測試資産(test assetφ≥)定價 —— 即測試資産在給定定價模型下(xi≤<Ω♣à)的(de)定價誤差是(shì)否在統計(jì)∞>↕上(shàng)為(wèi)零;而機(jī)器(qì)學習(xí)則主×σΩ♠要(yào)關注于基于定價模型預測而構造的(de)投資組合在•÷★樣本外(wài)(out-of-sample)能(néng)否獲得(de)最Ω↓≤優的(de)風(fēng)險調整後收益(如(rú)夏普比率)。


本文(wén)從(cóng)兩種文(wén)化(Ω&huà)出發為(wèi)實證研究範式的(de)轉變奠定了(le)基礎。在φ≠₹≠本系列的(de)後續,我将從(cóng)更微(wēi)觀的(d•α←‍e)層面探討(tǎo)它們各自(zì)所遇到(dào)的(de)≤¶↑挑戰。



參考文(wén)獻

Athey, S. and G. W. Imbens '​£(2019). Machine lear&‌εning methods that economists shφφδould know about. Annual Review of Economics 11, 685-725.

Breiman, L. (2001). Statist'" ical modeling: The two cu♥ ltures (with comments and a rejoinder™£€ by the author). Statistical Science 16¥ε→(3), 199-231.

Fama, E. F. and J. D. MacBeth÷​ ∑ (1973). Risk, return, and ×Ω≠♠equilibrium: Empirical ☆&tests. Journal of Political Economy>₩λ↓ 81(3), 607-636.

Kelly, B. T. and D. Xiu (202→β3). Financial Machine Learn ♥≈ing. Foundations and Trends® in Financπ&αe 13(3-4), 205-363.

Mullainathan, S. and J. Spiess (201✔•7). Machine learning: Aπ®n applied econometric ♥∑'↔approach. Journal of Economic Perspectives 31(2), 87-106.



免責聲明(míng):入市(shì)有(yǒu)風(fēng)險,投資需謹>'× 慎。在任何情況下(xià),本文(wén)的(de)內(nèi)容、信息及數(¥ ₽≥shù)據或所表述的(de)意見(jiàn)并不(bù)  構成對(duì)任何人(rén)的(deε♦ )投資建議(yì)。在任何情況下(xià),本→ ≈‍文(wén)作(zuò)者及所屬機(jī)構不(bù)對 ≠ε(duì)任何人(rén)因使用(yòng)本文(wén)的(de)₩®任何內(nèi)容所引緻的(de)任何損失負任∞↓ ≠何責任。除特别說(shuō)明(míng)外(wài),文(wén)↕←÷中圖表均直接或間(jiān)接來(lái)自(zì)于相(xiàng)應論✘↓∑文(wén),僅為(wèi)介紹之用(yò∞™ng),版權歸原作(zuò)者和(hé)期刊所有(yǒu)。