資産定價中的(de)實證挑戰 (III)

發布時(shí)間(jiān)：2025-02-10 | ∏β® 來(lái)源: 川總寫量化(huà)

作(zuò)者：石川

摘要(yào)：本文(wén)對(duì)比傳統計(jì)量經濟學與機(jī)器(qì)學習‌±(xí)的(de)建模範式。兩種範式在目标導向（解釋性 vs 預測≈♦性）與建模邏輯（假設驅動 vs 數(shù)據驅動）的(de)根本差異♥♦×≈，正重塑實證資産定價的(de)方法論體(tǐ)系，為(w™↓↔èi)應對(duì)高(gāo)維非線性定價難題提供新路(lù)徑。

0 前文(wén)回顧

前文(wén)《資産定價中的(de)實證挑戰 (I)》和(hé)《資産定價中的(de)實證挑戰 (II)》勾勒了(le)當下(xià)實證資産定價面≈≥'←臨的(de)各種挑戰。作(zuò)為(wèi)系列的(de)第三篇，本文(wé∏£∞n)探討(tǎo)這(zhè)種挑戰對(duì)統計(jì)建模有(yǒu)怎‌Ω 樣的(de)啓示。對(duì)實證資産定★♥α價來(lái)說(shuō)，以下(xi‌≈à)這(zhè)組公式描述它的(de)核心問(wèn)♥™±題：

$\begin{array}{rll} r_{i,t+1}&=&\mathbb{E}[r_{i,t+1}|\pmb{x}_{i,t}]+e_{i,t+1},\quad\quad(1)\\ \mathbb{E}[r_{i,t+1}|\pmb{x}_{i,t}]&=&f(\pmb{x}_{i,t}), \end{array}$

其中 $r_{i,t+1}$ 是(shì) $t+1$ 期資産 $i$ 的(de)超額收益率，高(gāo)維向量 $\pmb{x}_{i,t}$ 表征了(le)我們在 $t$ 期能(néng)夠獲得(de)的(de)全部信息， $\mathbb{E}[r_{i,t+1}|\pmb{x}_{i,t}]$ 是(shì)基于 $\pmb{x}_{i,t}$ 所含信息對(duì)資産 $i$ 的(de) $t+1$ 期超額收益率所做(zuò)的(de)展望（即條件(jià™✔→∏n)預期超額收益率）， $e_{i,t+1}$ 是(shì)随機(jī)噪聲（滿足 $\mathbb{E}[e_{i,t+1}|\pmb{x}_{i,t}]=0$ ）。問(wèn)題 (1) 的(de)核心是(shì)找到(dà∞↓o)将 $\pmb{x}_{i,t}$ 映射到(dào) $\mathbb{E}[r_{i,t+1}|\pmb{x}_{i,t}]$ 的(de)函數(shù) $f()$ 。

我們暫且将收集和(hé)處理(lǐ) $\pmb{x}_{i,t}$ 的(de)問(wèn)題擱置一(yī)™♦₽§旁，而把討(tǎo)論的(de)重點聚焦在找尋 $f()$ 上(shàng)。為(wèi)了(le)→↔給下(xià)文(wén)的(de)討(tǎo)論定下(xià)∏ε基調，讓我們從(cóng) Leo Breiman 提出的(de)關于統 ¶♣±計(jì)建模的(de)兩種文(wén)化(huà)講起。Leo Breiman 在他(tā)的(de)著名論文(wén) Statistical Modeling: × The Two Cultures 中，詳細探討(tǎo)了(le)統計(jì)建模的(de)兩種文(wé®←n)化(huà)（Breiman 2001）。

本文(wén)的(de)討(tǎo)論受到(dào)了(le) Mull<♣<ainathan and Spiess (↕ε±♣2017)、Athey and Imbens (2019) 以及 Kelly and Xiu (2023) 這(zhè)三篇經典論文(wén)的(de)啓發。在討(tεσ∑ǎo)論統計(jì)建模時(shí)，你(nǐ)無法也(yě)βδ§✔不(bù)應忽視(shì) Breima♣♣'n 描述的(de)兩種文(wén)化(huà)。

1 Data Modeling

第一(yī)種是(shì)數(shù)據建₩¶模（data modeling）文(wén)化(huà)。它假設數(s♠•±‍hù)據生(shēng)成過程是(shì)基于某個(gè)随機(jΩ×♣ī)模型，并基于這(zhè)一(yī)假設進行(xíng)統計(jì)推斷。這←♦γ(zhè)種文(wén)化(huà)的(de)主要(yào)目π"‍§标是(shì)為(wèi)了(le)理(lǐ)解數(shù)據中的(de)結©λ構和(hé)關系。換言之，對(duì)于傳統的(de)數(sh≥×←ù)據建模文(wén)化(huà)而言，其≈&核心是(shì)基于一(yī)系列假設和(hé)理(lǐ)論來(lái)理(l₹₽×ǐ)解數(shù)據産生(shēng)的(<∑✘♥de)機(jī)制(zhì)。

人(rén)們熟知(zhī)的(de)計(jì)量經濟學方¶♣法便屬于這(zhè)種文(wén)化(huà)；計(¥✔jì)量經濟學依賴于建立明(míng)确的(de)模型來(láiε©↓↕)解釋變量之間(jiān)的(de)關系，通₽φ✔☆(tōng)常模型會(huì)假設線性關系<®¶、誤差的(de)正态分(fēn)布等。這(zhè)種♣←™方法的(de)主要(yào)目标是(shì)參數(sh®₹ù)估計(jì)而非預測，旨在解釋變量之間(£≈jiān)的(de)因果關系。當數(shù)據滿足β→₩>模型假設時(shí)，這(zhè)種方法能(néng)提供有(yǒu)力的εδ(de)因果關系解釋。

回到(dào)問(wèn)題 (1)，從(cóng)計(jì)量經濟學β<"的(de)角度，我們使用(yòng)協變量的(de)線 "λ&性函數(shù) $\hat f(\pmb{x}_{i,t}) = \pmb{\theta}^\top\pmb{x}_{i,t}$ （其中 $\pmb{\theta}$ 代表未知(zhī)參數(shù)）近(jìn)似∞≠♥ $f$ ，即假設 $r_{i,t+1}$ 和(hé) $\pmb{x}_{i,t}$ 之間(jiān)滿足如(rú)下(xià)線性回歸模型：

$r_{i,t+1} = \pmb{\theta}^\top\pmb{x}_{i,t}+e_{i,t+1}.$

利用(yòng)實際收益率和(hé)協變量數(shù)據，我們可(kě)以通© ±(tōng)過 OLS 估計(jì)上(shàn ✔∞←g)述模型中的(de)參數(shù) $\pmb{\theta}$ 。當模型滿足 Gauss-Markov 定理(lǐ)的(de)假設時(s↓"hí)，OLS 估計(jì)量是(shì&$)最優線性無偏估計(jì)量（BLUE）。為(wèi)了(le)進行σ$(xíng)統計(jì)檢驗，人(rén)們通(tōn≈₹$≠g)常假設随機(jī)擾動滿足正态分(fēn) α布，并以此構造關于 $\pmb{\theta}$ 的(de)檢驗統計(jì)量，進而對(duì)協變量的(de)預測信息進行☆↔σ(xíng)統計(jì)推斷。

傳統的(de)實證研究方法，無論是(shì)時(shí)序₩₽♥回歸還(hái)是(shì)以 Fama and MacBeth (1973) 為(wèi)代表的(de)截面回歸，都(dōu)是(shì)遵循這(zhè)€✘種文(wén)化(huà)。然而，如(rú)果人(€rén)們關心的(de)是(shì)預測準确性而非參數(shù)估計(jì$≠)的(de)無偏性會(huì)怎樣呢(ne)？例如(rú)，我們可(kě)"₩♠以以犧牲無偏性為(wèi)代價構造一(yī)些(xiē)有(yǒu≤€ ©)偏的(de)估計(jì)量，從(cóng)而保證更低(dī)≠πλ≠的(de)方差以抵消偏差的(de)上(shàng)升，并最終達到(dào)整☆←¶₩體(tǐ)均方誤差的(de)降低(dī)。James and Stein (1961) 提出的(de)收縮估計(jì)量就(jiù)是≈π↓♠(shì)這(zhè)樣一(yī)個(gè)例子(zǐ)。因此，具有(yǒε♣¥u)無偏性質的(de) OLS 估計(jì)量并非均方誤×δ•₹差最小(xiǎo)的(de)估計(jì)量。另外(wài)，當協變量的(d¶ε¶εe)個(gè)數(shù)很(hěn)多(duō)、逼近λ♥™(jìn)甚至超過樣本個(gè)數(shù)又(yòuα¶σ≥)會(huì)怎樣呢(ne)？

2 Algorithmic Modeling

第二種是(shì)算(suàn)法建模（algori↕‍ thmic modeling）文(wén)化(huà)。這(zhè)種方法更加×₹≥注重預測的(de)準确性而非模型的(de)解釋性。算(suδ àn)法建模通(tōng)常不(bù)會(huì)'®&¶關于數(shù)據生(shēng)成過程做✔♥(zuò)出嚴格的(de)結構性假設，而是(shì)使用(yòng)✘•∑數(shù)據驅動的(de)方法來(lái)直接從(có<Ω↔ ng)數(shù)據中學習(xí)，即人(rén)們常說∑ ♣(shuō)的(de)``讓數(shù)據發聲≤♠''。包括決策樹(shù)、随機(jī)森(sēn)林(lín)₽×δ、神經網絡等機(jī)器(qì)學習(xí)模型就(ji∑ ÷πù)是(shì)這(zhè)種文(wén)化(huà ')的(de)代表。這(zhè)種方法的(de)優勢™λ•✘是(shì)它可(kě)以靈活地(dì)處理(lǐ)複雜(z‌¶á)、非線性和(hé)高(gāo)維的(de)數(shù)據☆§'←，而無需假設數(shù)據的(de)結構或關系。當然，機(¥ Ωγjī)器(qì)學習(xí)模型常被人(rén)诟病的(de)是(shì✘×↑ )其黑(hēi)箱特性，即缺乏傳統模型的(de)可(k₩¥ě)解釋性。

再回到(dào)實證資産定價。我們可(kě)以将機(jī)器(qì)學習(xí£§βε)中的(de)監督學習(xí)視(shì)為(wèi)函數(shù)€§逼近(jìn)問(wèn)題，從(cóng)而去(qù)找尋 ♥↓©₹ $f$ 。在這(zhè)種文(wén)化(huà)下(γ✔φ₽xià)，我們不(bù)對(duì)數(shù)據做(zuò§★β)任何結構性假設，而是(shì)選定一(yī)類模型 ε•↕（例如(rú)神經網絡） $\hat f\in \mathcal{F}$ 并在給定的(de)損失函數(shù)（loss fun÷γ&←ction） $\mathcal{L}$ 下(xià)從(cóng)數(shù)據中學習(xí)模型 '★的(de)參數(shù)（用(yòng)來(lái)供模型學習(xí)φ• 的(de)數(shù)據被稱為(wèi)訓練集數(shù)據）。

為(wèi)了(le)便于討(tǎo)論，令 $(\pmb{x}_i, y_i)$ 代表訓練集的(de)第 $i$ 個(gè)觀測值（此處下(xià)标 $i$ 表示觀測值 $i$ 而非個(gè)股，即 $(\pmb{x}_i, y_i)$ 表示某期某個(gè)股票(piào)的(de)協變量以及和(hé)它對(du>≠π↑ì)應的(de)該股票(piào)下(xià)一(yī)期的(de)超額收益率β‌β↑），并假設一(yī)共有(yǒu) $n$ 個(gè)觀測值（例如(rú)，對(duì)于期數(shù)為(wβèi) $T$ 、資産個(gè)數(shù)為(wèi) $N$ 的(de)面闆數(shù)據， $n = N\times T$ ）。機(jī)器(qì)學習(xí)會(huì)以最小(xiǎo)化&☆(huà)所有(yǒu)觀測值的(de)損失函數(shù)均值為(w≤♣®èi)目标估計(jì) $\hat f$ 的(de)參數(shù)，即

$\displaystyle\text{minimize }\frac{1}{n}\sum_{i=1}^n \mathcal{L}(\hat f(\pmb{x}_i), y_i).\quad\quad (2)$

然而，對(duì)于機(jī)器(qì)學習(xí)來$≠(lái)說(shuō)，建模的(de)核心是(shì)最優化(huà)模型®‌✘↑在樣本外(wài)的(de)泛化(huà)性能(néng→'★)，或最小(xiǎo)化(huà)泛化(huà™☆ )誤差。因此，為(wèi)了(le)防止式 (2) 這(zhè ↑☆π)個(gè)樸素優化(huà)目标過度拟合訓$®&α練集數(shù)據，伴随機(jī)器(q£££ì)學習(xí)而來(lái)的(de)一(yī¶±&$)個(gè)重要(yào)概念就(jiù)是(shì)₩Ωπ€正則化(huà)（regularizati ≠φ↔on）。在式 (2) 中加入正則化(huà∑™Ω¥)項可(kě)得(de)：

$\displaystyle \text{minimize }\frac{1}{n}\sum_{i=1}^n \mathcal{L}(\hat f(\pmb{x}_i), y_i)+\mathcal{R}(\hat f).$

正則化(huà)項 $\mathcal{R}(\hat f)$ 通(tōng)過約束模型的(de)複雜(zá)度來(lái)調¥βα∞節偏差（bias）和(hé)方差（variance）之間(jiān)的☆•(de)權衡（bias-variance tradeoff☆‍ ₽），進而實現(xiàn)最優的(de)泛化(huà♥>•≤)性能(néng)。令 $(\pmb{x}, y)$ 表示某個(gè)樣本外(wài)的(d‌↔α©e)新觀測值，其中 $y$ 由真實模型以及噪聲決定，即 $y=f(\pmb{x})+e$ （假設噪聲的(de)方差為(wèi) $\sigma^2$ ）。另一(yī)方面，模型 $\hat f$ 的(de)預測值為(wèi) $\hat f(\pmb{x})$ 。模型的(de)泛化(huà)誤差 $\mathbb{E}[(y-\hat f(\pmb{x}))^2]$ 經過推導可(kě)分(fēn)解為(wèi)：

$\begin{array}{rll} \mathbb{E}[(y - \hat{f}(\pmb{x}))^2] &=& \text{var}(e)+(f - \mathbb{E}[\hat{f}])^2+\text{var} [\hat{f}]\\ &=& \sigma^2+\text{bias}[\hat f(\pmb{x})]^2+\text{var} [\hat{f}(\pmb{x})], \end{array}$

式中第一(yī)項是(shì)随機(jī)噪聲的(de)方差，不(∞bù)可(kě)被消除；第二項表示偏差的(de)平方；第三項表示方差。偏差&±β♦是(shì)模型預測的(de)期望值與真實值£α∏之間(jiān)的(de)差異。高(gāo)偏差意味著β×(zhe)模型的(de)預測值在整體(tǐ)上↔♦®(shàng)偏離(lí)了(le)真實值，即模型過于簡單‍ ↔×（欠拟合），沒有(yǒu)捕捉到(dào)數(sσγ®hù)據中潛藏的(de)模式。方差衡量了(le)模型預測值的(de)¶≈變化(huà)範圍。高(gāo)方差意味著β§(zhe)模型對(duì)于訓練集數(shù)據的₹$₽(de)小(xiǎo)波動非常敏感，即模型過于複雜(zá ≠∑)（過拟合），捕捉了(le)訓練數(shù)據中的(de)噪聲。最優的(de)&±模型應該一(yī)方面足夠靈活以捕捉數(shù)據內(γ•nèi)在關聯，而另一(yī)方面又(y★π≥òu)不(bù)至于太過靈活以至于對(duì)噪聲建模。

最優的(de)正則化(huà)強度一(yī)般通(tōng∑∞ ↔)過超參數(shù)調優（hyperparameter tuning‍®Ω）确定。為(wèi)此，可(kě)以将樣本數(♥φ shù)據劃分(fēn)成訓練集和(hé)測試集，并使用(yòng)交叉驗證™（cross-validation）來(lái)評估不(bù)同正則α♦ε•化(huà)強度下(xià)模型的(de)泛化(huà)能(néng)‍ ×力。相(xiàng)對(duì)于計(jì)量經濟學，更加靈活的(deσβ✔)機(jī)器(qì)學習(xí)方法可(kě)以逼近(jìn)非線性、高(gπΩāo)維和(hé)複雜(zá)的(de)函數(shù)關系，而無★∏ ↑需顯式地(dì)設定模型的(de)形式。這(zhè)也(yě)讓機(jσ←✔ī)器(qì)學習(xí)成為(wèi)應對(duì)當下(xià ≥)實證資産定價挑戰的(de)天然工(gōng)具。

3 Comment

當我們透過兩種文(wén)化(huà)審視(shì)計(jì)量經濟學★λ和(hé)機(jī)器(qì)學習(xí)Ω₩時(shí)，可(kě)以清晰地(dì)看(kàn)到§®(dào)二者的(de)差異。正如(rú) Brei&$₩©man (2001) 所強調的(de)那(₽≥∞&nà)樣，傳統統計(jì)方法和(hé)機(jī)器(qì)學∏₹ε習(xí)研究目标的(de)最根本差異在于，前者在假設數(s‌γhù)據模型已知(zhī)的(de)前提下(xià)♦★估計(jì)模型參數(shù)并進行(xíλ>•ng)統計(jì)檢驗；而後者在未知(zhī)數(shù)據模型的(de)→ ≠前提下(xià)最大(dà)化(huà)預測準确性（或最小(xi¥✘§÷ǎo)化(huà)泛化(huà)誤差）。

換言之，對(duì)于計(jì)量經濟學而言，參數(sh✘ →ù)估計(jì)先于預測準确性；而對(duì)于機(jī)→φ✘器(qì)學習(xí)來(lái)說(shuō)，預測準确性先于參數(s<λ&hù)估計(jì)。

如(rú)果從(cóng)資産定價的(de)實證研究‍γ 目标來(lái)審視(shì)這(zhè)一(yī)差異，計(jì₩¥♥♥)量經濟學主要(yào)關注于定價模型能(néng)否在樣本內(nèi)（in-sample）為(wèi)測試資産（test assetφ≥）定價 —— 即測試資産在給定定價模型下(xi≤<Ω♣à)的(de)定價誤差是(shì)否在統計(jì)∞>↕上(shàng)為(wèi)零；而機(jī)器(qì)學習(xí)則主×σΩ♠要(yào)關注于基于定價模型預測而構造的(de)投資組合在•÷★樣本外(wài)（out-of-sample）能(néng)否獲得(de)最Ω↓≤優的(de)風(fēng)險調整後收益（如(rú)夏普比率）。

本文(wén)從(cóng)兩種文(wén)化(Ω&huà)出發為(wèi)實證研究範式的(de)轉變奠定了(le)基礎。在φ≠₹≠本系列的(de)後續，我将從(cóng)更微(wēi)觀的(d•α←‍e)層面探討(tǎo)它們各自(zì)所遇到(dào)的(de)≤¶↑挑戰。

參考文(wén)獻

Athey, S. and G. W. Imbens '£(2019). Machine lear&‌εning methods that economists shφφδould know about. Annual Review of Economics 11, 685-725.

Breiman, L. (2001). Statist'" ical modeling: The two cu♥ ltures (with comments and a rejoinder™£€ by the author). Statistical Science 16¥ε→(3), 199-231.

Fama, E. F. and J. D. MacBeth÷ ∑ (1973). Risk, return, and ×Ω≠♠equilibrium: Empirical ☆&tests. Journal of Political Economy>₩λ↓ 81(3), 607-636.

Kelly, B. T. and D. Xiu (202→β3). Financial Machine Learn ♥≈ing. Foundations and Trends® in Financπ&αe 13(3-4), 205-363.

Mullainathan, S. and J. Spiess (201✔•7). Machine learning: Aπ®n applied econometric ♥∑'↔approach. Journal of Economic Perspectives 31(2), 87-106.

免責聲明(míng)：入市(shì)有(yǒu)風(fēng)險，投資需謹>'× 慎。在任何情況下(xià)，本文(wén)的(de)內(nèi)容、信息及數(¥ ₽≥shù)據或所表述的(de)意見(jiàn)并不(bù) 構成對(duì)任何人(rén)的(deε♦ )投資建議(yì)。在任何情況下(xià)，本→ ≈‍文(wén)作(zuò)者及所屬機(jī)構不(bù)對 ≠ε(duì)任何人(rén)因使用(yòng)本文(wén)的(de)₩®任何內(nèi)容所引緻的(de)任何損失負任∞↓ ≠何責任。除特别說(shuō)明(míng)外(wài)，文(wén)↕←÷中圖表均直接或間(jiān)接來(lái)自(zì)于相(xiàng)應論✘↓∑文(wén)，僅為(wèi)介紹之用(yò∞™ng)，版權歸原作(zuò)者和(hé)期刊所有(yǒu)。

合格投資者聲明(míng)

資産定價中的(de)實證挑戰 (III)