A 股市(shì)場(chǎng)中的(de)科(k×✔ē)技(jì)動量

發布時(shí)間(jiān):2024-07-27  | &nb©±×sp; α" 來(lái)源: 川總寫量化(huà)

作(zuò)者:石川

摘要(yào):本文(wén)針對(duì) A 股,使用(yòng)δ≠↔ BGE 大(dà)語言模型構造并檢驗科(kē)✘×δ技(jì)動量效應。實證結果表明(míng),基于 BGE 和(hé)基于 I£γ₽™PC 分(fēn)類構造的(de)科(kē)技(jì)動量是(shì)互補而↓ ±非替代關系。二者均含有(yǒu)關于 c♠≈>↕ross-section 的(de)預測信息。


0 引言


如(rú)今,各位對(duì)另類數(shù)據早已不(bù)再陌生€♠✘↕(shēng)。在另類數(shù)據的(de)應用(y∏±®§òng)中,各種“花(huā)式動量”(即從(c↕ ‍¥óng)不(bù)同信息源所構造的(de)企業(yè‍☆∞)間(jiān)關聯導緻的(de)動量溢出效應)最深入人(r♣βén)心。


早在幾年(nián)前,Lee et al. (2019) 使用(yòng)專利數(shù)據針對(duì)美(→$měi)股構造了(le)科(kē)技(jì)動量異象,它可(kě)以↔♦≠>獲得(de)常見(jiàn)風(fēng¥♠∞)險因子(zǐ)無法解釋的(de)超額收益。><在構造科(kē)技(jì)動量時(shí),該文(wén)使用(yòα₹ng)專利的(de) IPC 分(fēn)類(本文(wénσ₩)附錄 A 對(duì) IPC 分(fēn)類進行(xíng)了(le☆♥→♣)簡介),得(de)到(dào)每個(gè)公司的(dε≤e)專利分(fēn)類分(fēn)布,然後計(jì)算(suàn)公司分(✔≥fēn)布之間(jiān)的(de)兩兩餘弦相(x​₽φ∏iàng)似度(相(xiàng)似度越高(gāo)說(shuō)&γ↔γ明(míng)二者的(de)關聯越強)。↕♣之後,Bekkerman et al. (20₽✔•∞23) 升級了(le)度量相(xiàng)似度的(de)方法。♦★ε與前文(wén)不(bù)同,該文(wén)沒有(yǒu)使用ε¶ (yòng) IPC 分(fēn)類,而是(shì)直接對(duì)專利進行®>× (xíng)文(wén)本分(fēn)析,通(tōng)過提取專業(yπ ‌✔è)術(shù)語并計(jì)算(suàn)其重合度來(lái)描述公司之間(¥σ£jiān)的(de)相(xiàng)似程度。


一(yī)旦有(yǒu)了(le)相(xiàng)似度↔®‌,便可(kě)以按照(zhào)如(rú)下(¥∏xià)的(de)方法構造科(kē)技(jì)動量變量:


  


式中  表示  期和(hé)焦點公司i相(xiàng)關聯的(de)∏π'φ關聯公司集合,  為(wèi)  期關聯公司  和(hé)焦點公司  的(de)專利相(xiàng)似度(關聯度)指标,  為(wèi)  期關聯公司  的(de)收益率。由該定義可(kě)知(zhī),焦≥≥↓∞點公司的(de)科(kē)技(jì)動量是(shì)  期其關聯公司收益率的(de)加權平均(即關聯收₩α≤益率),權重由關聯度強弱決定。利用(yòng)  ,做(zuò)多(duō)科(kē)技(jì)動量高(gā<®↑'o)的(de)股票(piào),同時(shí)做(zuò)空(kλ₩‌ōng)科(kē)技(jì)動量低(dī)的≤♥(de)股票(piào)。實證結果表明(míng)αφ,科(kē)技(jì)動量包含了(le)關于預期收益率截面差異的☆₽≠π(de)增量信息。


近(jìn)年(nián)來(lái),專利數 ★(shù)據在 A 股市(shì)場(chǎng)中的(d‌​‌☆e)實證研究也(yě)不(bù)在少(sh<∞₽ǎo)數(shù)。鑒于這(zhè)個(gè)趨勢,我和(hé)秩鼎(QuantData)的(de)劉相(xiàng)峰和(hé)趙爽兩位老(₩₹lǎo)師(shī)合作(zuò),利用♣ ↕✔(yòng)秩鼎高(gāo)質量和(hé)長(cháng)跨度的(de)專←≤利數(shù)據進行(xíng)了(le)科(kē)技(jìα★)動量的(de)實證分(fēn)析(專利數(shù)據✔★質量對(duì)于實證研究至關重要(yào),附錄 B & >¶對(duì)此進行(xíng)了(le)介紹)。從(cóng)上(shà‍ ε¥ng)面的(de)介紹可(kě)知(zh₩∞ī),構造科(kē)技(jì)動量的(de)​α核心是(shì)通(tōng)過專利數(shù)據刻畫(huà)公司之間₽•(jiān)的(de)相(xiàng)似度;而公司相(xiàng)≥¶€似度的(de)計(jì)算(suàn)依賴于公司在不(bù)同專σα利主題上(shàng)的(de)分(fēn)布。所以,實證的(de)重點就(jiù)是(shì)專利主題的(de)劃分(fēn₹φ♠)。


與 Lee et al. (2019) 和(hé) B∏↓ekkerman et al. (2023) 不(b≠$ù)同,我們最初的(de)構想是(shì)借鑒 Bybee et al. (forthcom®★•®ing) 在新聞數(shù)據上(shàng)使用(yòng) ≤↑↑↓LDA 的(de)方法來(lái)将專利數(shù)據劃分(fēn)為(♠↓wèi)不(bù)同的(de)主題,并基于 LDA 主題取代 φ•‌IPC 分(fēn)類計(jì)算(suàn)公司的$λ₽(de)相(xiàng)似度。不(bù)過,專利的(de)文(wén)±♠ ​本信息有(yǒu)一(yī)些(xiē)自(z☆☆≤£ì)身(shēn)的(de)特性使得(de) LDA 的∞$(de)效果并不(bù)理(lǐ)想。之後,我們轉而δ↔使用(yòng)了(le) BGE 大(dà)語言模型構建語義向量并劃分(f£←☆ēn)主題,取得(de)了(le)不(bù)錯(cuò)的(de)結果。作(♣≈zuò)為(wèi)對(duì)比,我們也(yě)仿照(zhào) LΩ$♦ee et al. (2019) 使用(yòng)了(le) IP'↕₩₹C 分(fēn)類。實證結果表明(míng),​<™ 無論在全 A 股還(hái)是(shì)↑♥<€寬基指數(shù)成分(fēn)股,使用(yòng) BGE ≈$模型和(hé) IPC 分(fēn)類并不(bù)沖突,二者<€  獨立來(lái)看(kàn)都(dōu)可(kě)以≈↔獲得(de)顯著的(de)超額收益,且在控≠← 制(zhì)了(le)彼此之後仍有(yǒu)顯著的(de)預測性£≤® 。


下(xià)面就(jiù)來(lái)介紹實證分(fēn)★¥€≤析中的(de)踩過的(de)坑和(hé)重要(yào)的(de)發現(‌•xiàn)。讓我們先從(cóng) LDA 說(shuō)起± ↔。


1 LDA


首先對(duì)每個(gè)專利的(de)摘要(yào)數(shù)據分(f™≤÷ēn)詞,之後去(qù)除 stop wor >βds。接著(zhe)構建詞典,并将分(fēn)詞後的(d →₹e)文(wén)本轉換為(wèi)文(wén£‌)檔-詞矩陣,使用(yòng) LDA 建模。這(zhè★σ₩₩)其中的(de)坑是(shì)專利文(wén)本有(y★§¶<ǒu)很(hěn)多(duō)特定的(de)專有(yǒu)名詞,但(dàn)¶←↓"它們對(duì)于專利的(de)分(fēn)類并無實質的(de)幫助,例←$如(rú)“裝置”、“設備”、“系統”等。下λ¥(xià)圖展示了(le)保留這(zhè)些(xiē)特定詞∑™彙時(shí),LDA 的(de)分(fēn)類Ω₹結果中不(bù)同主題的(de)關鍵詞,其中“裝置”一(yī)詞出&↑γ現(xiàn)在了(le)圖中幾乎所有(yǒ ↕u)主題當中。


f1.png


因此,我們需要(yào)對(duì)這(zhè)些(xiē)并沒有(yǒu÷✘><)多(duō)少(shǎo)信息含量的(de)特定詞彙進行(xíng¥£)剔除。為(wèi)了(le)識别它們,最直觀的(de)方法是(sβ→hì)考察詞頻(pín),此外(wài)✔​也(yě)可(kě)以使用(yòng)信息熵的(de★★¶∑)方法篩選。這(zhè)二者的(de)相∏&€β(xiàng)關性很(hěn)高(gāo)(下(xià)圖)。以信息熵為(↑>₽wèi)例,挑選出的(de)詞彙包括:設置↓"∞₹、技(jì)術(shù)、結構、系統、利用(y≈↕∞↑òng)、領域、表面、設備、産生(shēng)、特征、↕ Ω步驟、過程、部分(fēn)、材料、生(shēng)産、工(gōng)藝、數(•♥∞✘shù)據等。


f2.png


排除特定詞彙後,再次利用(yòng) LDA 建γγ↑模,得(de)到(dào)不(bù)同主題的(de)關鍵詞÷↕更加合理(lǐ)。例如(rú):


f3.png


在使用(yòng)信息熵去(qù)除了(le) 500 個(gè)特定詞彙之  後,利用(yòng) Jensen–Shannon divergencδ♥↔e(JS 散度)确定最優的(de)主題個(gè)數(shù)。JS 散度是• ₩(shì)一(yī)個(gè)對(duì)稱的(de) meas<±βure,常用(yòng)于比較兩個(gè)概率分(fēn)布的(de)相(≥♦λxiàng)似性。在 LDA 模型中,我們計(jì)算(suàn)不(b↓±ù)同主題中詞分(fēn)布的(de) JS 散度£©,并使用(yòng)平均散度衡量不(bù)同主題的(de)整體(tǐ)差異程度↓≥,其取值越高(gāo),說(shuō)明¶≤±♦(míng)主題之間(jiān)的(de)差異越大(dà)。下(xià)圖₩>結果表明(míng),當主題個(gè)數(shù©¶)在 350 個(gè)左右時(shí),平均區(qū)δσδ₽分(fēn)度最優。


f4.png


值得(de)一(yī)提的(de)是(shì),上(sh↓γ$àng)述結果是(shì)剔除了(le) 500 個(gè)特有(≈₹ yǒu)詞彙之後的(de)結果。為(wè®×£​i)了(le)考察結果的(de)穩健性,進一(y×↑♥ī)步查看(kàn)剔除不(bù)同個(gè)數(sh✘€€™ù)的(de)特有(yǒu)詞彙和(hé)最優主題個(gè)數€™±(shù)的(de)關系(下(xià)圖)。結果∏€≈表明(míng),随著(zhe)剔除的(de)詞的(de)增多(duō‌ ),最優主題個(gè)數(shù)從(cóng) 500 下σ (xià)降至 300 左右。這(zhè)個(gè)結果在一(β'↑≥yī)定程度上(shàng)是(shì)合理(lǐ)的ε (de),因為(wèi)剔除的(de)特定ε₩♦詞彙越多(duō),剩下(xià)的(de)詞越有(yǒu)代>>表性,因此不(bù)需要(yào)得(de)≈δ✔到(dào)更多(duō)的(de)主題±€§₩,就(jiù)能(néng)發揮區(qū)分(fēn)作(♦↔γzuò)用(yòng)。作(zuò)為(wèi)對(d≠φπuì)比,如(rú)果使用(yòng) IPC subclass 分÷¶(fēn)類,那(nà)麽在 A 股上(shàng)的(deγ₹™δ)主題個(gè)數(shù)為(wèi) 58♦β↑4 個(gè),在量級上(shàng)和(φ"hé) 300 到(dào) 500 相(xiàng)當(官方當前版本 I'§PC subclass 類别數(shù)量為(wèi)α∞®↔ 651)。


f5.png


似乎到(dào)目前為(wèi)止,LDA   ₹這(zhè)條技(jì)術(shù)路(lù)線還(há∏¥i)是(shì) OK 的(de)。但(dàn)" 上(shàng)述處理(lǐ)完全是(shì)基于文(w♥£én)本分(fēn)析的(de)統計(jì)處理(↑®lǐ),沒有(yǒu)引入任何先驗信息。為(wèi)了(le)♥↕↓驗證 LDA 是(shì)否靠譜,下(xià)面引入先驗信息 —— 使用(yò±σng) IPC 的(de) subclass 作β≠←(zuò)為(wèi)主題的(de) benchmark ——γ¥ 來(lái)考察 LDA 的(de)分(fē↓≈n)類結果。


具體(tǐ)而言,我們的(de)分(fēn)析目标如(rú)下(xià)✔γ:基于 LDA 和(hé) IPC 主題都(€​©<dōu)可(kě)以給每個(gè)專利分(fēn)類;基于分• ∞(fēn)類計(jì)算(suàn)專利之間(jiān)的(de)相☆¶≤(xiàng)似度。之後,對(duì)于每個(gè)專利,找出兩個(gè)方法€βλ得(de)到(dào)的(de)和(hé)其相(xiàng)似度最↑♠σ∑高(gāo)的(de)  個(gè)專利,然後計(jì)算(suà™↑εn)這(zhè)兩個(gè)集合之間(jiān)↔≈♥≥的(de) Jaccard 相(xiàng)似度。結果顯示,對(d>₹" uì)于絕大(dà)多(duō)數(shù)專利而言,Jacca¶≈♦σrd 相(xiàng)似度都(dōu)是(shì)零,表¶♠±'明(míng)基于 LDA 和(hé) IPC 主題而計(jì)算(​÷"suàn)的(de)專利相(xiàng)似度差異巨大(dà)©★♠。所以,盡管 IPC 主題并非“标準答(dá)案≠<&✔”,但(dàn)無論如(rú)何 LDA 的(de)結果并沒有(δ$→±yǒu)得(de)到(dào)先驗信息的(de)支持₩♣。有(yǒu)鑒于此,我們轉向大(dà)語↕☆→‌言模型技(jì)術(shù)路(lù)線。


2 BGE


本節介紹如(rú)何使用(yòng)大(dà)語言模型對(duì)專利​ ★摘要(yào)文(wén)本構建語義向量,進而進行(xíng♣‌↕≤)專利分(fēn)類。實證中選擇了(le)智源研究院發布的(dπ∑'₩e) BGE(BAAI General Emb×‍edding)通(tōng)用(yòng"®)語義向量模型 bge-large-zh-v1.5。選擇₽♦$☆該模型的(de)原因如(rú)下(xià):該模型為(w £←₽èi)語義向量模型,區(qū)别于詞向量模型,不(bù)僅考慮詞彙信息,而≠↓且考慮詞彙在文(wén)本中的(de)位置,∑ ♠對(duì)文(wén)本理(lǐ)解更為®Ω ©(wèi)精準和(hé)合理(lǐ)。此外(wài),該≤↑模型在中英文(wén)語義檢索精度與整體(π®tǐ)語義表征能(néng)力均超越了(l‌£←e)社區(qū)所有(yǒu)同類模型,如(rú) OpenAI 的(de) text embedding 002 等。最後,BGE ♣↓∞保持了(le)同等參數(shù)量級模型中的(de)最小(xiǎo)向量維度,λ™₹使用(yòng)成本更低(dī)。


利用(yòng)該模型,我們對(duì)專利摘要(yào)文(wén)本進€ε行(xíng)處理(lǐ),構建 1024 維語義向©σ量。由于當前模型隻能(néng)處理(lǐ)小(xiǎo)于等于 520 個(αγ≤ gè)字的(de)文(wén)本內(nèi₩®)容,因此超過的(de)部分(fēn)會(huì)被截掉。由于專利摘要(♣₹yào)內(nèi)容通(tōng)常在 500 字以內(nèi),因此≥§ 該處理(lǐ)不(bù)會(huì)造成實質性損失。在得(de)到δ₹(dào)語義向量之後,對(duì)它們進行(xíng÷$) K-means 聚類分(fēn)析,得(de)到(dào)最‌ ¶​後的(de)專利主題。其中,最優的(de)主題數(shù)  用(yòng)肘部法則計(jì)算(suàn)得(de)出。實證結果顯"α×示,  維時(shí)有(yǒu)明(míng)顯肘部效應(如( ↔‌®rú)下(xià)圖)。這(zhè)個(gè)結果和(hé) LD¥♦ A 的(de)最優主題個(gè)數(shù)相₽α ¥(xiàng)一(yī)緻。


f6.png


作(zuò)為(wèi) double check,我們依♠₽然使用(yòng) IPC 作(zuò)為(wèi)✔↔先驗信息,比較了(le) BGE 和(h∞₽é) IPC 兩種方法。結果表明(míng),BGαλ  E 的(de)分(fēn)類結果和(hé) IPC 的(d©§σσe)匹配程度遠(yuǎn)遠(yuǎn)高(gāo)'© Ω于 LDA,從(cóng)側面印證了(le"δ ) BGE 比 LDA 更适用(yòng)于我們的(d'∞¶e)研究目标。


另外(wài)需要(yào)說(shuō)明(míng)的(de÷♠)是(shì),考慮到(dào)整體(tǐ)專利數(shù)量超過 600 ₩×¶ 萬條,數(shù)據量極大(dà);且專利本身(shēn)↑ ¥ 處于持續新增狀态,因此整體(tǐ)來(lái∑<)看(kàn)不(bù)适合整體(tǐ)進行(xíng)聚類。因此實證§®♥中随機(jī)抽取了(le) 10 萬條為(wèi)樣→$$本,并基于該樣本進行(xíng)聚類,然後将¥★÷>其他(tā)專利和(hé)後續新增專利對(duì)應₹"↕↑到(dào)分(fēn)好(hǎo)的(d←φ₽e)類别中。完成聚類後,共得(de)到(dào) 500 個¶¥♣♦(gè)專利主題,然後将每個(gè)專利劃分¶♣(fēn)到(dào)其中一(yī)個(gè)主題。


最後,由于我們的(de)目标是(shì)構造科(kē)技(jì)動量,因此把專•ε§利的(de)分(fēn)類結果向上(shàng)聚合到(dào)公司層面。λ₩為(wèi)此,考察公司過去(qù)一(yī)年(nián)新增專利‌✔ γ,構造 500 維的(de)主題向量。之後,便可(kě)以通§₩≠(tōng)過比較兩兩公司之間(jiān)的(de)專利主題♣♦向量的(de)相(xiàng)似性來(lái)構造科(kē)技(jì♣•)動量指标。計(jì)算(suàn)科(kē)技(jì)動量時(sh✘‌í),關聯公司的(de)曆史收益率使用(y★σ✔★òng)的(de)是(shì)過去(qù) 1 個(gè)∑π月(yuè)的(de)收益率,與 Lee et al. λ∑‌®(2019) 一(yī)緻。


3 實證結果


為(wèi)檢驗科(kē)技(jì)動量是(shì)否有(yǒu)效,ε÷✔σ每月(yuè)末依照(zhào)科(kē)技(jì)動量取值将股<♦票(piào)排序,進行(xíng) portfolio sort test©•φ×。實證區(qū)間(jiān)為(wèi) 20¥☆↑×15 年(nián) 3 月(yuè)到(dào) 2024 年(☆↕nián) 3 月(yuè),每月(yuè)末再平衡。多(duō)空 •(kōng)投資組合均使用(yòng)等權加權。下(xià)圖繪制(zhì♠ ±<)了(le)全 A 股(在針對(duì)全 A 構造多(du®' ō)空(kōng)組合的(de)時(shí)候,剔除了(le)市(≈‍↔βshì)值最低(dī)的(de) 20% 股票(p€£₹εiào),以排除殼價值的(de)影(yǐng)響)、中證 500 成分(f∞∞ēn)股以及滬深 300 成分(fēn)股中,¥♥科(kē)技(jì)動量多(duō)空(kōng)組合的(de)累計(j"♣ì)收益曲線。


f7.png


需要(yào)說(shuō)明(míng)的(de)是(shì),對(☆∏λ​duì)于寬基指數(shù)成分(fēn)股而言,實證結果中是(sh∑¶☆​ì)依然在全 A 範圍內(nèi)計(jì)算(suàn)焦點公司的(de)關±✔σ聯公司,并計(jì)算(suàn)科(kē)技(jì)動量↑₩。作(zuò)為(wèi)穩健性檢驗,我們♥'♠♣也(yě)将上(shàng)述計(jì)算(suàn)僅僅限制(zhì)在<£ α寬基指數(shù)成分(fēn)股之內(nèi)(但(dàn)圖中并未彙報<₽ε(bào))。以中證 500 成分(fēn)股為(wèi)例,←✔λ在這(zhè)種情況下(xià),我們僅‌ ↔僅在 500 的(de)成分(fēn)股的(de)範圍內(nèi)計(jì)<↔算(suàn)焦點公司的(de)關聯公司。結果表明(míng)當采用(yòng÷↕)這(zhè)種方法時(shí),結果也(yě)是(shì)穩健的(de)。為≈Ω‌φ(wèi)了(le)和(hé) BGE 對(duìπα∞)比,實證中還(hái)考察了(le)基于 ₩÷>✔IPC 分(fēn)類的(de)科(kē)技(jì)動量。圖中≤‌結果所示,無論是(shì) BGE 還(hái)是(shì) IPC,λγ‍無論是(shì)全 A 還(hái)是(shì)寬基指數(shù)成分(fēn&↕ )股,科(kē)技(jì)動量的(de)累計(jì)超π>≠額收益率都(dōu)呈現(xiàn)上(shàng δ→ )行(xíng)趨勢。


下(xià)面進一(yī)步通(tōng)過 time-series reg'α≈↑ression 檢驗不(bù)同多(duō)空(kōng)組合的(de)月(y₽‌♠₹uè)均超額收益率(下(xià)表)。結果顯示,α™&除了(le)針對(duì)滬深 300 使用(yòng) IPC 分(fē≤®÷n)類之外(wài),其他(tā)五個(gè)§£♥ε組合的(de)月(yuè)均超額收益率均在 ‍★>10% 或 5% 的(de)顯著性水(shuǐ)平下(xià"↓∏)顯著,且基于 BGE 的(de)結果普遍優于基于 IPC>✘σ' 的(de)結果。以中證 500 為(wèi)例,使用(σ✔∑yòng) BGE 構造主題時(shí),科(kē)技(jì)動✔♣量的(de)月(yuè)均超額收益率為(wèi) 0.88%,t-statistic 為(wèi) 2.22。


f8.png


鑒于上(shàng)述 portfolio sort 所構造∞§↓的(de)組合容易受到(dào)對(duì)其>&>他(tā)風(fēng)格因子(zǐ)暴露的(de) ↓÷±影(yǐng)響,下(xià)面進一(yī)步使用(yò÷ ↓®ng) Fama-MacBeth regression 考察在控制(zhì)了(le)常見(jiàn)的(de)  ≤Barra 風(fēng)格因子(zǐ)之後,♠$₹使用(yòng) BGE 和(hé) IPC 構造的(de)科(kē)技(j$<$ì)動量是(shì)否還(hái)能(néng)夠為 ε'₩(wèi)解釋 cross-section↕☆ 提供增量信息,特别是(shì)當同時(shí×‍​☆)考察了(le)二者之後的(de)結果又(yòu)會(huì)如(rú)>φ∏何。下(xià)表總結了(le) Fama-MacBeth r§✔→©egression 的(de) t-statistics。


f9.png


無論是(shì) Panel A 還(hái₽©)是(shì) Panel B,基于 IPC 和(hé♦✔<) BGE 構造的(de)科(kē)技(jì)動量因子(zǐ)的(de) ₽₽‍t-statistics 均表明(míng)二者包含了(l↔"÷©e)關于 cross-section 的( γde)信息。其中最重要(yào)的(de)結果是(shì),當同時('✘÷‌shí)考慮了(le)兩者之後,這(zhè₽λ&¥)兩種方法構造的(de)因子(zǐ)依然能(néng)↑☆♠₽夠為(wèi)預測股票(piào)預期收益率提¶™供增量信息。進一(yī)步,考慮到(dào)這(zhè)兩個(gè)×↔₽♣因子(zǐ)的(de)相(xiàng)關系數(shù)在 0.57 左右'✔,因此上(shàng)述結果意味著(zhe)它們↑δ★并非替代而是(shì)互補的(de)關系。


基于行(xíng)為(wèi)金(jīn)融學的(de)研究表≥←&明(míng),“花(huā)式動量”的(de)機(jī)'∏λ制(zhì)和(hé)投資者有(yǒu)限注意力以及信息¶↓®擴散的(de)速度有(yǒu)關。可(kě)以想見(jiàn),基于 IPC 的(de)科(kē§‌×)技(jì)動量計(jì)算(suàn)方法簡單直觀,因此其所包含的(™♦ αde)收益率預測信息可(kě)能(néng)♦ 更容易被 priced in(正如(rú) Bekkerman et al♣φ. 2023 在美(měi)股上(shàng)針對(duì) ∑™ ±Lee et al. 2019 的(de) comme↑≥nt 一(yī)樣),而基于 BGE 的(de)構±δ造方法由于數(shù)據處理(lǐ)和(hé)技<→→≥(jì)術(shù)分(fēn)析的(de)難度更大(dà),因此其信₩←δπ息擴散速度會(huì)更加緩慢(màn),因此其←≥≥≥所包含的(de)預測信息或許不(bù)會(hu∑‌♦≠ì)很(hěn)快(kuài)消失。


本文(wén)抛磚引玉,使用(yòng) BGE 模型對(duì)專利數(β shù)據進行(xíng)分(fēn)類,并檢驗了(le) A ​£✘ 股的(de)科(kē)技(jì)動量效應。相​₹(xiàng)信随著(zhe)對(duì)另類數(shùφ‍)據的(de)使用(yòng)越來(lái)越深入,專利數(shù)據無論是(₽ ±shì)自(zì)廣度還(hái)是(shì)深度上(sh&δàng),都(dōu)能(néng)夠發揮更大(dà)的(de)作(zu ♠πò)用(yòng)。例如(rú),以科(kē)技(jì)動量ε×"≠為(wèi)例,我們可(kě)以在相(xiàng)似度的(de)基礎上(≥≥Ω"shàng)結合專利質量得(de)分(fēn)的(de)‍§信息,通(tōng)過相(xiàng)似度和(hé)質量二者的(de)β<>®協同來(lái)構造風(fēng)險調整後收益更優的(de)↓ ™投資策略。


附錄 A IPC


國(guó)際專利分(fēn)類(IPC)由《斯特拉斯堡¶♣₹協定》建立,提供了(le)一(yī)種由獨立于語言的(de)符号構成→♥&的(de)分(fēn)級系統,用(yòng)于根據專利>φ✘和(hé)實用(yòng)新型所涉不(bù)同技(jì>πβ)術(shù)領域,對(duì)專利和(hé)實用(yòng)新✘÷型進行(xíng)分(fēn)類。IPC 将技(jì)術(shù)分(fēn₽•™π)為(wèi) 8 個(gè)部類,約七萬個(gè)複分(fēn)類。每 ♥®個(gè)複分(fēn)類都(dōu)有(yǒu)一(yī)個(gè)由阿©>←α拉伯數(shù)字和(hé)拉丁字母組成的(de)分(fēnγ£∑♦)類号。


IPC 八個(gè)部類:


f10.png


IPC 号結構說(shuō)明(míng):


f11.png


作(zuò)為(wèi)科(kē)技(jì)動量的$Ω(de) benchmark,使用(yòng) IPεα>C 的(de)構建方法為(wèi):基于每條專利 IPC 号前四₹≈位(層級:Subclass),作(zuò)為(& wèi)專利所屬分(fēn)類,然後以公司&↕‍&過去(qù)一(yī)年(nián)新增專利為(©‍wèi)基礎,構建公司層面的(de) IPC ¥λ向量并計(jì)算(suàn)科(kē)技(Ω≥←jì)動量。


附錄 B 專利數(shù)據處理(lǐ)


秩鼎(https://www.quantdata.com.cn/)提供超過 600 萬條發明(míng)專利數"±$$(shù)據,涵蓋了(le) A 股 /≤£$ 港股 / 中概股 / 發債企業(yè) / 其他(tā)非上(shàng)←∏♦市(shì)公司。曆史數(shù)據可(kě)φ 回溯到(dào) 1990 年(nián)←ασ,更新頻(pín)率為(wèi)周頻(pín↑→→♥)。


就(jiù)專利數(shù)據而言,最大(dà)的(de✘α ∑)處理(lǐ)難點是(shì)股權穿透處理(lǐ)。由于上(shàng)市("↔↑γshì)公司的(de)專利多(duō)數∏♣‍∞(shù)由子(zǐ)公司持有(yǒu)(約 60%),≤₽β≤例如(rú)百度這(zhè)樣的(de)公司,專利幾乎→¶≈均為(wèi)子(zǐ)公司持有(yǒu),因此在上(★₹₽÷shàng)市(shì)公司層面,将子(zǐ)公司專利準确對(✘ε↑ duì)應到(dào)母公司(上(shàng₩♥)市(shì)公司)上(shàng)十分(fēn)重要(yào)。秩鼎通(♠∞Ωtōng)過完善的(de)實體(tǐ)公司庫和(hé) "自(zì)動化(huà)引擎,将國(guó)內(nèi ₹)外(wài)上(shàng)市(shì)公司及其子♣γ ↔(zǐ)公司的(de)專利歸屬到(dào)母公司。數(shù)據處¥→₽♦理(lǐ)覆蓋了(le)超過 50 萬家(jiāεεβ)企業(yè),采用(yòng)多(duō)源數(sh$≥ù)據包括上(shàng)市(shì)公司年(nián)報(↔←↓>bào)和(hé)工(gōng)商信息,構建了(le)詳細的(de)股權關系$>×¥,包括 1-5 級的(de)股權關聯度,以确保專利數★↔÷(shù)據的(de)準确性和(hé)曆史數(shù)據的(de)穩定性。


經過以上(shàng)處理(lǐ)後,專利數(shù)據有( ≈>≥yǒu)較好(hǎo)的(de)覆蓋率。以下(xià)基于每年♣$±(nián)年(nián)末報(bào)告期,按 Aλ☆φε 股公司及其股權關聯度為(wèi) 1-3 級™∑子(zǐ)公司的(de)專利持有(yǒu)情況進行(xíng)覆<<∑♥蓋率統計(jì);其中行(xíng)業(yè)覆蓋率按 2023σ✔®  年(nián)最後一(yī)個(gè)報(bào)告期的←‍<↓(de)情況統計(jì)。可(kě)見(ji>'àn),個(gè)股層面覆蓋程度逐年(nián)提升,行(xín♥"g)業(yè)層面覆蓋程度整體(tǐ)保持高(gāo)位,這(zh≠πβè)些(xiē)均為(wèi)實證分(fēn)析結果的¥✔♣(de)可(kě)靠性提供了(le)保障。


f12.png


f13.png


參考文(wén)獻

Bekkerman, R., E. M. Fich, an★↕§d N. V. Khimich (2023). The ©≤"effect of innovation similγ≥§arity on asset prices∞¶ε: Evidence from paten$ ±ts' big data. Review of Asset Pricing★®✔↑ Studies 13(1), 99-145.

Bybee, L., B. T. Kelly,§¥♠ A. Manela, and D. Xiu ✔≥←®(forthcoming). Business news and busin  ess cycles. Journal of Finance.

Lee, C. M. C., S. T. Sun, R. Wang, ₽♣ and R. Zhang (2019). Technologica™‍l links and predictable returns.₩• Journal of Financial Economic£∑s 132(3), 76-96.



免責聲明(míng):入市(shì)有(yǒu)風(fēng)險,投資需謹慎。在任何情況下(xià) ♥β®,本文(wén)的(de)內(nèi)容、信息及數(shù♣≠↓‍)據或所表述的(de)意見(jiàn)并不(bù)構成對(du→§ €ì)任何人(rén)的(de)投資建議(yì)。在任何情π✘況下(xià),本文(wén)作(zuò)者及所屬機§₽±×(jī)構不(bù)對(duì)任何人(rén)因使用(yòng)本文(w↔$↔↕én)的(de)任何內(nèi)容所引緻的(de)任何損失負任何責任。除 ♦≤特别說(shuō)明(míng)外(wài),文(wén)中圖¶$™≥表均直接或間(jiān)接來(lái)自(zφ✔<ì)于相(xiàng)應論文(wén),僅為(≈'wèi)介紹之用(yòng),版權歸原作(zuò)者和(hé)期刊所有(≥≈yǒu)。