
另類數(shù)據的(de)前景和(hé)陷阱
發布時(shí)間(jiān):2020-03-02 | &n★bsp; "λσ 來(lái)源: 川總寫量化(huà)
作(zuò)者:石川
摘要(yào):本文(wén)探討(tǎo) •→對(duì)另類數(shù)據的(de)五點思₹↕₹考。科(kē)學的(de)使用(yòng) + 正确的(d∑>§e)預期,另類數(shù)據或大(dà)有(yǒu)可(k≠↕ě)為(wèi)。
0 特斯拉工(gōng)廠(chǎng)上(shàng)空(kōng)的(d♦≤e)“天眼”
美(měi)國(guó)時(shí)間(jiān) 2018 年(n££•ián) 10 月(yuè) 25 日(> γrì),困境中的(de)特斯拉(Tesla)股票(p♦ε•αiào)錄得(de) 9.14% 的(de)大(dà)漲,隻因€&×∑為(wèi)在前一(yī)個(gè)交易日(rì∏'>)盤後發布的(de) 2018 Q3 财報(b↓€ ào)大(dà)超華爾街(jiē)預期。财報(bào)顯示,爆款$< Model 3 的(de)産量在過去(qù)一(y↕&☆ī)個(gè)季度較之前幾乎翻番,這(zhè)無疑給了(le)投資人(♠βrén)注入了(le)一(yī)劑強心針,也(yě)引得(de)市(ε✘±shì)場(chǎng)一(yī)片狂歡。
面對(duì) Model 3 産量的(de)大(dà)增以及 9+% 大(dε™πà)漲反映出的(de)市(shì)場(chǎng)信心,最高(φφ×÷gāo)興的(de)人(rén)當屬 Tesla 的(de)掌門∞¥γΩ(mén)人(rén) Elon Musk。然而,除了(le) M₩↓usk 之外(wài),同樣高(gāo)興的(de)另一(yī)群人(rén)π♥→大(dà)概要(yào)數(shù)另類數(shù)據公司 Thasos ≈±★以及它的(de)很(hěn)多(duō)對(duì)沖基金(jīn)客戶₹¥們。因為(wèi)在 Tesla 發布 Q3 β≤财報(bào)之前,這(zhè)群人(rén)恐怕早就(jiù)憑借著(≠zhe)信息優勢預判到(dào)了(le)這(zhè)一(yī)點•¥σ★,并提前在二級市(shì)場(chǎng)布局了(le)。
Thasos 是(shì)怎麽做(zuò)到(dào)的(de)?
他(tā)們在一(yī)張在線地(dì)圖上(shàng)環繞 Tesla 位•δ于 Fremont,California 的(de)占地(d₽≥↑ì) 370 英畝的(de)工(gōng)廠(chǎng),創建了&÷(le)一(yī)個(gè)數(shù)字圍欄,以隔離(lí)從(≥✔πcóng) Tesla 工(gōng)廠(chǎng)範圍內(nèi)發≤$出的(de)智能(néng)手機(jī)位置信号。Thasos 租<↔≥α賃了(le)數(shù)不(bù)勝數(shù)的(de)智能(n'¥∏éng)手機(jī) APP 收集到(dào)的(<♥de)數(shù)萬億個(gè)地(dì)理(lǐ)坐(zuò)标的(de)數δ♠↓(shù)據庫,并通(tōng)過電(d☆¥¥iàn)腦(nǎo)程序密切監測從(cóng) ↓±≠®Tesla 工(gōng)廠(chǎng)中發出的(de)手機(jīφ≤')信号。使用(yòng)手機(jī)信号量進行(xíng)估✘φ♥♦計(jì),他(tā)們發現(xiàn)從(cóng) 20±•→×18 年(nián) 6 月(yuè)到(dào) 10 月($"®✔yuè),Tesla 工(gōng)廠(chǎngδ↕)夜間(jiān)輪班時(shí)間(jiān)增加♦&了(le) 30%。
上(shàng)圖中左側,橫坐(zuò)标 J、F、M 等為(Ωφwèi)月(yuè)份的(de)英文(wén)首✘×π字母縮寫。深藍(lán)色曲線為(wèi)通(tōng)過手機(jī)信号↔<估計(jì)出來(lái)的(de)夜班(weekday late)工(★•→gōng)作(zuò)時(shí)間(ji¶"→ān)。從(cóng)圖中清晰可(kě)見(jiàn),在 6 €σ 月(yuè)到(dào) 10 月(yuè)之間(jφ♥δiān),夜班工(gōng)作(zuò)時(shí)間(jiān)較 Q2 ∑€₽♠有(yǒu)了(le)大(dà)幅增長(cháng),意味著(zh≈ ♦e)産能(néng)的(de)提高(gāo)。T≈δhasos 将這(zhè)個(gè)數(shù)據分(fēn)享給了(↔γle)它的(de)一(yī)些(xiē)對(duì)沖基金(jīn)客戶。毫₽• 無疑問(wèn),這(zhè)一(yī)數(shù)據發揮了(le∑↑)巨大(dà)的(de)作(zuò)用(yòng)。
這(zhè)是(shì)将另類數(shù)據應用(αyòng)于二級市(shì)場(chǎng)投資的(de)一(yī)個(g€φè)經典案例。
近(jìn)年(nián)來(lái),另類數(sh"↔Ωù)據逐漸走進了(le)二級市(shì)場(chǎng)投資的(α∑de)視(shì)線。随著(zhe)使用♠®(yòng)常規數(shù)據 —— 量≥≤價、财務等 —— 構建交易信号、進行(xíng)交易δ↑變得(de)越來(lái)越擁擠,所獲得(d"★β≈e)的(de)超額收益越來(lái)越被××稀釋,人(rén)們把目光(guāng)投入到(dào)了≤↓δ(le)另類數(shù)據上(shàng),希望通(★₹∏tōng)過獨門(mén)數(shù)據源獲取别人(rén)不(bù)知(zh ¥•ī)道(dào)的(de) α。另類數(shù)據也(yě)在借著€ε(zhe)這(zhè)個(gè)風(fēng)口獲得(de)了(le)巨大(d×↕$ à)的(de)發展。來(lái)自(zì) Alternativ★Ω'eData.org 的(de)數(shù)據☆≠α顯示,在最近(jìn)幾年(nián),另類數(shù)據 ε βproviders 的(de)數(shù)量也>® (yě)出現(xiàn)了(le)激增。
其實,另類數(shù)據并非什(shén)麽新鮮概念。在幾十年Ωπ(nián)前,當我們隻有(yǒu)量價數(shù)據計(jì)算≤&α(suàn)均值、布林(lín)帶的(de)時§£β(shí)候,财務報(bào)表數(sh≤✔ù)據就(jiù)是(shì)另類數(shù)據;當财務數(shù)據被廣泛使Ω÷用(yòng)後,分(fēn)析師(shī)∞∑→一(yī)緻預期就(jiù)是(shì)另 &λ類數(shù)據;當分(fēn)析師(shī)一(yī&×ε)緻預期家(jiā)喻戶曉之後,網絡輿情數(shù)據就(₽≠jiù)成了(le)另類數(shù)據;當人(rén)們對(duì)網絡輿情不♦↑Ω(bù)再陌生(shēng)之後,非結構 ≥化(huà)的(de)文(wén)本數(shù)≥α據就(jiù)變成了(le)另類數(shù♦γ®¶)據……
當人(rén)們接觸到(dào)新的(de)數(shù)據源的(de)時(s&₩hí)候,一(yī)般的(de)反應都(dōu)是(s£<↔γhì)“兩眼發光(guāng)”。誠然,在市(shì)場✔₹≠λ(chǎng)變得(de)更加有(yǒu)效的(de)今天,新的(de)β≠φ數(shù)據源無疑是(shì)尚未被過度使γ ↔用(yòng)的(de)“淨土(tǔ)”、充滿潛在>¥♦的(de)機(jī)會(huì)。但(dàn)是(shì),♠€←另類數(shù)據真的(de)像人(rén)們想象↑©∑π的(de)那(nà)樣前景一(yī)片光(guāng)明(míng)嗎(↓$←ma)?是(shì)否任意一(yī)個(gè)新的(de)數(shù)據源都π₩(dōu)能(néng)拿(ná)過來(lái)加工(gōng)出一(yī©♠")個(gè)靠譜的(de) α 因子(zǐ)?另類數(shù)據能€©(néng)否成為(wèi)二級市(shì)場(chǎng)的(de)α' silver bullet?面對(duì)這(zhè)些(xiē)問(φ≥×wèn)題,海(hǎi)外(wài)業(yè)界Ω↑₩也(yě)不(bù)乏争議(yì)之聲,有(yǒu)←人(rén)支持也(yě)有(yǒu)人(rén)反€ ♠對(duì)。
本文(wén)以“另類數(shù)據的(de♦♠)前景和(hé)陷阱”為(wèi)題,闡述對∞¥¥(duì)另類數(shù)據的(de)五點↑≠"思考(下(xià)文(wén)第 1 到(dào) 5 節§≥&),僅是(shì)希望抛磚引玉。由于知(zhī)識和(hé)資曆有(yǒ♠£≤u)限,可(kě)能(néng)有(yǒu)些(xiē)觀點不(bù)盡完善,₽♠≠也(yě)歡迎各位小(xiǎo)夥伴指正。
1 技(jì)術(shù)和(hé)數(shù)據需∞•匹配
關于另類數(shù)據的(de)第一(yī)個(gè"★)思考是(shì)新的(de)數(shù)據類型↓Ω需要(yào)相(xiàng)應的(de)分(fēn)析技(jì'₩φ)術(shù)。當我們僅有(yǒu)量、價數£€∑(shù)據的(de)時(shí)候,傳統的(de)技(jì)術§☆₽(shù)分(fēn)析,如(rú)均線、布林(lín)帶就(j☆'©iù)能(néng)發揮很(hěn)大(dà)的(de)作(α→zuò)用(yòng)。然而,這(zhè)些(x♣♠iē)技(jì)術(shù)分(fēn)析對(duì)結β ™構化(huà)的(de)會(huì)計(jì)報(bào)表數(shù↓₩β)據卻難有(yǒu)作(zuò)為(wèi)。為(wèi)此,相(xiànδ•g)應的(de)分(fēn)析手段也(yě)應運而生(shēng),比如★λ☆™(rú)多(duō)因子(zǐ)模型等。而如(rú)今,如βγ (rú)果想要(yào)分(fēn)析非結構化(huà)文(wén)本≥∏數(shù)據以及更 general 的(de)多(duō↓¶)媒體(tǐ)數(shù)據,則更是(shì)需要(yào)相(xγφ₩±iàng)應的(de)技(jì)術(shù),如(rúδ ★)自(zì)然語言處理(lǐ)和(hé)廣€€÷♦義人(rén)工(gōng)智能(néng)。顯然,這(zhè)對(φ±duì)管理(lǐ)人(rén)和(hé)投資者都(dōu)提出了(le♦♦£α)越來(lái)越高(gāo)的(de)♠≥要(yào)求。
随著(zhe)另類數(shù)據量的(de)爆發,另一(yī)個(gè)需要 ®(yào)面對(duì)的(de)問(wèn)題則是(shì)維數(shù¥∑δ)災難。以預測股票(piào)收益率為(wèi)例,另類數(shù)π↔據代表著(zhe)不(bù)同的(de)因變量。由于股票'∏δδ(piào)的(de)樣本數(shù)據就(jiù)那 ™(nà)麽多(duō),随著(zhe)自(zì)變量的(de)增加,則股票₩"↓¥(piào)樣本數(shù)據在這(zhè)些(xiē)變量構成的₹φ(de)空(kōng)間(jiān)內(®¥nèi)将會(huì)越來(lái)越稀疏。'↕參數(shù)的(de)激增使得(de)預×'$γ測模型存在更高(gāo)的(de)過拟合風(fēng)險,且預測的(de) ♠≠•εbias 和(hé) variance 都(dōu)會(huì)變大(dσ©à)。此外(wài),使用(yòng)不(bù)★₽同另類數(shù)據構建因子(zǐ)也(y±φě)會(huì)出現(xiàn)之前公衆号強調多↓γ(duō)次的(de)多(duō)重檢驗(multipl↕↕ e testing)的(de)問(wèn)題。當使用(yòngε∞↔™)大(dà)量模型分(fēn)析同樣的(de)數(shù)據時(sh ®→í),總會(huì)出現(xiàn)僅僅×&'因為(wèi)運氣就(jiù)十分(fēn)λε顯著的(de)因子(zǐ)。這(zhè)要(yào)求人(rén)£↑≠們在統計(jì)手段上(shàng)盡可(kě)能(néng >↑)排除這(zhè)種 lucky fact£or,而在金(jīn)融學業(yè)務上(shàng)去×±•(qù)真正理(lǐ)解另類數(shù)據和(✔♥hé)未來(lái)預期收益率之間(jiān)的(de)邏輯。這(zhèσβ↑↓)也(yě)引出了(le)第二點思考,使用(yòng★★∑)另類數(shù)據需要(yào)很(hěn)強的(de) domain k§'nowledge。
2 Domain Knowledge
全新的(de)數(shù)據是(shì)一(y≠≥ī)把“雙刃劍”。一(yī)方面,因為(wèi)還(hái)沒有(yǒu)•←人(rén)用(yòng)過,因此它不(bù)存在“擁擠”的(↕←∏↔de)問(wèn)題;而另一(yī)方面,如(rú)果使用(yòng)σ↓↕者不(bù)具備該數(shù)據所要(yà∞β o)求的(de) domain knowledλ¥ge,那(nà)很(hěn)可(kě)能(₹φnéng)不(bù)知(zhī)道(dào)從(cóng)何下(xiàα≠♠)手。在我們的(de)想象中,另類數(shù)據也(yě)許是(s"↑hì)這(zhè)樣的(de):有(yǒu)令人(rén)興奮的(de€★)故事(shì)、而且是(shì)已經被 ve$₽≠ndors 處理(lǐ)好(hǎo)的(de)結構化(huà)數(shù±¥)據,我們能(néng)直接拿(ná)來(lái)當成因子(zǐ)φ≤對(duì)資産排排序,就(jiù)能(néng₽ε)一(yī)頓操作(zuò)猛如(rú)虎。然而,在實際中,另類數(sh"★≥αù)據更像是(shì)在一(yī)個(gè)沒人(rén)去(qù)過的(←≠©de)地(dì)方發現(xiàn)了(le)一(yī)座✘✘•¶山(shān)。然而,這(zhè)座山(λ∑♣¶shān)裡(lǐ)有(yǒu)沒有(yǒu)礦、♠從(cóng)哪裡(lǐ)開(kāi)始挖、到(dào)底能≤σ€€(néng)挖出什(shén)麽,更多(duō)的(de)要"®<(yào)看(kàn)使用(yòng)者自(zì)己的(de)本事(s∏γ ¶hì)。
There are plenty of inputs. But how ε£↔do investors go about filte$↑ring the signal from the↕εα← noise?
在海(hǎi)外(wài)業(yè)界,實力充沛的(©↔ε®de)大(dà)型資産管理(lǐ)公司由于具備足夠的(σ"™de)人(rén)才儲備,通(tōng)常自(zì σ)己進行(xíng)數(shù)據分(fēn)析。另一(yī)方面,另♠£類數(shù)據 vendors 也(yě)會(huì)通•>§(tōng)過推出一(yī)些(xiē)聽(tīng)上(shàα$ng)去(qù)十分(fēn)有(yǒu)希望的(de) sce¥$•narios 從(cóng)而推銷數(shù)據。☆®除了(le)買方、賣方外(wài),市(shì)場(chǎγ®₹ng)上(shàng)也(yě)湧現(xiàn)出了(le) ♠"第三方研究機(jī)構,投資者會(huì)委托他(tā)®↔σ們進行(xíng)另類數(shù)據的(de)研究。✘¶對(duì)于另類數(shù)據的(de)使用(yòng)者來(lái'γ₩>)說(shuō),使用(yòng) vendors 或者第三方提供的(βσ©de)加工(gōng)後的(de)數(shù)據無疑是(shì)最方便的(de★↑≥₹)。但(dàn)這(zhè)種做(zuò)法存在的(de)問(w§↓×èn)題是(shì),這(zhè)些(xiē) use cases 會(hu♣♠ì)被賣給很(hěn)多(duō)不(bù)同的(de)使用≤♥<₽(yòng)者。這(zhè)會(huì)增•₽加另類數(shù)據的(de)擁擠度,降低(dī)其在未來(lái)獲取'→'收益的(de)能(néng)力。因此,對(duì)于使用(yòng)者來(Ω©≠lái)說(shuō),掌握 domain knowled§×βge —— 包括另類數(shù)據如(rú)何産生(shēng)、背後≤€>₽的(de)業(yè)務流程是(shì)什(shén)麽、金(jīn)融© 學含義有(yǒu)哪些(xiē)等 —— 無疑是(shì)最重要(yàφ"o)的(de),這(zhè)可(kě)以掌握研究的(de)主δ÷™∞動權,并更有(yǒu)可(kě)能(néng)挖出≤∑獨門(mén)的(de) α。
What we're generally looking Ωλ÷>for is something a little bit m ore raw, a bit more unprocessed, σ§&where we can really ♦£understand what the data i∏λ∞→s. We can dive into it,✘± we can do our analysis, we ca♣εn do cleaning, we can apply it ☆€↑and back-test it with th§∏e goal of figuring out whether the d$☆€™ata will provide a useful sign¶al.
在這(zhè)方面,公衆号之前介紹的(de) Lee et al. (20<$¶β19) 一(yī)文(wén)是(shì¶σα)一(yī)個(gè)很(hěn)好(hǎo)的(de)"∏₩例子(zǐ)(見(jiàn)《科(kē)技(jì)關聯度》)。該文(wén)針對(duì)美(měi)股,使用™≤(yòng)專利數(shù)據創造性的(↔$σ↕de)構建了(le)科(kē)技(jì)關聯度指标,獲得(de)了(le)£"其他(tā)常見(jiàn)因子(zǐ)無法解釋的(de)超額收益。↓∏→¶這(zhè)個(gè) idea 本身(shēn)是(shì)需要(yào)↓♦對(duì)專利數(shù)據背後代表的(de)業(yè)務邏輯,以及±α公司之間(jiān)的(de)關聯有(yǒu)深刻的(de)認識的(de)β₩•☆。如(rú)果沒有(yǒu)這(zhè)種 domain knowledge,£✘隻是(shì)把專利數(shù)據拿(náΩ★¥)來(lái)簡單的(de)統計(jì)哪個(gè)公司專利多(d×±₹★uō)、哪個(gè)公司專利少(shǎo),恐σ≈β±怕并不(bù)能(néng)獲得(de)可(kě)觀的(de) α。
3 數(shù)據是(shì)否無偏
關于另類數(shù)據的(de)第三個(gè)思考 ←♣♠是(shì),數(shù)據的(de)生(sh €'∑ēng)成(采集)過程是(shì)否 unbiased,能(≤♣$♦néng)否很(hěn)好(hǎo)的(de)代表總體(tǐ)。為(wè α>i)了(le)說(shuō)明(míng)這(zhè)一(yī)點,不(π✘★bù)妨來(lái)看(kàn)一(yī)個(gè)例子(&↓σzǐ)。Green et al. (2019) 使用(y ♣₽òng) Glassdoor 數(shù)據研究了(le)©$€員(yuán)工(gōng)評價與股票(piào)收益率之間(ji≥ān)的(de)關系([因子(zǐ)動物(wù)園] 的§≠¥(de)文(wén)章(zhāng)《烏合之衆 or 群衆的(de)智慧:員(yπuán)工(gōng)評價與股票(piào)"γ收益》對(duì)該文(wén)進行(xíng)↕™∞了(le)詳細介紹)。Glassdoor ±≤提供了(le)員(yuán)工(gōng)對(duì)←γ公司的(de)綜合評價和(hé)五個(gè)标準化(huà↑∏£>)評價指标,包括職業(yè)機(jī)會•≠↕®(huì),薪酬福利,工(gōng)作(zuò)↓ /生(shēng)活平衡度,高(gāo)層管理(lǐ),企業(yè) ₩文(wén)化(huà)與價值,所有(yǒu)評價皆為(wèi) 1 至 5 &♦星。
為(wèi)了(le)研究員(yuán)工(gōng)♣♣☆≥評價和(hé)股票(piào)收益率的(de)關系,Gr$≈een et al. (2019) 依據員(yuán)工(gōng)↕π•δ評價變化(huà)高(gāo)低(dī)将股票( $←piào)分(fēn)為(wèi)三組(top 20%€↑,middle 60%,bottom 20%),并用(yòn≠'♦g) high – low 構建了(le)因子(zǐ)。理(l₹α↓ǐ)論上(shàng),員(yuán)工(gō≤δng)評價變高(gāo),意味著(zhe)經濟環境及公司前景很™¥λ≠(hěn)可(kě)能(néng)在變好×'↓λ(hǎo),在其他(tā)條件(jiàn)相(xiàng)同的(↔δ&∞de)情況下(xià),公司應有(yǒu)更好(hǎo)的(de₽•)表現(xiàn),因此預期收益率更高(gāo)。實證結果支持了(le)他(t$★ā)們的(de)猜想。
結果顯示,無論是(shì)等權還(hái)是(shì¶&≥↕)市(shì)值加權,該因子(zǐ)确實能(néng)夠獲得(de≥÷>)顯著的(de)超額收益。此外(wài),高(gāo)∏↔✘₽、低(dī)評價變化(huà)組合的(de)主要(yào♣δ)公司特征(如(rú) beta、規模和(hé) BM)基本一(y↑→∏ ī)緻,動量也(yě)非常接近(jìn),而員(yuφ✔<án)工(gōng)評價變化(huà)平均相(xiàng)差超過 1 星,βΩ意味著(zhe)其他(tā)常見(jiàn©♠)因子(zǐ)無法解釋公司評價它。這(zhè)一♥(yī)點也(yě)進一(yī)步被 Famaγδ≥ and MacBeth (1973) regression 結果所驗證♠£:無論是(shì)單變量回歸,還(hái)是(shì)控制(zh≤₩ì)了(le)不(bù)同的(de)公司特征後,員(yuán)工(gōng)€ ↕評價變化(huà)都(dōu)有(yǒu)顯著的(de)風(f≠≠ēng)險溢價。毫無疑問(wèn),Green et al. (2019) 是(shì)£©一(yī)篇有(yǒu)趣的(de)發現∞↔↔(xiàn)。不(bù)過我們仍然不(bù)禁要(yào×∏©)對(duì) Glassdoor 的(♠♦'πde)數(shù)據進行(xíng)靈魂發問(wèn):員(yuán)•←→工(gōng)評價數(shù)據是(shì)否無偏呢(ne)?是(shì)否是↕♥α(shì)可(kě)信的(de)?Glassdoor♣α•∞ 的(de)數(shù)據存在以下(xiσ©₹φà)一(yī)些(xiē)潛在問(wèn)題:
1. 沒有(yǒu)員(yuán)工(gōng)™₩∞©認證系統:這(zhè)意味著(zhe)任何人(rén),可(λ&πkě)以在任何時(shí)間(jiān),對(duì)任何公司進行(≈₩xíng)評價,而沒有(yǒu)機(jī)制(zhì)來(lá♥αi)保證這(zhè)個(gè)人(rén)确實是(shì)或曾是(s∏↑₩hì)該公司的(de)員(yuán)工(gō✘&¶ng)。
2. 人(rén)們更容易在對(duì)雇主不(bù)滿時(shí)更容易發表(負<≥Ωφ面)評價。
3. 人(rén)們往往過度誇大(dà)感受:Glassdoor 上(shàngπ')有(yǒu)很(hěn)多(duō) 1 星和(hé) 5 星評價。
4. 評分(fēn)體(tǐ)系本身(shēn)并無科(kē)學≤≤ 依據。Glassdoor 并沒有(yǒu§ ↓)給出明(míng)确的(de)說(shuō)明(míngγ)每個(gè)星級到(dào)底代表什(s≥€hén)麽。評分(fēn)者可(kě)以任意的(de)根據主觀感受來(✔&'lái)選擇 1 星到(dào) 5 星。工(gōng)資不(bù)錯(cuòγ<σ)?5 星!餐廳免費(fèi)?5 星!免費(fèi)健身(shēn)房↕≈↕(fáng)?5 星!…… 5 星可(kě)以代表任何事(s"₹≈hì),但(dàn)顯然不(bù)是(shì)所有(yǒu)的(de) 5 <λ×£星和(hé)股票(piào)收益率的(de®π©↕)關系都(dōu)是(shì)一(yī)緻的(de)。但(dàn£<)我們不(bù)知(zhī)道(dào)每個(gè) 5 ∞♥≈星背後到(dào)底意味著(zhe)什(shén)麽。
5. 有(yǒu)些(xiē)雇主有(yǒu)獎勵機(jī♣♥× )制(zhì)、鼓勵員(yuán)工(gōng)提交 5 星評價σ>₩π。曾經有(yǒu)一(yī)個(gè)公司的(de)評分(fē∞αn)大(dà)概 1.5 分(fēn)左右,後來(lái)管理(lǐ)層發→ β§話(huà)說(shuō),如(rú)果員(yuán)工(gōng)僅發布經管 $理(lǐ)層審批後通(tōng)過的(de)留言,那(nà↕σ)麽員(yuán)工(gōng)将得(de)到(dào) 2&±≠50 美(měi)元的(de)獎勵。這(zhè)個(gè)公司後來(l©✘ái)的(de)評分(fēn)上(shàng)Ω∏升至 4.2。
這(zhè)些(xiē)問(wèn)題說(shuō)明(m♣★↓↓íng),Glassdoor 的(de)數(sεΩ•βhù)據的(de)無偏性令人(rén)擔憂。除此之外(wài),我對™δ₽$(duì)其的(de)另一(yī)個(gè)猜想是(shì)涉及到(dào)的♥λ™(de)公司的(de)行(xíng)業(yè)分(fēn)布是π≤γ(shì)否也(yě)會(huì)不(b₹§ù)均勻?比如(rú),互聯網或者科(kē)技(jì)公司的(de)≤>員(yuán)工(gōng)更容易也(yě)更∞ ∏願意參與網上(shàng)評價?而傳統制(zhì)造↔€業(yè)企業(yè)的(de)員(yuán)ελ工(gōng)則沒那(nà)麽熱(rè)衷?如(rú)果行(xíng)業(®αyè)分(fēn)布不(bù)均,那(nà)麽 Green et §¥φal. (2019) 的(de)研究結果将會(huì)由于沒有(γ yǒu)控制(zhì)行(xíng)業(yè)影(yǐng)響而大(dà)←>↑打折扣。
4 曆史數(shù)據太短(duǎn)
對(duì)于大(dà)多(duō)數(shù)另類數(shù)據來(l₽≥ái)說(shuō),一(yī)個(gè)不(bù)得(deα↑)不(bù)面對(duì)的(de)問(wèn)題是(sh→ φì)數(shù)據長(cháng)度往往很(hěn)短(><duǎn)。據我(有(yǒu)限)的(de)調研發現(xiàn),通(§↕tōng)常來(lái)說(shuō)另類數(shù₽≈¥₽)據集的(de)曆史數(shù)據長(cháng)度是(shì) 5≤ 年(nián)以內(nèi)(2 到(dào) 3 年(nián)很(h≥'★ěn)常見(jiàn));5 年(nián)以上(shàng)就(§'jiù)是(shì)很(hěn)長(cháng)的(de¥≥≈)了(le)。曆史數(shù)據太短(duǎn)會(h<∞&uì)加劇(jù)多(duō)重檢驗的(de)危害,增加過拟合問(wèn&∑)題。下(xià)圖結果來(lái)自(zì) Bailey a> ✔♥nd Lopez de Prado (2012) 的(de)研φβ究。假設數(shù)據無法預測收益率,該研究發現(xiàn),如€₽(rú)果數(shù)據的(de)長(cháng)度↓"↕♦僅有(yǒu) 2 年(nián),則僅需要(yào)通(tōng)過 7 個✘&♣(gè)檢驗就(jiù)能(néng)找到(dào)夏普率為(wèi) 1 ≤↕λ的(de)策略;而如(rú)果數(shù)據的(de)長(chá←×α™ng)度提高(gāo)到(dào) 5 年(nián),達到(dào)同樣的(≠§de)效果則需要(yào) 45 個(gè)π✘©檢驗 —— 其實也(yě)非常很(hěn)容 § 易。這(zhè)個(gè)例子(zǐ)說(shuō)明(≠<©míng),數(shù)據量越少(shǎ♠o),越容易出現(xiàn)過拟合。在這¶☆♥¥(zhè)個(gè)時(shí)候,如(rú)果沒有(yǒu)對(d↓γ↕Ωuì)另類數(shù)據背後邏輯的(de)認知(Ω♣©™zhī),則難以辨别出找到(dào)的(de)信号是(shì)否真的(de©$®≠)有(yǒu)效。
5 是(shì)否有(yǒu)增量貢獻
對(duì)于另類數(shù)據的(de)最←©β後一(yī)個(gè)思考是(shì)檢驗其對(d© uì)預測收益率是(shì)否有(yǒu)增量貢獻★γ₩↓。我曾經給期刊審稿了(le)一(yī)篇文(wén)章(z ©δhāng),它講的(de)是(shì)使用(yòng)網絡論壇上&★(shàng)的(de)股票(piào)情緒構建策略獲¶γ得(de)超額收益。該文(wén)以論壇大(dà) V 對(duì)股票•↓♦→(piào)的(de)評價為(wèi)輸入,提出了(le)一↑♥(yī)個(gè)專家(jiā)系統進行(xíng)選股。仔細γ↓↔ 讀(dú)下(xià)來(lái),該文(wén₹×)可(kě)謂是(shì)“千瘡百孔”,然而它最大(dà)的(de)♦∑ →問(wèn)題是(shì)沒有(yǒu)進行(xíng)業∏ ¥(yè)績歸因。該文(wén)構建的(de)策略确實跑赢了₹→α(le) benchmark,但(dàn)是(shλ®≤λì)它沒有(yǒu)用(yòng)常見(jiàn)的(de)©&♥多(duō)因子(zǐ)模型來(lái)進行(xíng)↕ εβ分(fēn)析、檢驗其是(shì)否在控↕←制(zhì)了(le)其他(tā)因子(zǐ)後仍然能(® ×néng)夠獲得(de)超額收益,無法判斷該數(shù)×♠₩據對(duì)預測收益率是(shì)否有(yǒu)≤♣增量貢獻。
同樣作(zuò)為(wèi)研究網絡輿情數(shù)據的(de ☆)研究,Liew and Budavari (2017) ™→≤♣這(zhè)篇文(wén)章(zhāng)使用(yòng) tweet®£¥ sentiments 數(shù)據,在 Fama♠© and French (2015) 五因子(zǐ)基礎上(shàng)↕☆"加入了(le)第六個(gè)因子(zǐ),指出該因子¶¶←β(zǐ)能(néng)在五因子(zǐ)之外(wài)解γφ釋個(gè)股收益率的(de)時(shí)序波λ 動。不(bù)過有(yǒu)意思的(de)是(shì),該文(wéγ←n)并沒有(yǒu)研究該因子(zǐ)在解釋個(☆≥©∏gè)股預期收益率截面差異上(shàng©₽®&)的(de)作(zuò)用(yòng),所以 read/use with c§∑∑are……
不(bù)管怎樣,它比我審稿的(de)那(nà)篇還(hái)是(shì)靠譜π∏多(duō)了(le)。(不(bù)過插句題外(wài)話•♣∑(huà),JPM 這(zhè)幾年(ni×∞↓'án)的(de)水(shuǐ)平似乎有(yǒu)所下(xià)降。₽£')
Alternative data aren't necessa✔→φrily better when it comes↑↑↓✔ to providing performance-λ↓¶§enhancing insight, they a↑≠♠₹re different.
上(shàng)面這(zhè)句話(huà)很(hěn)好(hσβδǎo)的(de)總結了(le)業(yè)界對α₩(duì)于另類數(shù)據的(de)合理(lǐ)期望。€→另類數(shù)據,顧名思義,它首先需要(yà☆♥☆o)另類。如(rú)果繞了(le)一(yī)大(dà)圈∑ 後發現(xiàn),它背後的(de)收益率驅動和(hé)其他(tā)收益源相> (xiàng)同,那(nà)麽它就(jiù)沒有(•♠yǒu)什(shén)麽額外(wài)的(✔★>≠de)價值。在投資中,多(duō)樣化(huà)被認為(✔≠wèi)是(shì)唯一(yī)的(de)“free l☆unch”。同樣的(de)道(dào)理(lǐ)對(duì)數(sh≥♦ù)據也(yě)成立。隻有(yǒu)當另類數(shù)據和(hé)現(x↓∞≈$iàn)有(yǒu)數(shù)據盡可(kě)能(né±≥↕ng)不(bù)相(xiàng)關,它才有(yǒu)可(kě®≥÷₹)能(néng)捕捉到(dào)其他(tā)收益源β®♠之外(wài)的(de)收益,提高(gāo)投資組合的(d>♣→₽e)風(fēng)險收益特征。
6 結語
以上(shàng)就(jiù)是(shì)對(duì)另類數(shù )據的(de)五點思考。在本文(wén)最後,簡單總結下(xià)另類數(≈α>shù)據的(de)四大(dà)主流應用(yòng)場(chǎng)景(其實£←€前文(wén)的(de)舉例中有(yǒu)些(xiē)已經涉及到✘₽Ω(dào)了(le)),包括網絡抓取、情緒、衛星數(shù)據以及消費(★≈☆≤fèi)數(shù)據。
金(jīn)融行(xíng)業(yè)的(de)數(shù)據研究"λ♣♣機(jī)構 Greenwich Associates 的(de)研究表Ω€•明(míng),網絡抓取是(shì)目前使用(yòng)最廣泛的(de)另★ 類數(shù)據。它從(cóng)目标網站(zhàn)收∏¶↕¥集數(shù)據,以獲取有(yǒu)關品牌、公司和σδ¶✔(hé)企業(yè)活動的(de)信息。在這(zhè)其中,最熱(rè)門¥α¥(mén)的(de)數(shù)據包括 ✔≤↑job listing 和(hé) company review,它們能(n≥&≠éng)夠為(wèi)公司的(de)增長(chán<₽g)前景提供一(yī)定的(de)線索(但(dàn)小(xiǎo)心 Glas≠<★sdoor 的(de)問(wèn)題)。此外(wài),有(yǒu)關 ₩ 産品排名和(hé)促銷活動的(de)數(©♣ ≈shù)據也(yě)極具價值,人(rén)們可(kě)以從(cóΩ<αng)中找尋公司表現(xiàn)的(de)蛛絲馬迹。情緒數(shù)據則代表了(le)另一(yī)大(dà)類的(d∞¶¥e)常見(jiàn)的(de)另類數(shù)據。像社交媒體(tǐ)、新≥γδ聞流、公司公告這(zhè)些(xiē)自(zì)不(bù)必說(shuō)了✘$(le),有(yǒu)很(hěn)多(duō)相(xiàng)關的(d ∞≠e)研究。除此之外(wài),海(hǎi)外(wài §≤)也(yě)開(kāi)始對(duì)上(shàng)市(sh♥↓÷¶ì)公司 earnings call 的(d✘β₽e) transcript 進行(xíng)文(Ω∏αwén)本分(fēn)析、捕捉高(gāo)管的(de)用(yòng)>¶詞和(hé)語言,以此推斷公司的(de)前景。不(bù)過,在這( Ωzhè)方面,英文(wén)相(xiàng)較于α∞₩£中文(wén)有(yǒu)較大(dà)的(de)優勢,>←∞可(kě)操作(zuò)性高(gāo)不(bù)少(shǎo)。衛星圖像聽(tīng)上(shàng)去(qù)很(hěn)玄幻,但(d∑←àn)你(nǐ)幾乎能(néng)在所有(yǒu) leading 另類數(s•★≤hù)據提供商的(de)樣例中找到(dào)它的(deα✘←)身(shēn)影(yǐng)。比如(rú),衛星圖像數(shù)®¥✘÷據會(huì)被用(yòng)來(lái)跟蹤船(chuán)隻,監測 ≈×£農(nóng)作(zuò)物(wù),并探測港口和(hé)&λ 油田的(de)活動,推斷大(dà)宗商品的δ✔(de)庫存等。信用(yòng)卡和(hé)借記卡的(de)交易數(shù)據中也(¶¶yě)存在巨大(dà)的(de)價值。在海(hǎi✔™&)外(wài),一(yī)些(xiē)另類數(shù)據商網羅了(↔÷₹↕le)很(hěn)多(duō)消費(fèi)者,他(tā)們同意分(><fēn)享其消費(fèi)數(shù)據。這(zhè)類數(shù)據可¶→(kě)以被用(yòng)來(lái)追蹤零售行(xíng)業(yè)的(✘β•≠de)收入,通(tōng)過更細的(de)粒度以及更高(β>gāo)的(de)頻(pín)率來(lái)預•←≈測相(xiàng)關公司的(de)基本面。不(bù)過,這£±α(zhè)類數(shù)據的(de)可(kě)得(de)性比較低(d∞₩≈¥ī)。AlternativeData.org Ωφ↕的(de)調研指出,這(zhè)類數(shù)據往往非常昂貴€₹→。
讀(dú)到(dào)這(zhè)裡(lǐ)有(yǒu)小(xiǎ≥"→o)夥伴也(yě)許會(huì)問(wèn)“你(≈®λ≥nǐ)這(zhè)題目文(wén)章(zhāng)叫前景和(hαβ☆é)陷阱,這(zhè)前面 blabla 說(€€shuō)了(le)五點都(dōu)是(shì)陷阱啊,前景在哪裡 ₩(lǐ)?”其實,把坑都(dōu)填上(shàng)、科(kē)學的(de≤±)使用(yòng)再加之正确的(de)預期,那(nà)麽這(zh♥™è)些(xiē)“陷阱”就(jiù)将變成“前景”。據來(lái)自(zìαφ¶) AlternativeData.org 的(de)統計(jìα)數(shù)據顯示,海(hǎi)外(wài)買方在購(gòu)買另類數(sh₩ ù)據上(shàng)的(de)支出在最近(jìn)♥≥→幾年(nián)逐年(nián)增長(chán>g)。
我們有(yǒu)理(lǐ)由對(duì)另類數(shù)據的§ ₽(de)未來(lái)充滿希望。
參考文(wén)獻
Bailey, D. H. and M. Lopez de Prado (σ₽απ2012). The Sharpe ratio efficient frontδ∞'"ier. Journal of Risk 15(2), 3 – 44.
Fama, E. F. and J. D. Maφ≥✘cBeth (1973). Risk, ε'return, and equilibrium: empiri ÷<cal tests. Journal of Political Economy 81(3), 607 – 636.
Fama, E. F. and K. R. ∑εFrench (2015). A five-factor ass♦↓✔et pricing model. Journal of Financial E↔£←∑conomics 116(1), 1 – 22.
Green, T. C., R. Huang, φ★"Q. Wen, and D. Zhou (2019)•π. Crowdsourced employer revi©±≥•ews and stock returns. Journal of Financial Economics 134(1), 236 – 251.
Lee, C. M. C., S. Teng, R. Wang, and R.≥ Zhang (2019). Technol↑'✘ogical links and predicta★®σble returns. Journal of Financial Econ₽omics 132(3), 76 – 96.
Liew, J. and T. Budavari (2 §017). The "six" factor – A soci×≈σ&al media factor derived di↔αrectly from tweet sent∞₽ iments. The Journal of Portfolio→¥ Management 43(3), 102 – 111.
免責聲明(míng):入市(shì)有(yǒu)風(fēng)險,投資需謹慎。在任何情況下≈✘(xià),本文(wén)的(de)內(nèi)容、&λ信息及數(shù)據或所表述的(de)意見(jiàn)并不(bù)構成對(d₹±∏uì)任何人(rén)的(de)投資建議(yì)。在任何情況下§ε∏(xià),本文(wén)作(zuò)者及所屬機(jī)構不(bù)對(duΩ®¶ì)任何人(rén)因使用(yòng)本文(wé♦β≤n)的(de)任何內(nèi)容所引緻的(de)任 ₽∏何損失負任何責任。除特别說(shuō)明(míng)外(wài),文(w≠•₽én)中圖表均直接或間(jiān)接來(lái)自(z↕εì)于相(xiàng)應論文(wén),僅為(wèi)介紹✔≈↑之用(yòng),版權歸原作(zuò)者和(hé)期刊所有(yǒu)。