由《紅樓夢》到財經新聞
, 描述: 楊良河 數裏見真章
上期提及,近年由於電腦科技發達,大量金融資訊都被電子化儲存下來。當中除了儲存高頻交易和報價數據之外,還包括金融文字數據,例如電子新聞、公司財務報告、社交媒體資訊等。這一大堆文字資料,要怎樣作有效分析呢?
) S, @6 R% q; j5 Z |3 ctvb now,tvbnow,bttvb用字頻率 揭作者誰屬4 T, X6 N; e3 ?2 n- T6 \. S
一般的做法是,先計算在文字資料中不同的字彙所出現的頻率,然後再把這些頻率的分布進行分析。這種把文字先量化、後分析的方法,稱為「文本挖掘」(text mining)。公仔箱論壇' M+ F" x. k6 N& i& m% ~' `
有不少的統計文獻就套用文本挖掘,嘗試解決中國四大名著之一《紅樓夢》作者誰屬的爭議。一般認為,前80回的作者是曹雪芹,而後40回的作者則另有其人。
7 `$ y2 W) K: F5 r: |; L其中一個分析方法,是先將120回分成12段,每段有連續10回的內容,然後找出《紅樓夢》中出現頻率最高的數百個單字(如「了」、「不」、「一」、「的」、「人」等) 。跟着統計每一段裏各個單字的出現次數,以此為數據並利用聚類分析法(cluster analysis)進行分類。
( h; \$ U. G! j5 o! g3 z: E) Ktvb now,tvbnow,bttvb結果顯示120回內容果然可分成兩類,即前80回一類及後40回一類。這證明後40回跟前80回在語法用字上存在不一致性,應不是出自同一人手筆。除了用單字,在去年底的一個「數位典藏與數位人文」國際研討會(International Conference of Digital Archives and Digital Humanities)中,一篇報告就利用雙字詞作分析,找到一些新證據。例如報告指出前80回共出現34個「嬤嬤」一詞而後40回就一個都沒有出現。
: `+ y4 Y5 m% i8 `8 Q! M. c5.39.217.77:8898報紙測市 探市場情緒
4 Q3 J, m( c R, m M- D' w5.39.217.77:8898《紅樓夢》的文本挖掘成功從文字中找出不同作者的用字偏好和文筆運用。近年,學界亦積極研究新聞媒體資訊如何影響金融市場。
9 b# c: f& n- e; j' ]+ U其中,量度每日市場情緒就可利用財經報章(如《華爾街日報》或《紐約時報》的財經評論)內的文字。做法是利用在金融上通常產生正面或負面影響的單字字典,然後計算每日對有關某隻股票的新聞內出現正面字和負面字的百分比,來量度市場對該股票的情緒高低。
* F5 n7 W1 T* y; l" e% ]Loughran和McDonald就提供一個金融市場的正面(354個)和負面(2349個)字字典,例如boom(繁榮)、enhance(提升)及improve(改善)是代表金融氣氛正面的字;而bailout(救市)、closed(關閉)及suffer(遭受)是代表金融氣氛負面的字。有興趣的讀者,可到這網址下載:www.nd.edu/~mcdonald/Word_Lists.html。公仔箱論壇: R1 G: D+ z8 }% x/ s" |
一份即將在Journal of Finance刊登的文章中,作者Garcia利用1905年至2005年在《紐約時報》中的兩個財經新聞版來量度每日市場情緒,發現市場情緒能幫助預測每日道指的回報率,特別是在經濟衰退的時候。tvb now,tvbnow,bttvb) g6 n! W8 g3 U u! N; f H3 ^
有一點讀者要留意,由於今天發行的報紙內的財經評論是昨天寫的,亦即是代表昨天市場的情緒。所以量度今天的市場情緒就需要用明天的新聞!要及時地預測市場走勢,就非用網上新聞不可。
% X; a9 Q0 @! U5 A+ Q5 H& t/ Q觀負面字 測大市走勢
0 U0 l# W& a* F' V( e! e8 `筆者也在這裏趁一趁熱鬧,利用美國市場收市後至下一天開市前的電子新聞來嘗試能否預測標準普爾500指數開市後的變化。首先,在Factiva下載由2007年至2010年所有在非交易時段內路透發表有關美國股票市場的熱門網上新聞,共約10萬則新聞。
, u5 d* O- n- V7 [接着利用Loughran和McDonald所提供的負面字字典,計算出每天在非交易時段新聞內出現每個負面字的百份比。
& ^* {1 [) h M% @- O+ z公仔箱論壇由於在二千多個負面字當中,不是每一個字都有預測能力。所以,我們再運用複雜的數據投影方法去降低負面字數據的維數。最後用逐步回歸法找出對下一天標準普爾500指數開市後的跌幅有顯著預測能力的因素。5.39.217.77:8898, _& ~" N' N K1 P( f0 r o
結果發現,有2個(降維後)文字指標有統計性顯著的預測能力。而從這2個文字指標當中,我們發現新聞中會比較多出現負面字包括「loss」、「crisis」、「late」、「against」、「slow」 等。例如在2008年10月8日晚上的新聞講及IMF發出全球經濟衰退警號與及歐美將處於衰退的邊緣。之後,標準普爾500指數在跟着的那一天(即2008年10月9日)大跌8%。這反映新聞消息對金融市場是有預測性的。5.39.217.77:88988 s& `- t) E2 r) \
讀者可以利用財經新聞挖掘工具,自製一個投資交易策略,看看能否從中獲利。公仔箱論壇8 y- K$ |" d$ A& j# V0 _1 w
作者為香港大學統計及精算學系副教授
/ _! B) ~: E! D0 L) N' ^5.39.217.77:8898
$ M4 h8 w6 @3 g V I0 k- e) H2 e5.39.217.77:8898 放大圖片 |