為甚麼基於社交媒體的大數據分析並不可靠?
如今,越來越多科學家正把目光轉去社交媒體,研究線上及線下的人類行為,例如預測夏季股票市場的大波動。一些資料處理專家指出,使用該種方法處理資料時,研究者們須警惕超大量的社交媒體資料,因為其背後可能存在嚴重的缺陷。錯誤的結果可能產生嚴重影響:每年,都有過千的研究報告是基於收集社交媒體上的資料而成。麥基爾大學計算科學學院助理教授 Derek Ruths 稱 這些文章會影響公眾、行業及政府的投資決策。卡內基美隆大學軟件科學院的合作作者 Jürgen Pfeffer 則說,並不是所有打上『Big Data』標籤的東西都是好的,他指出許多研究者都希望有這樣的前提,只要資料足夠多,他們就能修正任何可能產生的偏差。然而,行為學研究中有一句說話:瞭解你的資料。不過,社交媒體作為資料來源之一,其吸引力實在驚人。人們想要瞭解世界上正在發生著什麼,這無疑是快速的跟進辦法。以 2013 年的波士頓馬拉松爆炸案為例,Pfeffer 在兩周內收集了兩千五百萬個相關 tweets。
數據過濾與 SPAM
在《科學》雜誌上的一篇評論中,Ruths 和 Pfeffer 強調可能導致社交媒體資料失實的因素,及它們的解決辦法。包括:
不同的社交媒體平台吸引不同的對象,例如,Instagram 18 至 29 歲的成年人吸引力最大,包括非裔美國人、拉丁人、女性和城市居民,而在 Pinterest 上,佔據著主導地位是那些年收入超過 $100,000 的家庭和 25 至 34 歲的女性用戶。Ruths 和 Pfeffer 指出,很少研究人員能夠知道,更談不上正確對待這些內含的採樣偏差。
社交媒體研究所使用的公開資料並不能準確反映平台的總體狀況,研究者們對於網站建立者如何過濾他們的資料來源常常是一頭霧水。社交媒體的設計通常會影響用戶的行為,從而改變所測量的資料。例如,Facebook 沒有不喜歡的按鍵,這樣令負面內容比正面的喜歡更難被偵查到。
大量 SPAM(垃圾郵件發送者和機械人)通常在社交媒體上偽裝成普通的使用者,也被錯誤地納入為人類行為測算和預測。
研究者們經常報告的結論來自於易於分類的使用者、主題和事件,這就令新的方法看起來更加準確。例如,調查 Twitter 用戶的政治取向時,只取得 65% 的準確率,但研究(側重於政治活躍用戶)則聲稱有 90% 的準確度。
解決方法
Ruths 和 Pfeffer 指出,以上很多問題都有顯而易見的解決方法,這些方法被廣泛地應用在流行病學,統計學和機械學等領域。Ruths 說這些問題的共通點就是,需要研究者們在分析社交媒體資料時,能更加敏銳地感知資料本身。
社會學家應該熟悉這種技術和標準。Ruths 說:「1948年,臭名遠播的杜威擊敗杜魯門報紙標題就來自於電話調查,它最終在採樣上低估了杜魯門的支持者。這並不是在抹黑民意調查,而正是那次顯而易見的錯誤導致今天日益複雜的技術、更高的標準,以及更加準確的民調。如今,我們站在與當年類似的技術上。通過解決面臨的問題,我們才能實現基於社交媒體的研究所展現出來的巨大潛力。」