江曉原:“數據挖掘”:天使還是魔鬼?
比特幣收益與製造業和金屬採礦業的股票收益呈負相關……
特朗普在推特文章中使用“with”這個單詞四天後,中國茶葉分銷商Urban Tea的股價會下跌……
特朗普在推特文章中使用“president”這個單詞與兩天後股價的標準普爾500指數之間存在0.43的相關性……
看到這些新發現的“規律”或“模式”,你震不震撼?驚不驚喜?如你所料,這樣的發現離不開“大數據”和“AI算法”,特別是近年一個非常時髦的方法“數據挖掘”。
《不被信任的科學——大數據、人工智能與信息欺騙》,[美]加里·史密斯 著,孫 強 譯,上海科技教育出版社2025年出版
一個經濟學家眼中的“數據挖掘”
“數據挖掘”又被稱爲“機器學習”或“知識發現”——這些名詞在中文語境中都是“好詞”,充滿了高科技和創新意味,肯定不具有任何批判色彩。所謂“數據挖掘”,用大白話來說,就是在海量的“大數據”中,藉助各種“AI算法”,嘗試“發現”或獲取各種各樣的數據關係。
加里·史密斯(Gary Smith)是美國經濟學家、統計學家,耶魯大學經濟學博士,在波莫納學院當經濟學教授。面對如今的“大數據”和“AI算法”浪潮,史密斯看來是一個明顯的保守派。2023年他出版了《不被信任的科學——大數據、人工智能與信息欺騙》一書,基本論點是:“虛假信息”“數據歪曲”“數據挖掘”這三件事情,正在極大地損害科學的信譽,使得科學不再被公衆所信任。其中尤以“數據挖掘”讓他深惡痛絕,在書中花了很大的篇幅進行抨擊(主要集中在第三部分,即第8—10章)。
史密斯在書中所舉的各種“數據挖掘”的例子,看上去當然是非常荒謬的。他將這些“數據挖掘”的發現稱爲“愚人金”(一種有着黃金色澤的銅),認爲這些數據關係不僅很可能是毫無意義的,甚至還會具有欺騙性。但問題在於,“荒謬”和“不荒謬”的界限在哪裏呢?或者說,在被“挖掘”出來的各種關係中,如何判斷一種數據關係是“荒謬”的,而另一種是“不荒謬”的呢?
史密斯在對“數據挖掘”的定義中,似乎也接觸到了這個問題:“在不受理論影響的數據中尋找潛在的模式,這被稱爲數據挖掘,即研究人員在數據中深入挖掘,並且無法預知他們會發現什麼。”他又表示:“傳統的數據庫查詢需要一定程度的假設,但挖掘大數據會揭示出我們甚至不知道要去尋找的關係和模式。”他還引用《連線》雜誌上題爲“大數據與理論家的消亡”的文章說:“算法尋找模式,而假設從數據中得出。分析師甚至不必再費心提出假設。”
總而言之,史密斯的意思歸納起來就是:傳統的數據處理有理論指導和預期,而“數據挖掘”則是信馬由繮,亂挖一氣,希望能挖出點意想不到的東西來(比如本文開頭所舉的那些例子就很典型)。而史密斯在書中毫不猶豫地斷言:“由數據挖掘所發現的大多數模式都是胡說八道。”
從傳統的數據處理到“數據挖掘”
史密斯是一個經濟學家,我猜想他可能並未接受過理工科的學術訓練。其實“數據挖掘”到底是天使還是魔鬼,也未必像史密斯所想象的那樣,因爲它和傳統的數據處理之間並無不可逾越的鴻溝,很多情況下它就是正常的科學研究手段。
我本科學天體物理專業出身,曾在中國科學院上海天文臺工作過15年。天文學界有一種工具稱爲“星曆錶”,就是用現代天體力學方法,計算出太陽系中各大行星、矮行星等天體每隔一段時間(這個間隔稱爲“步長”)的天球座標(黃經和黃緯)。用今天的眼光來看,我們完全可以將星曆錶看成一種“大數據”,我們可以使用適當的計算機語言(就是“AI算法”),在其中“挖掘”出各種各樣的結果。例如,我們可以求出牧野之戰那天(公元前1044年1月9日)清晨時木星在天球上的位置,也可以找出其他各種各樣的數據關係——如果我們覺得這種關係有意義的話。
換句話說,從正常合理的數據分析處理,到史密斯所抨擊的“數據挖掘”,中間有着類似“連續譜”的過度區域。數據處理技術在互聯網和人工智能出現之前很早就存在了。史密斯所深惡痛絕的,其實應該是當下對“數據挖掘”的濫用。
至於“數據挖掘”爲何會在當下被濫用,那確實與大數據和AI有關。我進天文臺工作是20世紀80年代,那時的星曆錶還是一種非常厚的紙質大書,裏面用極小的字密密麻麻印着數據,如果要在裏面“挖掘”,只能用肉眼耐心搜尋數據,找出數據後還要用內插法處理過,才能夠使用,在這種情況下,濫用是不可能發生的。而進入1990年代,我們開始使用NASA噴氣推進實驗室的星曆錶數字光盤,這時採用“AI算法”從星曆錶中“挖掘”數據已經成爲可能,不過我們當然從未起過“濫用”的念頭。
這是一幅荒誕的圖景嗎?
僅看《不被信任的科學》這樣的書名,很容易讓人誤以爲是“科學知識社會學”(SSK)方面的著作,其實卻並非如此。史密斯雖然沒有從科學哲學的角度去討論問題(也許他不具備這方面的背景),但他對“大數據”和“AI算法”各種弊端的強烈批判,至少在客觀效果上還是很有啓發意義的。
比如書中第一部分討論“虛假信息”,這就是我們通常意義上的所指:給出一些富有“科學”色彩的概念和說法,目的是對公衆進行欺騙。作者舉的例子是當下炙手可熱的區塊鏈和比特幣。史密斯認爲許多人根本不知道區塊鏈是什麼,只覺得它非常“科學”,非常高大上,那和它綁在一起的比特幣必定前程遠大。而他認爲“比特幣的內在價值爲零”,他將比特幣和金融史上的鬱金香炒作和南海股票騙局視爲同類——注意這是本書作者的看法,他被視爲經濟學家。不過我們當然不在這裏討論比特幣的成敗,如果比特幣真的前程遠大,那就是史密斯舉例不當,但並不影響他對“虛假信息”的批判。
書中第二部分揭露“數據歪曲”,這也是中國讀者所熟悉的,指對數據進行錯誤解讀,看起來很“科學”,而且“用數據說話”,顯得更加“有理有據”,因而更具欺騙性。史密斯舉的例子還是比特幣——看來他是真的和比特幣有仇了。當然他對“數據歪曲”的批判,從學理上說仍然成立。
在本書的最後兩個部分,史密斯發起了對人工智能和當代某些社會學研究的密集批判。他對人工智能業界迄今爲止所宣稱的各種進展,普遍評價很低。他還舉出了各種他認爲是荒誕離奇的“學術研究”例證,比如女性向男性求助時是披着頭髮還是扎着馬尾更容易成功之類(其實這個例子未必荒誕)。
史密斯用一種相對來說比較樸素的思路,指出了一個有點魔幻的現象——科學技術的最新成果(互聯網、大數據、人工智能等等),正在損害科學技術之前積累起來的聲譽,使得公衆失去對科學的信任:“科學家創造了大數據和分析大數據的工具,但兩者都爲科學家制造了更多讓他們尷尬和損害他們信譽的機會。”