AI算命靠不靠譜?科學家們還真幹過
《AI萬金油:商業幻想與科技狂潮》,[美]阿爾文德·納拉亞南、[美]薩亞什·卡普爾 著,王勇、王安心 譯,中信出版集團出版
如果你對AI感到困惑,擔憂它對全球和個人未來的影響,《AI萬金油:商業幻想與科技狂潮》值得一看。這本書提供了清晰視角,深入剖析AI的運作原理及侷限性,幫助你辨識AI何時能帶來真正的價值,何時可能引發隱患,提醒你警惕企業炒作,推銷那些既不實用,未來也無前景的AI產品。
這本書在肯定部分AI技術潛力的同時,深入探討了AI在教育、醫療、招聘、銀行、保險和刑事司法等領域的實際應用所帶來的問題與危害。作者將現階段的AI分爲三類,即生成式AI、預測式AI和內容審覈AI,詳細解析了不同類型AI的核心區別、潛力與缺陷。
>>內文選讀
預測未來是許多科學領域的核心,但在社會科學中卻並非如此。社會科學中,主流方法是致力於改善我們對現象原因的理解,而不是專注於預測。舉例來說,社會學家的目標通常並不是預測某個人未來的收入,以實施有針對性的干預。他們的目標是研究貧困的成因,從而制定更有效的措施來緩解貧困。
隨着可用數據量的增加,機器學習在社會科學中的預測應用開始逐步發展。讓我們來看一個名爲“脆弱家庭挑戰”的嘗試,這是一個利用AI和大規模數據來預測兒童成長情況的著名研究項目。
在2015年,我們在普林斯頓大學的同事馬修·薩爾加尼克希望研究AI預測未來的能力。當時,普林斯頓大學的社會學教授薩拉·麥克拉納漢正在進行一項長期研究,追蹤了2000年前後出生於美國20多個城市的4000多名兒童的生活。在過去的15年中,薩拉及其團隊分別在孩子出生時,以及在孩子1歲、3歲、5歲和9歲時,對這些孩子及其家庭進行調查。通過這些調查,研究團隊從父母、老師以及家庭活動中收集了超過一萬個數據點。事實上,很難找到一個未被納入這項研究的社會學變量。
在2015年,薩拉及其團隊計劃發佈最新一輪調查數據,這些數據是在孩子們年滿15歲時收集的。馬修希望利用“脆弱家庭挑戰”項目的調查數據來測試AI的預測能力。他來到薩拉的辦公室討論細節,這場對話成爲兩個人合作的起點。
他們向全球的參賽者發佈了部分數據,即從孩子出生到九歲期間收集的所有數據。參賽者被要求利用這些數據創建AI模型,預測孩子在15歲時的表現,包括六項具體結果,如GPA、是否被驅逐出住所,以及家庭是否面臨物質困境。參賽者的排名基於他們的預測結果與真實數據的接近程度。
由於比賽對公衆開放,吸引了數百名研究人員參與,不同團隊得以嘗試多樣化的方法。有些團隊使用複雜的AI模型,而另一些團隊則採用傳統的社會學統計模型。不論方法如何,所有參賽者都在同樣的條件下競爭,唯一的評判標準是模型對兒童未來結果的預測準確性。這場比賽的目標並非挑選“最佳模型”,而是通過集體努力,互相學習。實際上,組織者將這一形式稱爲“集體協作”。
最終,共有160個團隊提交了他們的預測結果。在這些模型中,一個簡單的基準模型被用作與複雜AI模型的對照。這個基準模型僅依賴基本的統計技術,包含4個特徵,其中3個與孩子的母親相關,一個與孩子九歲時的數據相關。例如,爲了預測孩子15歲的GPA,該模型使用了母親的種族、婚姻狀況、教育水平,以及孩子9歲時的學業表現。
令馬修感到驚訝,甚至有些失望的是,沒有任何模型表現得特別出色。即使是表現最好的模型,其預測能力也僅比隨機猜測略強。而那些複雜的AI模型與僅包含4個特徵的基準模型相比,並未表現出顯著改進。
圖源:視覺中國
換句話說,儘管擁有數萬個關於數千個家庭的數據、160名競賽研究人員以及最先進的AI模型,但在預測未來方面的表現並未優於基於社會學理論並在幾十年前提出的迴歸模型。數據表明了過去的GPA、種族和社會階層確實在預測未來的GPA方面具有一定的作用。然而,這些趨勢早已被社會學家所理解,因此這並不是什麼新發現。
爲何“脆弱家庭挑戰”項目以失敗告終
在學術演講中展示“脆弱家庭挑戰”項目的結果時,計算機科學家和數據科學家是看到令人失望的結果時提問最多並提出改進建議最多的。一個最常見的問題是,來自4000個家庭的樣本是否足夠?這些觀衆通常會提到另一場推動深度學習革命的比賽,即2012年的ImageNet挑戰。該比賽要求參賽者用AI技術識別圖片內容,數據規模達到120萬張標記圖片。
提高社會預測精度的一種可能方法正是計算機科學家在這種情況下提出的暴力干預策略,即擴大樣本規模,獲取更多數據。這一假設基於這樣的理念:通過增加數據量和提高計算能力,可以顯著提升預測的準確性,從而實現社會預測領域的突破。
正因如此,我們不能簡單地將“脆弱家庭挑戰”項目的結果視爲社會預測能力的根本限制。事實上,我們尚未確定這一假設是否成立。在理論已經成熟的科學領域,如天文學中的行星軌道預測,可預測性非常高,我們可以精準地預測行星在未來幾年中的位置。而在另一些情況下,也存在明確的可預測性限制。例如,熱力學定律讓我們能夠估算氧氣或氮氣等氣體的整體行爲,卻無法預測單個氣體分子的運動軌跡。
然而,到目前爲止,我們還沒有關於社會問題可預測性的系統理論。我們既無法很好地預測未來,也不清楚預測能力的基本限制究竟在哪裏。
科幻作品中常常探索人生結果的可預測性。科幻電影《少數派報告》提出了這樣一個設定,即通過預測未來可能發生的犯罪,可以提前逮捕潛在的罪犯。這些作品的核心矛盾通常集中在宿命論與自由意志的對立上,但它們往往忽略了一個關鍵且無法消除的誤差來源,那就是偶然事件。
AI在某些任務中表現良好的一個顯著原因是,任務本身的不可消除誤差較小。例如,在分類圖像內容時,一旦我們擁有一張圖像(如一隻貓的圖像),判斷圖中內容是相對容易的。在這種情況下,不可消除的誤差很小;人類和現代AI大多數情況下都能正確分類圖像,偶然性在確定正確答案中幾乎不起作用。
那麼,社會預測中的不可消除誤差究竟有多高?目前,我們對社會科學的理解和對可預測性的理論尚未成熟,我們也不能給出明確的答案。然而,我們有理由相信這種誤差較高,部分原因是偶然事件的影響。人們可能會經歷完全無法預測的突發事件,這些事件對他們的人生軌跡會產生重大影響。沒有任何模型能夠準確預測某人是否會中彩票,或者是否會遭遇車禍等事件。
圖源:視覺中國
那麼,這些不可預測事件的發生頻率有多高呢?或許蝴蝶扇動翅膀確實能夠引發龍捲風,但這種情況如果每千年才發生一次,那可能不值得我們過於擔心。比起大規模的突發事件,更常見的是一些小的初始優勢或劣勢,隨着時間的推移逐漸累積,產生深遠影響。例如,年度績效評估中的一個小偏見(如因爲你的上司與你意見相左)可能會對你的職業生涯造成重大影響,讓你比他人晉升得更慢。這些微小的差異往往難以量化,從而增加了預測中不可消除的誤差。
現在讓我們回到預測未來結果所需數據量的問題。我們知道,樣本中的噪聲越大,構建準確模型所需的樣本規模就會急劇增加。而社會數據集通常充滿噪聲。此外,社會現象的模式並非固定不變。與貓的圖像不同,社會現象會因背景、時間和地點的不同而發生顯著變化。在一個地方或時間點定義成功的因素,可能對預測另一個地方或時間的成功完全無效。
這意味着,AI要想準確預測未來,可能需要大量來自不同社會背景的數據,而僅僅依賴過去的數據是不夠的,就像僅用上一次選舉的民調數據並不足以準確預測下一次美國總統選舉的結果一樣。
這引出了一個有趣的可能性,也許收集足夠的數據來準確預測人們的社會結果不僅不現實,甚至是不可能的。馬修·薩爾加尼克將其稱爲“80億問題”,如果我們無法做出準確預測,是不是因爲地球上根本沒有足夠的人口來讓我們學習並識別出所有可能存在的模式?
此外,樣本的數量和樣本所包含的信息同樣重要。在“脆弱家庭挑戰”項目中,每個孩子的數據記錄了大約一萬個與社會學相關的特徵。但即便如此,這些特徵仍可能不足以捕捉所有影響結果的因素,接下來我們將闡述原因。
預測比賽結束後,馬修和他的同事們試圖找出這些模型表現不佳的原因。爲此,他們決定拜訪那些預測誤差最大的家庭,探索導致這些偏差的具體原因。在一次採訪中,他們發現一個原本成績較差的孩子突然在學校裏表現出色。原因是鄰居給予了關鍵支持,不僅開導孩子、輔導作業,還常給孩子喫藍莓。但在“脆弱家庭挑戰”項目的數據中,沒有問及孩子是否從家庭外獲得食物(或更重要的,是否有人幫助輔導作業)。這是不是一個缺失的關鍵特徵?如果數據中包括這些信息,是否能更準確地進行預測,如孩子生活中是否有一個成年人支持?當下的數據集中又缺少了多少類似的重要特徵呢?
構建更全面的數據集的一種方式是依靠政府收集的數據。例如,荷蘭已經編制了關於個人家庭、鄰居、同學、家庭成員和同事的詳細數據。這一數據集規模龐大,覆蓋全國總計1720萬人。平均而言,每個人與82個人相聯繫,總共記錄了14億個網絡關係。這些數據顯然比“脆弱家庭挑戰”項目數據集更大、更完整,有可能成爲預測社會結果的實際替代方案。如果這些數據確實能夠有效預測未來感興趣的結果,那麼相關成果很快就會顯現。目前,包括一場預測競賽在內的多個研究項目正在測試這一假設。
另一種潛在的數據來源是科技公司。如今,人們在谷歌和Meta等公司運營的平臺上花費了大量時間。這些公司收集的數據是否能夠提供其他途徑無法獲得的獨特洞見呢?
正如許多流行文化對技術與社會關係的探討所展現的,我們可以對此進行推測。然而,從根本上說,預測人們生活結果的嘗試對科技公司來說,可能面臨聲譽和法律方面的高風險,因此並不值得去做。此外,這些公司的商業目標並不是預測人們的長期未來,而是理解他們今天會參與哪些內容。因此,關於在線數據對長期預測能力的價值,短期內可能不會得到明確答案。
圖源:視覺中國
一種更宏大(同時也更具反烏托邦色彩)的設想是收集每個人的廣泛信息,建立一個關於人類的超級數據庫。在這樣的世界中,每個人都會被全天候監視,每一個行爲都被追蹤記錄。儘管美國國家安全局和大型科技公司已經掌握了大量關於人們的數據,但這裏討論的是更激進的數據收集,即追蹤每一句話、每一個動作、每一種行爲,甚至可能包括每一個大腦中的電信號。這樣的世界是否會帶來更好的預測能力?如果是,這麼做又是基於什麼目的呢?而這種全面追蹤對隱私權的代價又會有多高?