警惕!我們正在被“生病”的 AI 包圍……

來源: 更新:

如果生物每一代都近親繁殖,會發生什麼?

隨着物種的基因庫變得越來越趨同,後代會逐漸失去適應環境的能力,遺傳缺陷不斷累積,最終導致種羣的衰退甚至滅絕。這就是生物學中著名的“近交衰退”現象。

而現在,大語言模型也正在面臨同樣可怕的危機,當 AI 用自己生成的內容來訓練自己時,就像生物近親繁殖一樣,AI 也會逐漸劣化,甚至崩潰

圖庫版權圖片,轉載使用可能引發版權糾紛

一個 AI 模型崩潰的真實案例

2022 年 11 月,ChatGPT 3.5 發佈以來,越來越多的 AI 生成的內容被髮布到網上。而新一代的AI模型在訓練時,不可避免地會將這些內容作爲訓練數據的一部分。

當 AI 開始用自己生成的內容來訓練下一代 AI 時,AI 生成的內容會失去多樣性,變得越來越單一。就像不斷複印複印件的過程一樣,訓練的過程中,每一代模型都會丟失一些信息,特別是那些罕見但重要的尾部數據!

讓我們看一個真實的案例,AI 模型在遞歸生成數據上進行訓練時會導致的模型崩潰。

實驗用的模型是 Meta 公司開發的 OPT-125M 模型進行實驗。這個模型有 1.25 億個參數,屬於小型語言模型,但足以展示模型崩潰的全過程。

研究人員讓模型生成關於中世紀建築的文章,然後用生成的內容訓練下一代模型,如此循環往復。每一代訓練完成後,都會輸入提示詞:

一些始於 1360 年之前的建築工程——通常由一位主石匠和一小隊巡迴石匠完成,並由當地教區勞工補充,根據 PoyntzWright 的說法。但其他作者拒絕這種模式,認爲主要建築師是基於垂直式建築的早期範例來設計教區教堂塔樓的。

1.第 0 代(原始模型)

這個模型能夠正常生成關於中世紀建築的專業內容,討論哥特式建築、羅馬式建築等專業話題,整體內容連貫、邏輯清晰。

輸出內容:復興式建築,如倫敦的聖約翰大教堂。垂直復興式建築現存最早的例子出現在 18 世紀的根西島聖母教堂,該教堂可追溯到 19 世紀晚期。垂直式教堂有兩種類型:那些…”

2.第 1 代

開始出現輕微的偏離,但仍能保持建築主題。

輸出內容:建築,如羅馬的聖彼得大教堂或布宜諾斯艾利斯的聖彼得大教堂。沒有證據表明這些建築是在教皇英諾森三世統治期間建造的,但有可能是在他的繼任者英諾森教皇統治期間建造的……

3.第 5 代

語義開始嚴重偏離,出現大量無關內容。

輸出內容:主義,已被翻譯成 100 多種語言,包括英語、法語、德語、意大利語、西班牙語、葡萄牙語、荷蘭語、瑞典語、挪威語、波蘭語、匈牙利語、斯洛伐克語、立陶宛語、愛沙尼亞語、芬蘭語、羅馬尼亞語、保加利亞語、土耳其語、克羅地亞語、塞爾維亞語、烏克蘭語、俄語、哈薩克語、吉爾吉斯語……

4.第 9 代

經過數次反覆循環後,模型的輸出從專業的中世紀建築學討論,變成了瘋狂的彩色傑克兔大全,徹底崩潰了。

輸出內容:建築。除了是世界上最大的黑尾傑克兔、白尾傑克兔、藍尾傑克兔、紅尾傑克兔、黃尾傑克兔種羣的棲息地之一……

模型崩潰是怎麼發生的?

要理解模型崩潰爲什麼會發生,我們需要從信息論的角度來看這個問題。還記得香農的數據處理不等式嗎?簡單來說就是:在任何信息處理鏈中,信息只會減少或保持不變,而不會增加。

這就像是一個傳話遊戲:原始人類數據是第一個人說的話,第一代 AI 模型是第二個人,聽到後轉述給下一個人(已經有信息損失了);第二代 AI 模型是第三個人,在已經失真的信息基礎上再次轉述

如此循環往復,每一次傳遞都會進一步失真,最終的結果可想而知,原本的“今天天氣真好”可能變成了“今天有隻兔子”!

大語言模型的劣化過程也是如此,每一代訓練過程中的誤差被累積傳遞下去最終導致問題越來越大!

那麼模型崩潰會導致什麼後果?

首先模型崩潰機會導致所有的生成式 AI 劣化。拿圖像生成模型來說,未來 AI 生成的人臉可能會越來越相似,最終趨向於同一張標準臉。

這是因爲隨着 AI 生成圖像在互聯網上的大量傳播,新一代的圖像生成模型不可避免地會將這些合成圖像作爲訓練數據。由於 AI 生成的人臉往往具有某些共同特徵(比如特定的面部比例、肌膚質感、光影效果),當這些特徵在訓練數據中佔據主導地位時,模型就會逐漸遺忘真實人臉的多樣性,轉而生成越來越標準化、同質化的面孔。

這不只是技術問題,更是社會危機!模型崩潰甚至會顛覆我們整個社會的運轉方式!

圖庫版權圖片,轉載使用可能引發版權糾紛

模型崩潰對人類社會有哪些影響?

人類文明會變成“複製-粘貼”時代

當 AI 模型發生崩潰後,它們就像得了健忘症的老師,只記得那些最常見、最普通的知識,而把那些珍貴的、獨特的文化瑰寶統統忘記了!

隨着這些“生病”的大語言模型被使用得越來越頻繁,慢慢地文化多樣性就會開始消失!因爲 AI 只會生成那些大衆化的內容,就像所有的餐廳都只做川菜,再也沒有粵菜、湘菜、東北菜了。小衆文化、地方特色、民族傳統,統統被遺忘!

創意變成了流水線產品,所有 AI 生成的音樂都是同一個調調,所有的畫作都是同一種風格,所有的小說都是同一個套路。就像工廠裏生產的商品,千篇一律!

偏見被無限放大

AI 的偏見會像滾雪球一樣越滾越大,影響到教育、新聞、法律判決。如果某個 AI 認爲“程序員都是宅男”,這個刻板印象就會被無限強化!

歷史可能被篡改,未來的 AI 可能無法準確記錄我們這個時代的多元文化,就像古代的史書可能會遺漏很多真實的歷史一樣。數十年之後,現在我們所謂的 AI 味可能會變成這個社會的主流,沒有 AI 味的內容反而是錯誤的,不正確的。

最可怕的後果是單一化的循環!

如果大部分內容都由 AI 生成,而這些 AI 又在互相抄作業,那我們的文明就會陷入一個可怕的循環:AI 生成內容→人類消費這些內容→AI 學習這些內容→生成更相似的內容…

這就像一個巨大的迴音室,最終所有人都會穿一樣的衣服,聽一樣的音樂,看一樣的電影,甚至想一樣的事情。

這不是科幻電影裏的情節,而是我們現在就必須警惕的現實威脅!

圖庫版權圖片,轉載使用可能引發版權糾紛

如何阻止 AI 的集體墮落?

現在 AI 領域的前沿研究者也已經意識到了這個問題,正在想辦法拯救我們的 AI。就像人需要喫新鮮蔬菜才能保持健康一樣,AI 也需要新鮮的人類數據才能保持聰明。

我們可以通過建立人類內容保護區,專門收集和保護人類原創的內容,就像建立自然保護區一樣;與作家、藝術家、音樂家建立長期合作,確保有源源不斷的新鮮血液。

另外,我們還可以給 AI 內容加入識別標誌,比如給 AI 內容打上數字水印,就像鈔票上的防僞標記,AI 內容也有隱形的防僞碼,又或者使用區塊鏈追蹤,像快遞包裹一樣,每個內容都有完整的物流信息。

總之,未來的 AI 世界,由我們共同書寫。模型崩潰並不是 AI 的宿命,而是我們可以避免的陷阱。

策劃製作

本文爲科普中國·創作培育計劃扶持作品

出品丨中國科協科普部

監製丨中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司

作者丨田威 AI 工具研究者

審覈丨於暘 騰訊玄武實驗室負責人

策劃丨張林林

責編丨張林林

審校丨徐來

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top