警惕！我們正在被“生病”的 AI 包圍……-辟謠-漫步新聞-陪你看看

如果生物每一代都近親繁殖，會發生什麼？

隨着物種的基因庫變得越來越趨同，後代會逐漸失去適應環境的能力，遺傳缺陷不斷累積，最終導致種羣的衰退甚至滅絕。這就是生物學中著名的“近交衰退”現象。

而現在，大語言模型也正在面臨同樣可怕的危機，當 AI 用自己生成的內容來訓練自己時，就像生物近親繁殖一樣，AI 也會逐漸劣化，甚至崩潰。

圖庫版權圖片，轉載使用可能引發版權糾紛

一個 AI 模型崩潰的真實案例

2022 年 11 月，ChatGPT 3.5 發佈以來，越來越多的 AI 生成的內容被髮布到網上。而新一代的AI模型在訓練時，不可避免地會將這些內容作爲訓練數據的一部分。

當 AI 開始用自己生成的內容來訓練下一代 AI 時，AI 生成的內容會失去多樣性，變得越來越單一。就像不斷複印複印件的過程一樣，訓練的過程中，每一代模型都會丟失一些信息，特別是那些罕見但重要的尾部數據！

讓我們看一個真實的案例，AI 模型在遞歸生成數據上進行訓練時會導致的模型崩潰。

實驗用的模型是 Meta 公司開發的 OPT-125M 模型進行實驗。這個模型有 1.25 億個參數，屬於小型語言模型，但足以展示模型崩潰的全過程。

研究人員讓模型生成關於中世紀建築的文章，然後用生成的內容訓練下一代模型，如此循環往復。每一代訓練完成後，都會輸入提示詞：

一些始於 1360 年之前的建築工程——通常由一位主石匠和一小隊巡迴石匠完成，並由當地教區勞工補充，根據 PoyntzWright 的說法。但其他作者拒絕這種模式，認爲主要建築師是基於垂直式建築的早期範例來設計教區教堂塔樓的。

1.第 0 代（原始模型）

這個模型能夠正常生成關於中世紀建築的專業內容，討論哥特式建築、羅馬式建築等專業話題，整體內容連貫、邏輯清晰。

輸出內容：復興式建築，如倫敦的聖約翰大教堂。垂直復興式建築現存最早的例子出現在 18 世紀的根西島聖母教堂，該教堂可追溯到 19 世紀晚期。垂直式教堂有兩種類型：那些…”

2.第 1 代

開始出現輕微的偏離，但仍能保持建築主題。

輸出內容：建築，如羅馬的聖彼得大教堂或布宜諾斯艾利斯的聖彼得大教堂。沒有證據表明這些建築是在教皇英諾森三世統治期間建造的，但有可能是在他的繼任者英諾森教皇統治期間建造的……

3.第 5 代

語義開始嚴重偏離，出現大量無關內容。

輸出內容：主義，已被翻譯成 100 多種語言，包括英語、法語、德語、意大利語、西班牙語、葡萄牙語、荷蘭語、瑞典語、挪威語、波蘭語、匈牙利語、斯洛伐克語、立陶宛語、愛沙尼亞語、芬蘭語、羅馬尼亞語、保加利亞語、土耳其語、克羅地亞語、塞爾維亞語、烏克蘭語、俄語、哈薩克語、吉爾吉斯語……

4.第 9 代

經過數次反覆循環後，模型的輸出從專業的中世紀建築學討論，變成了瘋狂的彩色傑克兔大全，徹底崩潰了。

輸出內容：建築。除了是世界上最大的黑尾傑克兔、白尾傑克兔、藍尾傑克兔、紅尾傑克兔、黃尾傑克兔種羣的棲息地之一……

模型崩潰是怎麼發生的？

要理解模型崩潰爲什麼會發生，我們需要從信息論的角度來看這個問題。還記得香農的數據處理不等式嗎？簡單來說就是：在任何信息處理鏈中，信息只會減少或保持不變，而不會增加。

這就像是一個傳話遊戲：原始人類數據是第一個人說的話，第一代 AI 模型是第二個人，聽到後轉述給下一個人（已經有信息損失了）；第二代 AI 模型是第三個人，在已經失真的信息基礎上再次轉述

如此循環往復，每一次傳遞都會進一步失真，最終的結果可想而知，原本的“今天天氣真好”可能變成了“今天有隻兔子”！

大語言模型的劣化過程也是如此，每一代訓練過程中的誤差被累積傳遞下去最終導致問題越來越大！

那麼模型崩潰會導致什麼後果？

首先模型崩潰機會導致所有的生成式 AI 劣化。拿圖像生成模型來說，未來 AI 生成的人臉可能會越來越相似，最終趨向於同一張標準臉。

這是因爲隨着 AI 生成圖像在互聯網上的大量傳播，新一代的圖像生成模型不可避免地會將這些合成圖像作爲訓練數據。由於 AI 生成的人臉往往具有某些共同特徵（比如特定的面部比例、肌膚質感、光影效果），當這些特徵在訓練數據中佔據主導地位時，模型就會逐漸遺忘真實人臉的多樣性，轉而生成越來越標準化、同質化的面孔。

這不只是技術問題，更是社會危機！模型崩潰甚至會顛覆我們整個社會的運轉方式！