鯨歌不再神祕?“鯨語”和“人語”有異曲同工之妙

來源: 更新:

摘要:長久以來,鯨魚歌聲被視爲神祕現象,科學家難以解析其含義。2025年發表在《Science》的研究突破性地發現,座頭鯨和藍鯨的歌聲遵循與人類語言相同的統計規律——齊夫定律和澤拉斯定律。研究團隊通過模仿嬰兒語言學習模式分析鯨歌,證明即使在親緣關係遙遠的物種間,文化傳遞的交流系統也能發展出相似結構。這一發現不僅揭開了鯨歌的祕密,還爲理解跨物種交流和改進AI語言模型提供了全新視角。

關鍵詞:齊夫定律、澤拉斯定律、跨物種交流、文化傳遞、語言統計結構、進化語言學

劉慈欣在其科幻小說《鯨歌》中提起鯨魚的歌聲,文中寫到:“海洋科學家們研究鯨歌有很長時間了,至今無法明瞭其含義。”長久以來,鯨魚的歌聲被視爲神祕現象,衆多文學作品中對其充滿了瑰麗的想象。2025年發表在《科學》雜誌上的一項突破性研究通過模仿兒童學習語言的過程,驚奇地發現鯨魚的歌聲與人類使用的語言存在統計相似性。這一發現不僅揭開了鯨歌的部分祕密,還爲理解跨物種交流乃至人工智能語言模型提供了全新視角。

從齊夫定律看語言的簡潔性

爲了理解鯨魚歌聲與人類語言的相似性,我們需要先了解語言學中的重要規律。1949年,語言學家喬治·齊夫(George Kingsley Zipf)發現了一條簡單卻普適的規律:在任意語言中,最常用詞彙的出現頻率大約是第二常用詞的2倍。用公式表示即爲 “排名×頻率≈常數”。例如,英語中“the”的使用頻率遠超其他詞彙(見下表)。

這種規律性並非語言獨有。將單詞的使用換成城市的人口,網頁的訪問,甚至人羣的收入,類似齊夫定律的現象,我們會發現類似齊夫定律的現象在多個領域中普遍存在。科學家爲這類現象起了個更有代表性的名字“冪律法則(Power Law)”,讀者可參考韋斯特的科普書《規則》或張江的《規模法則》一書瞭解更多相關內容。

張江:爲什麼規模法則是解讀世界的重要工具?

除了上述的齊夫定律,語言學中還存在齊普夫簡潔定律 (Zipf''s law of abbreviation),該定律指出:使用頻次越高的詞彙,其時長往往越短。從上表中可以看出,使用最多的十個詞,大都是簡單的單音詞。在法語,德語等衆多語言系統中,簡潔定律也被證實存在。從進化的角度來看,簡潔定律的出現是物盡天擇的自然結果。動物發出聲音需要消耗能量,也會增加在捕食者面前暴露的風險。但凡話癡,都會被進化淘汰。

除了齊夫定律,語言學中還存在類似的澤拉斯定律 (Menzerath''s law),即單詞越長,組成單詞的音節就越短;句子越長,每個單詞的時長就越短。該定律描述了當較長的單詞或歌曲由較短的元素(如音節和音符)構成時,如何提高交流效率。讀者可以想象那些十幾個字母的英文單詞,例如especially,incredible等,其中每個音節都很短,而在句子層面,複雜的從句大多是由簡單的單詞組成,不會出現特別長的詞。這一定律揭示了語言爲提高交流效率而自然形成的結構特性——通過較短元素構建較長單位的巧妙機制。

簡潔的語言,小鯨魚學起來也更容易

齊夫定律和澤拉斯定律揭示了一個共同的進化原理:爲了應對交流的複雜性,生物會通過使用更短的基本單元來提高信息傳遞效率,實現“在最短的時間內以最少的能量傳遞最多的信息”。

既然是進化的產物,就決定了其不侷限於人類,例如對海南樹蛙的研究發現,其鳴叫中位置越靠後的音節[1],其時長越短,該現象與澤拉斯定律預測相符,這可能是由蛙類的能量或呼吸限制所致。而蛙類的鳴叫不符合齊夫定律,對此可能的原因是蛙類的鳴叫功能只在於吸引配偶,而非像人類語言這樣用於相互交流。類似的黑猩猩的肢體語言也被發現遵循澤拉斯定律,但齊夫定律在它們的肢體語言中並不明顯[2]。

那有沒有一種動物,其語言即滿足齊夫定律,又滿足澤拉斯定律了?如果有,這種動物需要有足夠大的社羣,足夠支撐它們展開內部溝通與代際傳播。同時這種動物最好和人類沒有多少直接交流,不然如果去研究會模仿人類語言的鸚鵡,那發現的規律到底是動物自然進化的產物,還是受人類影響的所致?

鯨魚和人類的最早共同祖先,可以追溯到一億年前,其生活的環境也與人類截然不同,但然而,2025年《科學》雜誌的一項突破性研究發現,座頭鯨及藍鯨,其發出的聲音,遵循齊夫簡潔定律,其中高頻使用的音符往往較短,而較少使用的音符則較長[3]。

圖1:圖中的每個點在代表一個鯨魚歌聲中的子序列,統計在整套數據中發現的所有子序列的頻率分佈(縱軸),橫軸按長度(聲音元素的時長)繪製。更頻繁的子序列比不那麼頻繁的子序列更短,符合齊夫定律。

圖2:聲音序列的出現次數和持續時間之間呈現冪律

(播放鯨魚歌聲,對應mp3)

https://doi.org/10.1126/science.adq7055

https://www.science.org/content/article/humpback-whale-songs-are-structured-human-language

破譯鯨歌的密碼

讀者也許會好奇,如果鯨魚的歌聲,真的結構高度有序,由嵌套的層級組件構成——聲音元素組成短語,短語重複形成主題,主題組合成歌曲,那科學家是如何從頭開始破譯這些聲音的?答案是科學家借鑑了人類嬰兒學習語言時的方法,嬰兒聽到的是連續的聲波信號,他們必須找出詞語的邊界在哪裏,從而識別出一個個詞彙。

嬰兒的策略很簡單:聆聽成人話語中不尋常的聲音組合。每當嬰兒識別出一個,很可能找到了單詞之間的邊界,因爲這些不常見的過渡在單詞內部不太可能發生。同樣的方案,可用於識別鯨魚歌聲中的“單詞”

圖3:將嬰兒學習語言的方法用在鯨魚歌聲識別中的示例

除了座頭鯨之外,其它鯨類的歌聲又是什麼情況了?同期刊登的另一項研究[4] ,分析了包括海豚、齒鯨和鬚鯨在內的16種鯨類動物的歌聲序列。發現大多被研究的鯨類遵循澤拉斯定律,而只有藍鯨和座頭鯨遵循齊夫定律。對此,可能的解釋是澤拉斯定律源於生物體的物理限制(說長句時需要換氣)。而齊夫定律對應着社會學習和語言的代際傳播,考慮到藍鯨和座頭鯨具有複雜的社會結構和文化傳承,因此其語言符合齊夫簡潔定律。

研究者還對比了不同物種聲音的結構特徵。圖4展示了不同語言和物種聲音的頻譜圖比較,從上至下依次爲英語句子、座頭鯨歌聲、虎鯨叫聲、海豚爆發脈衝以及抹香鯨尾聲。可以很明顯的看出來,座頭鯨和人類的語言之間存在相似,而其餘的鯨魚,其歌聲如同鼓手打鼓,通過節奏間隔而非不同聲音元素的組合來編碼信息。座頭鯨歌聲呈現的模式,揭示了座頭鯨在進化過程中,可能也面臨着與人類類似的高效交流需求,而能夠進行高效的交流方式則殊途同歸。這一研究突顯了學習和文化傳承在塑造跨物種交流方面的深遠作用,挑戰了語言的結構特性只屬於人類的傳統觀念。

圖4 :英語句子(第一行)、座頭鯨歌聲(第二行)、虎鯨叫聲(第三行)、 海豚爆發脈衝(第四行)以及抹香鯨尾聲(第五行)的頻譜圖

語言的結構很大程度上是由於它如何從一代傳到下一代。因此,齊夫定律不僅在人類中出現,也可能在任何其他通過文化學習(從一個個體傳給另一個個體)的順序性聲信號的地方出現。這個羣體包括鳴禽、蝙蝠、非人靈長類動物、大象、海豹、海豚和鯨魚。如今我們已經在部分物種中發現了其遵循齊夫定律,期待未來的研究,能夠爲我們更多地揭開萬千生靈的神祕面紗。

從聽懂鯨魚的歌聲到創造一個全新的語言

既然鯨魚的聲音系統遵循着與人類語言相似的規律,那麼我們不禁要問:能夠識別人類語言的AI模型是否也能解析鯨魚的聲音,甚至理解鯨魚“語言”中的含義?這一思路已經開始轉化爲實際研究。24年來自谷歌的研究團隊,開發一種新的鯨魚生物聲學模型。該模型可以識別目前已知的 94 種鯨魚種類中的 8 個不同的物種[5]。除此之外,鯨魚 - 地外文明搜索計劃”(Whale-SETI),更是試圖理解鯨魚的溝通系統,以助力尋找地球之外的生命。這一研究方向基於一個有趣的假設:如果我們能夠理解與人類完全不同環境中進化出的複雜交流系統,或許就能爲識別和理解潛在的地外智能通信提供關鍵線索。

這些發現對於理解跨物種交流有何啓示?對鯨魚歌聲的研究,說明即使是親緣關係較遠的物種的交流系統可能仍會趨同於相似的結構,尤其是那些通過文化學習獲得且能有效傳遞信息的複雜系統。而當下人們面對的最複雜的交流系統,正是由人類和大模型共同構成的,23年一篇基於chapGPT 4的研究[6],發現大模型產生的文本,同樣符合齊夫定律。

圖5:大模型產生的英文文本和真實英文文本的出現頻率和排序

更有趣的是,當用戶讓大模型產生一個虛擬的語言時並使用產生的虛擬語言進行交流時,大模型產生的語言,以及其對應的英文翻譯,同樣遵循齊夫定律。

圖6:大模型產生的虛擬語言的詞彙頻率和排序

當然,這裏用到的是較早的chatGPT 4,在以DeepSeek爲代表的推理模型上,我們是否還能見到類似的規律,目前還不清楚。不過我們常說的某段文字“AI味太重”,這背後的問題,或許對應着這段文字沒有遵循齊夫定律或澤拉斯定律。例如人類的話語,語言結構(如句子)越長,其組成部分(如句子的從句)就越短,但推理模型卻喜歡用大詞或長句。研究者可以招募普通人,讓用戶對大模型產生的文本有多少AI味進行打分,看看那些人們普遍認爲AI味過重的文本,是否偏離齊夫定律,從而使得用戶下意識的覺得這樣的句子不適合高效交流。

除此之外,之後人工合成數據,用於大模型訓練時,也需要考慮用於訓練的數據是否符合齊夫定律和澤拉斯定律,24年的一篇Nature論文[7 ]指出大模型產生的數據訓練大模型,反覆數次會導致大模型產生無意義的句子(模型崩潰)。明白了鯨魚如何在代際之間,是如何穩定地傳播具有複雜含義的語言,是否能夠啓發研究者,去了解大模型爲何會由於使用自身數據而崩潰的本質原因,甚至創造出更符合進化天道(齊夫定律)的模型了?如果大模型變得如此喜歡用一些似是而非的生僻詞彙,是由於其沒有對應的身體,不需要面對進化的壓力,那是否進化算法,能夠成爲如今強化學習一般,訓練下一代大模型的鑰匙了?這些都是從對鯨魚等動物的研究中能夠獲得的啓示。

https://www.nature.com/articles/s41586-024-07566-y

[1] Ke Deng, Yu-Xiao He, Xiao-Ping Wang, Tong-Liang Wang, Ji-Chao Wang, You-Hua Chen, Jian-Guo Cui,

Hainan frilled treefrogs'' calls partially conform to Menzerath–Altmann''s law, but oppose Zipf''s law of abbreviation,Animal Behaviour,Volume 213,2024,Pages 51-59,ISSN 0003-3472,

[2] Chimpanzee gestures follow the same laws as human languages | Royal Society. (2023, November 16). https://royalsociety.org/blog/2019/02/chimpanzee-laws-human-languages/

[3] Arnon, I., Kirby, S., Allen, J. A., Garrigue, C., Carroll, E. L., & Garland, E. C. (2025). Whale song shows language-like statistical structure. Science, 387(6734), 649–653. https://doi.org/10.1126/science.adq7055

[4] Youngblood, M. (2025). Language-like efficiency in whale communication. Science Advances, 11(6). https://doi.org/10.1126/sciadv.ads6014

[5] Whistles, songs, boings, and biotwangs: Recognizing whale vocalizations with AI. (n.d.). https://research.google/blog/whistles-songs-boings-and-biotwangs-recognizing-whale-vocalizations-with-ai/

[6] "Genlangs" and Zipf''s Law: Do languages generated by ChatGPT statistically look human?Justin Diamond https://arxiv.org/abs/2304.12191

[7] Shumailov, I., Shumaylov, Z., Zhao, Y., Papernot, N., Anderson, R., & Gal, Y. (2024). AI models collapse when trained on recursively generated data. Nature, 631(8022), 755–759. https://doi.org/10.1038/s41586-024-07566-y


本文爲科普中國·創作培育計劃扶持作品

作者:郭瑞東

審覈:張江 北京師範大學系統科學學院教授

出品:中國科協科普部

監製:中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top