模擬人聲沒感情?錯,你是沒遇到它
經常刷短視頻的朋友們都知道,想要看完一整條由模擬人聲配音的長視頻,簡直是比上課還難。平鋪直敘又毫無波折的語音,一個不小心就會讓人神遊外太空。
爲什麼機械的模擬人聲,總是難以抓住我們的注意力?
模擬人聲與真人聲的差異,
是真的影響我們理解內容
人聲的魅力在於它天生就帶着情感的溫度。
當我們聽到一個人在朗讀或者說話時,那些自然的語調起伏、強調和停頓,就像是語言的表情,能讓我們瞬間抓住重點,明白對方的意圖。當一個專業播音員在播報新聞時,Ta的聲音會根據新聞的緊急程度、重要性或者情感色彩做出相應的調整,讓我們即使閉着眼睛,也能感受到新聞的氛圍。
然而,機械音雖然也能模擬出一些語氣,但大多時候還是顯得比較單一和機械。它缺少那種自然的情感流動,就像是一杯被去掉大部分香氣的咖啡,雖然也能喝,但總覺得少了點味道,讓人聽起來太“平淡”,這自然會影響到我們對內容的理解。
哪怕文案再妙趣橫生,在機械音刻板的表達下,也變得無趣了。一些語音助手在讀一些複雜的句子時,還可能把重點讀錯,或者語調太平,更讓人一頭霧水。
而且,模擬人聲還難以如我們一般深刻感知“中文的博大精深”。即使同樣的文字,用不同的語調起伏、強調、停頓和節奏變化,也能表達出截然不同的相同的表意。比如……“我謝謝你哦”,可以是真的被幫助後充滿感激的道謝,也可以被幫倒忙後的調侃。但大部分模擬人聲讀出來的謝謝就是謝謝。
此外,語速和節奏也都有差異。人聲的語速和節奏是很有講究的。一個經驗豐富的演講者或者播音員,會根據內容的需要,適時地加快或放慢語速,再加上停頓、強調,一直牽引着聽衆的注意力。
而機械音往往是勻速的,這種單調的語速很容易讓人走神,就像聽一首沒有旋律的歌曲,很難讓人保持專注。

有起伏的聲音,才更“抓人”
在聲音的清晰度和自然度上,大部分模擬人聲也仍有欠缺。
人聲自然流暢,高低起伏間,讓聽衆的注意力也跟着起伏,並不會走神(老師上課唸經的情況除外)而機械音就像是一條平坦的高速路,因爲太過於平坦,反而讓上面開車的人一個不小心……就睡着了。
尤其是在語音合成技術不夠成熟的時候,機械音還會顯得很機械化、冷冰冰,更讓人容易走神。
除了這些不足之處,模擬人聲還有一個很關鍵的問題——太完美了。
完美,也是問題?
人聲會有呼氣聲、停頓等等小瑕疵,這些小瑕疵讓人聲顯得更加真實和自然,彷彿是說話者在與聽衆進行一場真實的交流。而呼氣聲和停頓也讓聽衆有時間去消化信息,不至於聲音在前面跑,腦子在後面追。而這種自然的瑕疵,以及句讀間微妙的差異和細節是大部分語音生成技術無法完全模仿的。
當然,不愛聽機械音,也有習慣偏好的問題。有些人可能更習慣聽人聲,覺得人聲更有權威性和可信度。就像我們在聽專家講座或者看新聞時,更願意相信那些由專業人士用自然人聲傳遞的信息。一些人在潛意識裏,也更願意聆聽偏向人聲的信息傳遞。
當然,機械音和人聲在抓住人的注意力、傳遞信息上的差異,可不僅僅是我們的個體感受而已,從研究角度來看,兩者也確實存在着差異。
在一項對比機械音和人聲的研究中就發現,人類溝通者被認爲比人工智能溝通者更可信,對參與者的態度影響更大。此外,在傳遞敘事說服性信息方面,人類溝通者比人工智能溝通者更有說服力。
簡而言之就是,人們確實更愛聽人說話,也更相信從人的語音中提供的信息。
機械音沒法模擬真人?還真不是
說了這麼多模擬人聲的缺點,難道模擬人聲這個技術真就沒救了?
當然不是,儘管大部分模擬人聲不盡如人意,但也有一些模擬人聲技術已經做到了讓人如沐春風般的自然。
爲啥同樣是模擬人聲語音,有的還十分僵硬,而華爲閱讀的自然音色卻已經能做到如此渾然天成了?
關鍵就在於華爲閱讀的對語音生成技術的深度優化和創新。華爲閱讀所採用的TTS技術,即Text-to-Speech文字轉語音技術,其實並不新鮮,目前市面上的很多個人語音助理、視頻配音、有聲書製作等等都用到了該項技術。
但想要通過TTS技術呈現出足夠自然的語音,語音大模型底座纔是關鍵——它是構建和優化TTS技術的核心基礎架構。爲了深度還原人類語音的自然感,華爲語音大模型深度學習了海量的語音數據,40萬+小時的大數據訓練,讓其得以能形成一套對人類語音的音色、語調、韻律等的精準建模。
而在此基礎上,華爲閱讀又引入了專業配音老師的語音作爲提示,進一步優化模型的語音生成能力。雖然模型無法透徹理解文字背後的語意,但通過專業人士的“打底”,也能讓它發揮出不同的水平。
在華爲閱讀“精品女聲”音色的音源背後,是中國傳媒大學視聽技術與智能控制系統文化和旅遊部重點實驗室研究員、中國傳媒大學播音主持藝術學院副教授王宇紅。她有近30年的媒體教學和播音經驗,可以說將“冷冰冰的文字轉變爲有情緒的聲音”這件事情,已經成爲了她的潛意識動作。
在王宇紅的朗讀中,每一個停頓、重音、節奏都能引領着聽者更好地理解內容,沉浸其中。

而在爲精品女聲錄製音源的過程中,王宇紅也是非常自然地將自己對於內容與朗讀的理解融入到了每一段語音材料中。在一次次自然的停頓、重音和語音、節奏的變化中,她對於文字的理解和感受也隨之融入其中,不僅讓聽者隨着她的理解融入其中,也爲模型提供了詳實的分析和參考樣本。
王宇紅清晰、標準而富有情感的聲音,也讓生成的語音能變得更自然、流暢而富有情感。
而這種結合高質量語音樣本的方式,使得生成的語音不僅在音色上更加貼近自然人聲,在情感表達和流暢性上有了顯著提升。讓我們在聆聽這些由模型生成的語音,也有了“面對面的交談感”。
通過切換不同風格,精品音色還能自然融入到各種各樣的聽書場景中:無論是開車時所需的送達感、抗干擾性,還是睡前需要的鬆弛感、親切感,精品音色都能爲我們帶來高度擬人化,而且具有十足共情感的聲音,讓我們聽書的體驗感MAX。
當然,華爲閱讀的自然音色能有如此充沛的情感,並不僅僅是因爲採用了優質音源打底,一套能爲生成聲音額外賦予情緒的技術也相當關鍵——這就是由中國傳媒大學視聽技術與智能控制系統文化和旅遊部重點實驗室所研發的“藝術+技術情感體系”。
模型無法深刻理解情感,但通過這套情感體系,研發人員卻可以爲生成的語音後天賦予情感。
在研發過程中,研究人員深入分析了智能語音交互中的各種擬態化場景,並將大量精心錄製的高質量語音數據輸入到了大模型中,並通過人工智能合成技術爲機械聲音補充了與人聲相比所欠缺的情感,如此一來,就能讓機械聲音也擁有了人性化的溫暖。
在華爲強大技術能力與中國傳媒大學研究成果的多重加持下,生成的語音不僅在音色上更加貼近自然人聲,而且在情感表達和流暢性上也有了顯著提升。無論是語速的快慢變化,還是語調的起伏轉折,都能精準還原人類說話的真實狀態,讓我們彷彿置身於真實對話之中,極大地提升了聽覺體驗的舒適度和沉浸感。
自然的閱讀,讓聽書更享受
而華爲閱讀將這些精品聲音轉化爲聽書音色後,更能使其根據不同場景靈活調整,在情感模型的加持下,精品音色都能隨着書籍內容的變化而發揮出不同的演繹效果。無論是聽小說、聽傳記還是聽兒童故事它都能提供最適合的聲音效果,通過生動的音色,爲我們營造出一次次美妙的聆聽體驗。

多種聲音可供選擇
在閱讀《壞小孩》時,升級精品音色升級能用更加自然的情感去演繹對白,語調起伏間更加貼合文本的情感走向,也能夠更精準地傳達出角色的情緒變化,讓我們聽着聽着就沉浸到了書中的世界去。
而在《福爾摩斯》這樣的懸疑推理類小說中,精品音色也能營造出娓娓道來而引人入勝的故事氛圍感,在平穩而富有節奏感的語速中,龐大的世界觀緩緩鋪陳開來,我們也跟隨着講述進入到一個精彩萬分的世界中。朗讀中的自然韻律感,能讓我們更好地跟隨故事的節奏,沉浸在緊張刺激的情節中,而不會因爲朗讀的突兀而打斷閱讀與邏輯的連貫性。
當點開《小王子》這樣一本兒童睡前讀物時,精品音色則變得親切而溫柔,它以柔和的語調和適中的語速進行朗讀,不僅能讓孩子專注地沉浸在書中內容中,還能激發他們的閱讀興趣,讓他們在輕鬆愉快的氛圍中盡情享受讀書的樂趣。
在聽書出現之前,“看書”是一件很重的事情,似乎非得要大段大段的時間和一個寧靜舒適的氛圍,才能開啓閱讀這件大事。
但隨着越來越多的人習慣了聽書,“閱讀”這件事情也變得更加自由了。聽書可以隨時隨地,不受時間和地點的限制,更能讓我們任何的碎片時間都能用來“讀書”。

隨時隨地碎片化“讀書”
而且,聽書和閱讀其實是同樣有效的,已經有科學研究表明用眼睛閱讀和直接聽書,在理解和記憶上並沒有顯著差異。正是因此,現在人們聽書的範疇也是越來越廣泛了。
從經典文學到現代科技,從歷史傳記到流行小說,都可以聽。而爲了滿足大家如此多樣化的聽書需求,華爲閱讀也是不斷更新上架了更多的書籍,尤其在精品書板塊中,華爲閱讀更是直接與衆多知名出版機構合作,由專業編輯團隊精心挑選出了許多高質量的書籍推薦給我們。即使碎片時間聽書,也要聽更精品的知識與內容。

更多高質量書籍,滿足各個年齡段的需求
除了書籍品類的極大豐富,華爲閱讀也是充分考慮到我們每個人對於聽書的不同需求——有人喜歡聽女聲,有人喜歡聽男聲;有人喜歡溫柔舒緩的聲音,有人喜歡熱情洋溢的聲音。正是因此,加上華爲閱讀內備受好評的精品音色,一共有多達8種高品質聽書音色可選,從溫暖舒緩的女聲到沉穩大氣的男聲,你想要的聽書氛圍都能輕鬆營造。
除了滿足我們舒舒服服“聽”的需求,在滿足我們看得舒服,用得舒適上華爲閱讀也沒少花功夫。
光是應用內的功能和設計,華爲閱讀就細摳到了各種細節,從方方面面提高咱們閱讀的舒適感和沉浸感。

隨時隨地碎片化“讀書”
從沉浸式的卡片設計,到精美的插圖和視頻動態特效,電子書也能擁有實體書的美感。這也讓選書時就如同在書店中一本本翻閱般具有儀式感。
爲了充分貼合每本書的風格,系統還會根據書籍類型自動適配合適的字體和主題背景,用多達17款特色字體,爲我們營造出不同的書籍外觀和內頁。字體與內容風格的貼合,也能讓我們能更真實地沉浸到書中那或跌宕起伏,或引人落淚的氛圍中去。

字體和主題背景隨心換
全新的“一鏡到底”閱讀模式,更能通過智能排版和背景適配,極大地還原了紙質書的閱讀沉浸感。即使手機閱讀,也能有閱讀紙質書時的沉浸感和專注。
偶爾沒空讀書,但需要了解書中的內容時,AI概要功能也能幫我們快速概覽書中內容。它能自動生成每個章節的故事梗概,讓我們快速瞭解書籍內容,找到想要閱讀的部分,大大提升了我們的閱讀效率。
AI時代,華爲閱讀不僅讓我們的閱讀更有效率,更能舒適、沉浸而充滿體驗感,更能讓閱讀快樂。而華爲閱讀不斷升級,也是爲我們提供了全方位的閱讀支持,讓閱讀變得更加簡單、有趣,也讓知識的獲取更加輕鬆自在。
作者:雪梨
封面圖來源:圖蟲
-果殼商業科技傳播聯合出品-