? 天堂√在线中文资源网,试看五分钟做受视频,小莹客厅激情38章至50章一区

亚洲 a v无 码免 费 成 人 a v,性欧美videofree高清精品,新国产三级在线观看播放,少妇人妻偷人精品一区二区,天干天干天啪啪夜爽爽av

酷科技!美學者精準解析人類發(fā)音,使失語者恢復“原音”

2019/04/25
導讀
我們希望有語言障礙的人能重新獲得自由表達想法的能力,與周圍的世界重新鏈接

霍金在NASA做講座。(圖源:NASA.org)

 

撰文 | 計永勝

責編 | 葉水送


  


語言是人類最基本的交流方式。遺憾的是,世界上有很多人并不能正常地進行語言表達,如神經(jīng)功能失調(diào)(Neurological Disorder)患者最嚴重的后果之一就是語言能力喪失。


據(jù)世界衛(wèi)生組織統(tǒng)計,全球60歲及以上人群約有20%受精神神經(jīng)失調(diào)的困擾 [1]。讓語言功能喪失者發(fā)聲是科學家一直追求的目標。


借助特殊儀器設(shè)備可彌補一些人的語言能力缺失。最熟悉的例子就是霍金的輪椅。霍金因患有肌肉萎縮性側(cè)索硬化癥(又名“漸凍癥”)而失去語言表達能力,只能通過選擇輪椅顯示器上的單詞拼成句子,經(jīng)由語音合成器發(fā)出聲音來傳達自己的觀點。


但這類設(shè)備最主要的問題就是過程繁瑣,說話太慢,遠不及正常人的交流速度。那么,能否將人的腦部活動直接轉(zhuǎn)換為聲音信息呢?


答案是可以的。腦-機接口技術(shù)(brain-computer interface,BCI)可獲取人大腦的電波信號。2014年,美國西北大學Marc W. Slutzky 團隊通過該技術(shù)同時記錄人的發(fā)音信號和腦電波信號,將美式英語中的音素(Phoneme,區(qū)分單詞的最小語音單位)與腦電波做了一一對應 [2]。


腦電波與音素的對應研究。(圖源:參考文獻2)


但言語表達不只是一個簡單的聲波傳遞過程,更需要人精確地控制氣流以及多個發(fā)聲器官的完美配合。


2018年,加州大學舊金山分校神經(jīng)外科學系教授 EdwardF. Chang 的研究團隊記錄了人說話時的腦部信號和聲道不同部位(舌頭、嘴唇、下顎和喉部)的動作,并對二者進行了對應,獲得了一系列發(fā)音運動軌跡(Articulatory Kinematic Trajectories,AKTs)數(shù)據(jù) [3]。


Edward F. Chang 團隊關(guān)于腦信號和發(fā)音動作的研究。(圖源:Chang Lab, UCSF)


那么,能否再進一步把腦活動、聲道動作變化和語言進行整合,將腦電波解碼為語音信息呢?


可將神經(jīng)活動轉(zhuǎn)碼為語言的人工語音合成系統(tǒng)。(圖源:參考文獻4)

 

最近,Chang的研究團隊開發(fā)了一套“兩步法”人工語音合成系統(tǒng),可將大腦神經(jīng)活動解碼合成為言語聲音。相關(guān)研究于2019年4月25日發(fā)表于《自然》雜志 [4]。


所謂“兩步法”,就是科研人員首先將受試者的腦部活動轉(zhuǎn)錄為發(fā)聲動作信息,然后將發(fā)聲動作信息解碼為聲音信息進行語言合成。


“兩步法”將腦信號解碼為聲音信號。(圖源:參考文獻4)


研究具體是怎么進行的呢?科研人員請參與研究的五名志愿者大聲地朗讀幾百個句子,同時記錄下他們大腦皮層的活動信號。隨后,研究人員將大腦活動信號轉(zhuǎn)碼為發(fā)聲部位(舌頭、嘴唇、下頜和喉部)的動作變化信號。最后,科研人員將動作變化信號進一步解碼為聲音信號傳出。


研究發(fā)現(xiàn),解碼聲音與原聲音的聲譜特征具有很高的相似性??蒲腥藛T還對合成語音的清晰度進行了檢測。結(jié)果顯示,聽者在聆聽101段合成語音后,能比較輕松準確的辨識其中的單詞和句子。同時,與將神經(jīng)信號直接一步轉(zhuǎn)碼為語音(還原原音)相比,“兩步法”解碼系統(tǒng)對語音內(nèi)容的保真度更高,這種優(yōu)勢隨著轉(zhuǎn)碼語音時間的延長而更加明顯。


隨后研究人員請一名志愿者朗讀了58個句子,結(jié)束后緊接著對原句進行了默讀,只有動作,沒有聲音。有趣的是,“兩步法”解碼系統(tǒng)合成的默讀聲譜與合成的朗讀聲譜特征相似。


雖然默讀的整體語音合成效果遜色于有聲閱讀,但論文作者認為“兩步法”系統(tǒng)可以對無聲言語的重要特征進行解碼。換句話說,“兩步法”解碼系統(tǒng)可以識別發(fā)聲者的唇語,做到“你張張嘴,我就知道你要說什么”。


同期《自然》雜志還刊發(fā)了埃默里大學教授 Chethan Pandarinath 和佐治亞理工學院教授Yahia Ali關(guān)于該論文的新聞與觀點文章。他們表示,Chang 的團隊“兩步法”解碼系統(tǒng)從語音合成精確度和聽眾辨識度兩方面對腦電波解碼為語言的概念進行了有力的驗證,但“如果語言環(huán)境比較復雜的話,(通過神經(jīng)信號)直接合成語音的效果可能會和‘兩步法’平分秋色,甚至優(yōu)于‘兩步法’”,而且當前合成語言的清晰度與正常對話差距還是比較大,腦-機接口技術(shù)實際應用于臨床仍面臨很多挑戰(zhàn)。


兩位評論者最后指出,“隨著不斷努力,我們希望有語言障礙的人能重新獲得自由表達想法的能力,與周圍的世界重新鏈接”。


主要參考文獻:

[1] Mental health of older adults, https://www.who.int/en/news-room/fact-sheets/detail/mental-health-of-older-adults.

[2] Emily M. Mugler, James L. Patton, Robert D. Flint. et al, Direct classification of all American English phonemes usingsignals from functional speech motor cortex. J Neural Eng. 2014 June; 11(3):035015. doi:10.1088/1741-2560/11/3/035015.

[3] Chartier, J., Anumanchipalli, G. K., Johnson, K. & Chang, E. F. Encoding ofarticulatory kinematic trajectories in human speech sensorimotor cortex. Neuron98, 1042–1054 (2018).

[4] Anumanchipalli, G. K., Chartier, J. & Chang, E. F. Speech synthesis fromneural decoding of spoken sentences. Nature 568, 493–498 (2019).


制版編輯 | 皮皮魚


參與討論
0 條評論
評論
暫無評論內(nèi)容