今年 4 月,Nature?雜志曾發(fā)表腦機(jī)接口領(lǐng)域一項(xiàng)重大突破,加州大學(xué)舊金山分校神經(jīng)外科華裔教授 Edward Chang 及同事開發(fā)出一種可以將腦活動(dòng)轉(zhuǎn)化為語音的神經(jīng)解碼器。該系統(tǒng)通過解碼與人類發(fā)音相關(guān)的腦信號(hào),成功合成出受試者想要表達(dá)的語音,解決了癱瘓和失語患者所面臨的重大挑戰(zhàn),為在失語者中恢復(fù)語音功能奠定了基礎(chǔ)。

時(shí)隔三個(gè)月,Edward Chang 教授再一次在腦機(jī)接口領(lǐng)域取得重大突破,不僅要實(shí)時(shí)識(shí)別和合成想要發(fā)出的語音,這次研究人員還實(shí)現(xiàn)了實(shí)時(shí)識(shí)別和合成正在聽到的語音。

這篇研究論文于 7 月 30 日發(fā)表在?Nature Communications?上,題為《利用人類大腦皮層活動(dòng)實(shí)時(shí)解碼問答對(duì)話》。在研究中,Edward Chang 團(tuán)隊(duì)成功解碼受試者聽覺和回答問題相關(guān)的大腦神經(jīng)信號(hào),并實(shí)時(shí)生成對(duì)應(yīng)的文本記錄。

華裔教授實(shí)現(xiàn)腦機(jī)接口突破,首次實(shí)時(shí)解碼“問答對(duì)話”神經(jīng)信號(hào)-肽度TIMEDOO

圖丨Edward Chang 教授(來源:UCSF)

這是第一次僅基于受試者對(duì)話期間記錄的神經(jīng)信號(hào),就識(shí)別出受試者何時(shí)正在傾聽或說話,并預(yù)測出受試者正在聽到或想要說出的內(nèi)容。

此外,該神經(jīng)解碼系統(tǒng)還能聯(lián)系上下文語境,通過解碼問題的信息來提高解碼答案的準(zhǔn)確性(因?yàn)槟承┐鸢竷H對(duì)應(yīng)著某些問題)。最終測試結(jié)果表明,該系統(tǒng)能夠解碼產(chǎn)生和感知的語音,準(zhǔn)確率分別高達(dá) 61% 和 76%。

這項(xiàng)研究,也意味著科學(xué)家們幫助那些不能說話的人實(shí)現(xiàn)通過“思想”進(jìn)行交流的努力,離現(xiàn)實(shí)更進(jìn)了一步。

“目前,由于癱瘓而失語的患者只能用殘留的眼球運(yùn)動(dòng)或肌肉抽搐來控制電腦界面,緩慢地拼寫單詞。但在很多情況下,他們的大腦中仍然存在著產(chǎn)生流利語言所需的信息,而現(xiàn)在我們需要通過新的技術(shù)讓他們表達(dá)出來?!盓dward Chang 教授表示。

“多年來,我的實(shí)驗(yàn)室主要專注于通過大腦信號(hào)如何識(shí)別和產(chǎn)生語言,隨著過去十年我們?cè)谠擃I(lǐng)域所看到的進(jìn)展,我們很清楚,我們或許能夠利用這些發(fā)現(xiàn)來幫助失語患者?!?/p>

識(shí)別腦電波合成語音

“說話”簡直是一件極其簡單且毫不費(fèi)力的事情,但實(shí)際上“說話”卻是人類執(zhí)行的最復(fù)雜的活動(dòng)之一。

失去說話的能力,是極其不幸和難以挽救的。因中風(fēng)、肌萎縮側(cè)索硬化(霍金即患此病)或其他神經(jīng)系統(tǒng)疾病而喪失語言功能和溝通能力的患者,亦不在少數(shù)。

如何讓這些失語者再次獲得“表達(dá)”的能力,是許多科學(xué)家們正在努力的事情。目前有一些用于大腦控制打字的腦機(jī)接口技術(shù),通過監(jiān)測頭部或眼睛的殘余非語言運(yùn)動(dòng),控制光標(biāo)以逐個(gè)選擇字母并拼出單詞的形式,來幫助癱瘓患者對(duì)外表達(dá)。

但看過霍金生前“說話”視頻的人,可能就能體會(huì)到那種一分鐘蹦幾個(gè)單詞的那種崩潰。

華裔教授實(shí)現(xiàn)腦機(jī)接口突破,首次實(shí)時(shí)解碼“問答對(duì)話”神經(jīng)信號(hào)-肽度TIMEDOO

(來源:iStock)

2017 年,一直專注于解碼神經(jīng)元實(shí)現(xiàn)人工語音合成的 Edward Chang 教授以及他的研究生 Claire Tang 曾在?Science?雜志發(fā)表論文,闡述大腦皮層顳上回神經(jīng)元在語言中的重要性。研究首次發(fā)現(xiàn)了人類大腦中用于辨別相對(duì)聲調(diào)變化的神經(jīng)元,而這種神經(jīng)元可以幫助人類在語言中明確表達(dá)感情、交流思想。

之后,在今年 4 月?Nature?發(fā)表的研究中,Edward Chang 教授團(tuán)隊(duì)設(shè)計(jì)了一種神經(jīng)解碼器,明確地利用人類皮層活動(dòng)中編碼的運(yùn)動(dòng)學(xué)和聲音表征來合成可理解的合成語音,實(shí)現(xiàn)了以流利說話者速度的語音輸出。

華裔教授實(shí)現(xiàn)腦機(jī)接口突破,首次實(shí)時(shí)解碼“問答對(duì)話”神經(jīng)信號(hào)-肽度TIMEDOO圖丨用于語音合成的腦機(jī)接口(來源:Nature)

傳統(tǒng)的語音合成研究采用了上圖 a 的方法,即使用腦電圖設(shè)備監(jiān)測大腦語音相關(guān)區(qū)域的神經(jīng)信號(hào),并嘗試使用循環(huán)神經(jīng)網(wǎng)絡(luò)將這些信號(hào)直接解碼為合成語音。

而 Edward Chang 以及同事開發(fā)了一種不同的方法(上圖 b),將解碼分為兩個(gè)步驟:第一步,將神經(jīng)信號(hào)轉(zhuǎn)換成聲道咬合部位的運(yùn)動(dòng)(紅色);第二步,將聲道咬合部位的運(yùn)動(dòng)轉(zhuǎn)換成合成語音。

此外在一項(xiàng)不需要受試者出聲(僅做出發(fā)音動(dòng)作)的測試中,通過解碼無聲言語的特征也成功實(shí)現(xiàn)了一定程度的語音合成。

可以說,無論是在語音重建的準(zhǔn)確性方面,還是在聽眾對(duì)所產(chǎn)生語句的辨識(shí)力方面,Edward Chang 及其同事的研究結(jié)果都為語音合成腦機(jī)接口的概念驗(yàn)證提供了令人信服的證據(jù)。

更進(jìn)一步的“靈魂交流”

既然通過解碼大腦信號(hào),即可代替張嘴說話,人工合成想要說的語音,那么如何進(jìn)一步識(shí)別和解碼出耳朵聽到聲音時(shí)的大腦信號(hào),是不是就能實(shí)現(xiàn)不用語言對(duì)話的“靈魂交流”了呢?

在 7 月 30 日發(fā)表的最新研究中,Edward Chang 及其同事就做了這樣的嘗試,以希望能夠在交互式會(huì)話環(huán)境中對(duì)語音的“說”和“聽”進(jìn)行實(shí)時(shí)解碼。

在自然交流的聽和說過程中,不同的聽覺和發(fā)音運(yùn)動(dòng)相關(guān)的大腦區(qū)域參與其中。而以往直接從人腦解碼語音的嘗試,通常都是把聽或說任務(wù)孤立起來進(jìn)行考慮。

而 Edward Chang 及其實(shí)驗(yàn)室的研究人員開發(fā)了一種方法,可以實(shí)時(shí)識(shí)別受試者對(duì)話過程中的大腦信號(hào),并解碼出正在聽到或想要說出的內(nèi)容。

具體而言,當(dāng)受試者執(zhí)行自然對(duì)話過程中語音感知(聽到問題)和發(fā)音(大聲回答)任務(wù)時(shí),研究人員通過從高密度皮層腦電圖(ECoG)陣列記錄神經(jīng)活動(dòng)(覆蓋聽覺和感覺運(yùn)動(dòng)皮質(zhì)區(qū)域),檢測受試者何時(shí)聽到或說出話語,然后解碼這些大腦信號(hào)的內(nèi)容。

華裔教授實(shí)現(xiàn)腦機(jī)接口突破,首次實(shí)時(shí)解碼“問答對(duì)話”神經(jīng)信號(hào)-肽度TIMEDOO

圖丨受試者在聽到問題(藍(lán)色)和回答答案(紅色)期間的實(shí)時(shí)語音解碼的示意圖(來源:Nature)

在每次試驗(yàn)中,參與者都會(huì)聽到一個(gè)問題,并在屏幕上看到一組可能的答案選項(xiàng)(上圖 a),當(dāng)綠色提示出現(xiàn)在屏幕上時(shí),受試者需要自由選擇并口頭給出其中一個(gè)答案(上圖 b);

此時(shí),植入于大腦皮層的ECoG電極實(shí)時(shí)獲取大腦皮層活動(dòng)信號(hào)(上圖c),語音檢測模型通過獲取的大腦皮層信號(hào)來預(yù)測受試者是否正在聽到問題或產(chǎn)生了答案,或兩者都沒有(上圖d);

當(dāng)語音檢測模型檢測到“正在聽到問題”事件時(shí),神經(jīng)信號(hào)傳入神經(jīng)解碼器進(jìn)行解碼,并輸出所解碼出的問題(上圖e和f);因?yàn)槟承┐鸢钢粚?duì)某些問題是合理的,因此研究人員使用解碼的問題可能性作為上下文動(dòng)態(tài)更新每個(gè)答案的先驗(yàn)概率(上圖g和h)。

當(dāng)語音檢測模型檢測到“回答”事件時(shí),神經(jīng)信號(hào)被傳遞給一個(gè)答案解碼器,來解碼并計(jì)算可能的答案(上圖 i),上下文整合模型將這些答案的可能性與答案的先驗(yàn)結(jié)合起來,從而產(chǎn)生答案的后驗(yàn)概率(紫色),并輸入最終的解碼答案(上圖 j 和 k)。

“之前的大多數(shù)方法都只關(guān)注于解碼語音,但在這里我們展示了解碼對(duì)話雙方的價(jià)值——人們聽到的問題和他們的回答?!盓dward Chang 說。

測試結(jié)果表明,該系統(tǒng)實(shí)時(shí)解碼受試者聽到問題和給出答案的準(zhǔn)確率,分別為高達(dá) 76% 和 61%。這些結(jié)果也證明了在交互式會(huì)話環(huán)境中對(duì)語音進(jìn)行實(shí)時(shí)解碼的可行性,對(duì)于為無法溝通的患者開發(fā)相應(yīng)的腦機(jī)接口設(shè)備具有重要意義。

研究人員也表示,更好的算法和更快的計(jì)算機(jī)也提高了研究中解碼的速度,過去需要幾周到幾個(gè)月的離線處理,現(xiàn)在可以實(shí)時(shí)完成。

腦機(jī)接口的商業(yè)押注

Edward Chang 團(tuán)隊(duì)近期兩項(xiàng)經(jīng)同行評(píng)議的腦機(jī)接口重磅突破研究,讓人不得不聯(lián)想起本月埃隆·馬斯克(Elon Musk)宣布他的腦機(jī)接口公司 Neuralink 所取得的進(jìn)展。

7 月 17 日,馬斯克為其投資的腦機(jī)接口初創(chuàng)公司 Neuralink 召開了一場發(fā)布會(huì),首次對(duì)外披露了這家公司在腦機(jī)接口上的最新技術(shù)進(jìn)展以及未來展望:Neuralink 演示了其已經(jīng)在小鼠身上實(shí)驗(yàn)過的一款名為“縫紉機(jī)”(sewing machine)的探針設(shè)備,該設(shè)備可將 1500 個(gè)電子探針?biāo)腿胄∈蟠竽X,能夠同時(shí)從多個(gè)神經(jīng)元中提取信息。目前,Neuralink 的這款設(shè)備已經(jīng)在動(dòng)物身上進(jìn)行了至少 19 次手術(shù),植入電線成功率達(dá) 87%。

華裔教授實(shí)現(xiàn)腦機(jī)接口突破,首次實(shí)時(shí)解碼“問答對(duì)話”神經(jīng)信號(hào)-肽度TIMEDOO

圖丨Neuralink 的腦機(jī)接口設(shè)備宣傳圖(來源:Neuralink)

這次發(fā)布也是 Neuralink 成立兩年以來最重磅的一次成果發(fā)布。不過,這一舉動(dòng)與學(xué)術(shù)界的慣例相悖,在發(fā)表論文之前,就進(jìn)行了成果的新聞發(fā)布。在發(fā)布會(huì)上,馬斯克也表示,如果 FDA 批準(zhǔn),最快在明年年底,將能夠在患者身上使用這項(xiàng)技術(shù)。

雖然不少批評(píng)的聲音認(rèn)為,這是馬斯克蘊(yùn)含風(fēng)險(xiǎn)的瘋狂嘗試,但這也凸顯出近年來資本在腦機(jī)接口領(lǐng)域的商業(yè)關(guān)注。比如,Edward Chang 實(shí)驗(yàn)室所開展的腦機(jī)接口研究,就是由 Facebook Reality Labs 資助。

腦機(jī)接口研究同樣是 Facebook 雄心勃勃的主要目標(biāo)之一。2017年,F(xiàn)acebook 的腦機(jī)接口計(jì)劃研究總監(jiān) Mark Chevillet 在一次會(huì)議上,描述了一種能夠從大腦活動(dòng)中每分鐘讀出 100 個(gè)單詞的非侵入性技術(shù),在當(dāng)時(shí)這種新的“大腦打字”計(jì)劃聽起來完全是瘋狂的。

如今,兩年過去了,Chevillet 似乎對(duì)這個(gè)目標(biāo)更有信心。Edward Chang 團(tuán)隊(duì)在?Nature Communications?發(fā)表的最新研究,的確讓 Facebook 開發(fā)可以控制而不必大聲說話的增強(qiáng)現(xiàn)實(shí)(AR)眼鏡的最終目標(biāo),更加現(xiàn)實(shí)。

華裔教授實(shí)現(xiàn)腦機(jī)接口突破,首次實(shí)時(shí)解碼“問答對(duì)話”神經(jīng)信號(hào)-肽度TIMEDOO

(來源:Facebook)

似乎,F(xiàn)acebook 和 Neuralink 的舉動(dòng),讓人感受到了率先提供解碼大腦活動(dòng)的商用腦機(jī)接口技術(shù)的競爭。不過,目前來看,實(shí)現(xiàn)這一目標(biāo)的過程很可能是一個(gè)緩慢的過程。

Chevillet 在接受 IEEE Spectrum 采訪時(shí)表示,“我們還沒有任何實(shí)際的產(chǎn)品計(jì)劃,因?yàn)檫@項(xiàng)技術(shù)是如此早期的研究。”

而 Edward Chang 則表示,他希望能夠盡快為不能說話的人群帶來有意義的改變。到目前為止,該團(tuán)隊(duì)的所有工作都是在會(huì)說話的志愿者身上完成的,所以現(xiàn)在該團(tuán)隊(duì)將花一年時(shí)間與一位失語的患者合作研究。

Edward Chang 也強(qiáng)調(diào),所有與 Facebook 合作的結(jié)果都將發(fā)布,并向?qū)W術(shù)界開放?!拔蚁M@不僅僅受益于我們所做的,而是受益于整個(gè)領(lǐng)域。”

來源:MIT科技評(píng)論