在計算機語音識別領域有一個(ge) 著名的難題——“雞尾酒會(hui) 問題(Cocktail Party Problem)”,說的是當前語音識別技術已經可以以較高精度識別一個(ge) 人所講的話,但是當說話的人數為(wei) 兩(liang) 人或者多人時,語音識別率就會(hui) 極大的降低。計算機無法將目標聲音與(yu) 其他人同時發出的聲音區別開來。
如今,來自美國杜克大學的科學家們(men) 使用一種簡單的3D打印裝置,巧妙地解決(jue) 了這個(ge) 問題。科學家們(men) 為(wei) 此在《Proceedings of the National Academy of Sciences》雜誌上發表了一篇論文介紹了這個(ge) 奇妙的3D打印解決(jue) 方案。
他們(men) 首先製造出了一個(ge) 又大又厚的3D打印塑料盤,在塑料盤的一麵有36個(ge) 開口,以及許多蜂窩狀的通道通向塑料盤中心的一個(ge) 麥克風。它本質上是一個(ge) 結合了聲學超材料和壓縮傳(chuan) 感技術的單一傳(chuan) 感器聽音係統。

“與(yu) 以前的研究通常依賴於(yu) 信號和語音處理技術來解決(jue) “雞尾酒會(hui) ”問題不同,我們(men) 提出的方法是一個(ge) 獨特的基於(yu) 硬件的方法,主要利用了經過精心設計的聲學超材料。”研究人員寫(xie) 道,“我們(men) 堅信,這一方法不僅(jin) 能夠解決(jue) 過去數十年來各個(ge) 領域的研究人員一直孜孜以求的雞尾酒會(hui) 聽音問題,而且這種將物理層的設計與(yu) 計算感知相結合的係統設計方法將會(hui) 對傳(chuan) 統的聲學傳(chuan) 感和成像方式產(chan) 生影響。”
這項研究是在Steven Cummer和Yangbo Xie的領導下進行的。

那麽(me) 它的工作原理到底是什麽(me) 呢?研究人員稱,這36個(ge) 通向麥克風的通道每個(ge) 都有著獨特的3D打印形狀導致其功能特性有所區別,使得聲音傳(chuan) 向中心的方式有著微妙的不同,因而可以彼此區分,並被單個(ge) 傳(chuan) 感器接收。Yangbo Xie稱,我們(men) 人類無法區分其中的差別,但是基於(yu) 該傳(chuan) 感器的算法幾乎總是可以告訴我們(men) 這些聲音是從(cong) 哪個(ge) 想來的。
至於(yu) 該解決(jue) 方案的正確性。研究人員在其論文中宣稱:“這款帶有共振超材料緊湊陣列的設備被證明可以區分識別來自三個(ge) 獨立來源的重疊音頻,正確率高達96.67%。”。這個(ge) 簡單、但有效的方法已被人們(men) 譽為(wei) 一個(ge) 優(you) 秀的解決(jue) 方案。不過目前唯一的問題是它的大小——它大約相當於(yu) 一個(ge) 很厚的比薩,但是顯然它具有足夠的空間優(you) 化設計,並用於(yu) 進一步的應用。杜克大學的科學家們(men) 表示,它可以適用於(yu) 助聽器等聲學成像和傳(chuan) 感應用,所以我們(men) 可能會(hui) 在不久的將來看到這項技術的一個(ge) 更小版本。
轉載請注明出處。







相關文章
熱門資訊
精彩導讀



















關注我們

