【第一參賽人/留學(xué)人員】孫學(xué)京
【留學(xué)國家】美國
【技術(shù)領(lǐng)域】新一代信息技術(shù)
【參賽屆次】第6屆
【所獲獎(jiǎng)項(xiàng)】入圍
【項(xiàng)目簡(jiǎn)介】
項(xiàng)目研究基于全景聲場(chǎng)理念的Ambisonics技術(shù),它是一種聲道獨(dú)立的球形聲場(chǎng)再現(xiàn)技術(shù)。Ambisonics技術(shù)將拾取到的聲源信號(hào)通過一系列打包渲染算法轉(zhuǎn)換成傳輸編碼格式B格式(B-format),根據(jù)階數(shù)不同,B-format有不同的通道數(shù)要求。它除了可以還放水平面信息外,還能還放自下而上的高度信息,突破了傳統(tǒng)意義上5.1、7.1聲道的概念,更真實(shí)的營(yíng)造出四周由遠(yuǎn)及近的音效,呈現(xiàn)出動(dòng)態(tài)的聲音效果、沉浸式的聽覺感受。包括基于全景聲技術(shù)的采集端Twirling Capture SDK,單通道或多通道語音增強(qiáng)處理,回聲消除,聲源定位,均衡器調(diào)整,自動(dòng)增益控制,波束成形;麥克風(fēng)陣列設(shè)計(jì)與定制,包括線性和環(huán)形陣列,不規(guī)則陣列定制,支持標(biāo)準(zhǔn)First Order Ambisonic(FOA),higher order ambisonic(Hoa)Omini Binaural,支持單指向和全向ECM以及MEMS麥克風(fēng)。開發(fā)一種可擴(kuò)展性,移植性高,靈活性強(qiáng),應(yīng)用場(chǎng)景更廣的音頻采集方案(麥克風(fēng)陣列+軟件算法支持)Twirling720 Lite和Twirling Capture SDK。支持多個(gè)或多種麥克風(fēng)陣列形狀,并將算法集成在芯片中,這樣可以根據(jù)用戶已設(shè)想好的產(chǎn)品模型提出定制化音頻采集方案,滿足各行各業(yè)對(duì)聲音捕捉的需求。算法融合了360度實(shí)時(shí)聲源測(cè)向、定向拾音、噪聲抑制、混響消除、回聲抵消等多項(xiàng)技術(shù)。不僅如此,在最近的迭代中,增加了聲紋識(shí)別、智能語音交互等部分,實(shí)現(xiàn)全方向語音喚醒,語音識(shí)別,說話人分離、語音交互等更多功能。基于全景聲的智能語音技術(shù),將帶來更好的臨場(chǎng)和空間沉浸感。語音喚醒和語音降噪等提升遠(yuǎn)場(chǎng)識(shí)別,真正實(shí)現(xiàn)智能化、人性化、多樣化。項(xiàng)目廣泛應(yīng)用于金融銀行、智慧安防、工業(yè)檢測(cè)、新聞傳媒、養(yǎng)老服務(wù)、文化旅游、智能家居等領(lǐng)域。
【展開】
【收起】