能够免费观看的AV片,国产宅男宅女免费,欧美成人亚洲日韩一区二区三区

首先我們來(lái)分析一下，智能音箱的語(yǔ)音交互的軟件層面為什么必須選擇端到端建模的處理方式。傳統(tǒng)上，為了提升遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的準(zhǔn)確率，一般會(huì)使用麥克風(fēng)陣列作為拾音器，利用多通道語(yǔ)音信號(hào)處理技術(shù)，增強(qiáng)目標(biāo)信號(hào)，提升語(yǔ)音識(shí)別精度。軟板小編了解到，目前，絕大多數(shù)在售的智能音箱產(chǎn)品系統(tǒng)所采用的多通道語(yǔ)音識(shí)別系統(tǒng)，都是由一個(gè)前端增強(qiáng)模塊和一個(gè)后端語(yǔ)音識(shí)別聲學(xué)建模模塊串聯(lián)而成的：

前端增強(qiáng)模塊通常包括到達(dá)方向估計(jì)（DOA）和波束生成（BF）。DOA技術(shù)主要用于估計(jì)目標(biāo)聲源的方向，BF技術(shù)則利用目標(biāo)聲源的方位信息，增強(qiáng)目標(biāo)信號(hào)，抑制干擾信號(hào)。后端語(yǔ)音識(shí)別聲學(xué)建模模塊，會(huì)對(duì)這一路增強(qiáng)后的語(yǔ)音信號(hào)進(jìn)行深度學(xué)習(xí)建模。

波束區(qū)域拾音方法有局限性。上面這一類語(yǔ)音增強(qiáng)技術(shù)大都是采用基于MSE的優(yōu)化準(zhǔn)則，從聽覺感知上使得波束內(nèi)語(yǔ)音更加清晰，波束外的背景噪音更小。但是聽覺感知和識(shí)別率并不完全一致。而且這種方法在噪音內(nèi)容也是語(yǔ)音內(nèi)容的時(shí)候（例如電視和人在同一個(gè)方向時(shí)），性能會(huì)急劇下降。

增強(qiáng)和識(shí)別模塊優(yōu)化目標(biāo)不一致。前端語(yǔ)音增強(qiáng)模塊的優(yōu)化過程獨(dú)立于后端識(shí)別模塊。該優(yōu)化目標(biāo)與后端識(shí)別系統(tǒng)的最終目標(biāo)不一致。目標(biāo)的不統(tǒng)一很可能導(dǎo)致前端增強(qiáng)模塊的優(yōu)化結(jié)果在最終目標(biāo)上并非最優(yōu)。真實(shí)產(chǎn)品環(huán)境復(fù)雜，傳統(tǒng)方法會(huì)影響使用體驗(yàn)?；诓ㄊ鴧^(qū)域拾音的方法嚴(yán)重依賴于聲源定位的準(zhǔn)確性，但對(duì)于首次喚醒，由于還不知道聲源的位置，所以首次喚醒率往往很低。

對(duì)這些問題最好的解決，就是將語(yǔ)音增強(qiáng)和語(yǔ)音識(shí)別的建模進(jìn)行端到端一體化，設(shè)計(jì)一套深度學(xué)習(xí)模型，輸入是多路麥克信號(hào)，輸出是目標(biāo)語(yǔ)言的文字，模型的優(yōu)化目標(biāo)只有一個(gè)，即字準(zhǔn)確率。FPC廠了解到，2017 年谷歌團(tuán)隊(duì)曾最早提出采用神經(jīng)網(wǎng)絡(luò)來(lái)解決前端語(yǔ)音增強(qiáng)和語(yǔ)音聲學(xué)建模的一體化建模問題。

但谷歌提出的FCLP結(jié)構(gòu)（Factored Complex Linear Projection）仍然是以信號(hào)處理方法為出發(fā)點(diǎn)，用一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)去模擬和逼近信號(hào)波束，因此也會(huì)受限于信號(hào)處理方法的一些先驗(yàn)假設(shè)。相對(duì)于傳統(tǒng)基于數(shù)字信號(hào)處理的麥克陣列算法，谷歌得到了16%的相對(duì)錯(cuò)誤率降低。百度采用了類似的思想，即做“語(yǔ)音增強(qiáng)和語(yǔ)音聲學(xué)建模一體化”的端到端建模，不過他們所采用的是“基于復(fù)數(shù)的卷積神經(jīng)網(wǎng)絡(luò)”。

百度實(shí)現(xiàn)技術(shù)革新，一顆芯片解決語(yǔ)音交互難題

相比于谷歌的方法，該方法徹底拋棄了數(shù)字信號(hào)處理學(xué)科的先驗(yàn)知識(shí)，模型結(jié)構(gòu)設(shè)計(jì)和數(shù)字信號(hào)處理學(xué)科完全脫鉤，充分發(fā)揮了CNN網(wǎng)絡(luò)的多層結(jié)構(gòu)和多通道特征提提取的優(yōu)勢(shì)。在保留原始特征相位信息的前提下，這個(gè)模型同時(shí)實(shí)現(xiàn)了前端聲源定位、波束形成和增強(qiáng)特征提取。該模型底部CNN抽象出來(lái)的特征，直接送入端到端的流式多級(jí)的截?cái)嘧⒁饬δＰ椭?，從而?shí)現(xiàn)了從原始多路麥克信號(hào)到識(shí)別目標(biāo)文字的端到端一體化建模。

如前面提到，相對(duì)于百度智能音箱之前產(chǎn)品所采用的基于傳統(tǒng)“數(shù)字信號(hào)處理的前端增強(qiáng)模塊”+“后端語(yǔ)音識(shí)別聲學(xué)建模過程”的串聯(lián)方法，這種基于復(fù)數(shù)卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)和聲學(xué)建模一體化端到端建模技術(shù)，獲得了錯(cuò)誤率超過30%以上的降低。30%的降低，這也是近期深度學(xué)習(xí)遠(yuǎn)場(chǎng)識(shí)別技術(shù)中，最大幅度的產(chǎn)品性能提升。

同時(shí)，由于這種建模方式是端到端一體化，無(wú)需定位聲源，因此就避免了傳統(tǒng)上由于定位出錯(cuò)而導(dǎo)致的識(shí)別準(zhǔn)確率急劇下降。特別是對(duì)于首次喚醒（沒有定位信息），高噪音下這種技術(shù)的首次喚醒率最大幅度可以提升10%以上，且能保證高精準(zhǔn)喚醒的同時(shí)，誤報(bào)率非常低。這是一點(diǎn)，是業(yè)內(nèi)傳統(tǒng)技術(shù)無(wú)法做到的事情。這種方法的成功，說(shuō)明了一點(diǎn)：“端到端建模”將成為遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別產(chǎn)業(yè)應(yīng)用的重要發(fā)展方向。

百度推出的鴻鵠芯片，據(jù)官方介紹，采用了雙核Hifi4 架構(gòu)自定義指令集，超大內(nèi)存，臺(tái)積電40nm工藝（對(duì)于更高的工藝也沒有必要），此外100mw左右平均工作功耗，即可同時(shí)支持遠(yuǎn)場(chǎng)語(yǔ)音交互核心的陣列信號(hào)處理和可用于喚醒的深度學(xué)習(xí)計(jì)算能力。芯片架構(gòu)上，鴻鵠內(nèi)嵌了上面提到的端到端一體化的建模算法，在內(nèi)存結(jié)構(gòu)和分級(jí)內(nèi)存加載策略，以及cache、雙核通信等結(jié)構(gòu)上做了定制化的工作，能夠?qū)崿F(xiàn)深度學(xué)習(xí)計(jì)算過程和數(shù)據(jù)加載的高度并行。

這里需要指出的是，由于鴻鵠芯片可以完成所有語(yǔ)音交互（遠(yuǎn)場(chǎng)拾音、喚醒、定位等）的功能，這就使得，經(jīng)鴻鵠芯片提取的特征可以直接傳遞到云端，在云端進(jìn)行高精準(zhǔn)識(shí)別，而無(wú)需占用主芯片的任何計(jì)算資源。這種軟硬一體的端到端架構(gòu)，實(shí)現(xiàn)了高性能語(yǔ)音體驗(yàn)和極低成本智能硬件的統(tǒng)一。

以百度官方的數(shù)據(jù)，這次新發(fā)布的智能音箱平均待機(jī)功耗只有100毫瓦左右，這完全滿足 3C 產(chǎn)品的 0.5 瓦的待機(jī)標(biāo)準(zhǔn)，這也意味著任何一個(gè)國(guó)家認(rèn)證的節(jié)能、環(huán)保的綠色家電產(chǎn)品，都可以搭載鴻鵠語(yǔ)音芯片。因此可以說(shuō)，鴻鵠芯片也是業(yè)界首個(gè)達(dá)到該標(biāo)準(zhǔn)的集成完整遠(yuǎn)場(chǎng)語(yǔ)音交互端側(cè)技術(shù)的語(yǔ)音芯片產(chǎn)品。

此外，家居場(chǎng)合除了對(duì)喚醒精度有較高要求外，還需要有極低的誤報(bào)，否則就會(huì)出現(xiàn)“深更半夜客廳莫名其妙地出現(xiàn)歌聲”的詭異現(xiàn)象。柔性電路板廠發(fā)現(xiàn)，在傳統(tǒng)的低功耗喚醒方案中，是否喚醒取決于放在主芯片中的決策模型，因此喚醒的誤報(bào)水平也取決于它。但如果選用鴻鵠這種端到端的方案，則能避免多級(jí)喚醒所引入的錯(cuò)誤，從而降低誤報(bào)率。

回過頭來(lái)，我們?nèi)タ窗俣忍岢龅倪@整套技術(shù)所帶來(lái)的識(shí)別錯(cuò)誤率降低，首次喚醒率提升（同時(shí)誤報(bào)率極低）以及待機(jī)功耗下降，顯然還有可提升的空間。這種“可提升”，是由其在軟、硬兩個(gè)層面的革新所帶來(lái)的。

首先他們提出的“端到端建模技術(shù)”，直接將語(yǔ)音增強(qiáng)和聲學(xué)建模兩個(gè)過程融合為一，避免了在各自過程中優(yōu)化不統(tǒng)一所帶來(lái)的錯(cuò)誤率下降，全局的優(yōu)化目標(biāo)只有一個(gè)，即字準(zhǔn)確率。這種想法徹底拋棄了各種先驗(yàn)知識(shí)（以及所帶來(lái)的錯(cuò)誤），模型結(jié)構(gòu)設(shè)計(jì)和數(shù)字信號(hào)處理學(xué)科完全脫鉤，充分發(fā)揮了CNN網(wǎng)絡(luò)的多層結(jié)構(gòu)和多通道特征提提取的優(yōu)勢(shì)，是一個(gè)顛覆性的思想，顯然還有更多可開拓的空間。

另一方面，將模型嵌入芯片，用一顆芯片解決所有語(yǔ)音交互問題。不但具備較高的喚醒精度還具備超低的誤報(bào)。這種新的軟硬一體化架構(gòu)，直接解放了主芯片，大大降低了對(duì)主芯片運(yùn)算性能的要求，從而在價(jià)格和功耗上都能得到大幅度優(yōu)化。這種架構(gòu)的革新，必將成為改變整個(gè)智能音箱（遠(yuǎn)場(chǎng)交互場(chǎng)景）行業(yè)的一次技術(shù)革新。

18年專注FPC研發(fā)制造行業(yè)科技創(chuàng)新領(lǐng)跑者

首頁(yè)>行業(yè)資訊 >軟板之百度實(shí)現(xiàn)技術(shù)革新，一顆芯片解決語(yǔ)音交互難題

軟板之百度實(shí)現(xiàn)技術(shù)革新，一顆芯片解決語(yǔ)音交互難題

關(guān)于“行業(yè)資訊”的相關(guān)資訊

網(wǎng)友熱評(píng)

推薦產(chǎn)品

熱點(diǎn)推薦