語音識(shí)別系統(tǒng)范文

時(shí)間:2023-03-26 08:31:45

導(dǎo)語:如何才能寫好一篇語音識(shí)別系統(tǒng),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

語音識(shí)別系統(tǒng)

篇1

1語音識(shí)別系統(tǒng)設(shè)計(jì)的技術(shù)依據(jù)

近年來國內(nèi)教育信息化趨勢(shì)更加明顯,英語教學(xué)活動(dòng)建立信息化平臺(tái)是師生所需,改變了早期英語課堂模式的不足之處。語音識(shí)別是計(jì)算機(jī)翻譯軟件不可缺少的一部分,如圖1,主要針對(duì)不同語言進(jìn)行識(shí)別處理,幫助學(xué)生快速地理解英語知識(shí)內(nèi)涵。語音識(shí)別技術(shù)主要包括:特征提取技術(shù)、模式匹配技術(shù)、模型訓(xùn)練技術(shù)等三大技術(shù),也是系統(tǒng)設(shè)計(jì)需考慮的重點(diǎn)。

1)特征提取技術(shù)。一般來說,語音識(shí)別系統(tǒng)輔助功能涉及到收錄、處理、傳遞等三個(gè)環(huán)節(jié),這也是語音識(shí)別系統(tǒng)設(shè)計(jì)的關(guān)鍵所在。計(jì)算機(jī)語言與自然語言之間存在極大的差異性,如何準(zhǔn)確識(shí)別兩種語言的差異性,這是翻譯軟件識(shí)別時(shí)必須解決的問題。特征提取技術(shù)是語音識(shí)別系統(tǒng)的基本構(gòu)成,主要負(fù)責(zé)對(duì)英語語言特征進(jìn)行提取,向翻譯器及時(shí)提供準(zhǔn)確的語言信號(hào),提高計(jì)算機(jī)翻譯工作的準(zhǔn)確系數(shù)。

2)模式匹配技術(shù)。語音識(shí)別系統(tǒng)要匹配對(duì)應(yīng)的功能模塊,以輔助師生在短時(shí)間內(nèi)翻譯出語言含義,避免人工翻譯語言失誤帶來的不便。模式匹配技術(shù)采用智能識(shí)別器,由翻譯器錄入語音之后自主化識(shí)別、分析,減小了人工翻譯語句的難度。例如,計(jì)算機(jī)軟件建立匹配模型,按照英語字、詞、句等結(jié)構(gòu)形式,自動(dòng)選擇相配套的翻譯模式,執(zhí)行程序命令即可獲得最終的語言結(jié)果,給予學(xué)生語音識(shí)別方面的幫助。

3)模型訓(xùn)練技術(shù)。設(shè)計(jì)語音識(shí)別系統(tǒng)是為了實(shí)現(xiàn)教育信息化,幫助教師解決英語課堂教學(xué)中遇到的翻譯難題,加深學(xué)生們對(duì)英語知識(shí)的理解能力。語音識(shí)別結(jié)束之后,翻譯器會(huì)自動(dòng)執(zhí)行模擬訓(xùn)練操作,為學(xué)生創(chuàng)建虛擬化的語音訓(xùn)練平臺(tái),這也是軟件識(shí)別系統(tǒng)比較實(shí)用的功能。模擬訓(xùn)練技術(shù)采用人機(jī)一體化設(shè)計(jì)思想,把翻譯器、語音識(shí)別器等組合起來執(zhí)行訓(xùn)練方式,快速地識(shí)別、判斷英語發(fā)聲水平,指導(dǎo)學(xué)生調(diào)整語音方式。

2英語翻譯器語音識(shí)別系統(tǒng)設(shè)計(jì)及應(yīng)用

英語翻譯器是現(xiàn)代化教學(xué)必備的操作工具,教師與學(xué)生借助翻譯器功能可準(zhǔn)確地理解英語含義,這對(duì)語音識(shí)別系統(tǒng)設(shè)計(jì)提出了更多要求。筆者認(rèn)為,設(shè)計(jì)語音識(shí)別系統(tǒng)要考慮翻譯器具體的工作流程,事先編排一套符合翻譯軟件工作的方案,如圖2,從而提高人機(jī)語言轉(zhuǎn)換速率。語音識(shí)別系統(tǒng)設(shè)計(jì)及應(yīng)用情況:

1)識(shí)別模塊。語音識(shí)別方法主要是模式匹配法,根據(jù)不同翻譯要求進(jìn)行匹配處理,實(shí)現(xiàn)英語翻譯的精準(zhǔn)性。一是在訓(xùn)練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫;二是在識(shí)別階段,將輸入語音的特征矢量依次與模板庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。

2)前端模塊。前端處理是指在特征提取之前,先對(duì)原始語音進(jìn)行處理,這是預(yù)處理操作的主要作用。語音識(shí)別系統(tǒng)常受到外界干擾而降低了翻譯的準(zhǔn)確性,設(shè)計(jì)前段處理模塊可消除部分噪聲和不同說話人帶來的影響,使處理后的信號(hào)更能反映語音的本質(zhì)特征。例如,比較常用的前端處理有端點(diǎn)檢測(cè)和語音增強(qiáng)。

3)聲學(xué)模塊。語音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語言模型兩部分組成,分別對(duì)應(yīng)于語音到音節(jié)概率的計(jì)算和音節(jié)到字概率的計(jì)算。聲學(xué)特征的提取與選擇是語音識(shí)別的一個(gè)重要環(huán)節(jié),這一步驟直接關(guān)系到翻譯器的工作效能,對(duì)英語語音識(shí)別與學(xué)習(xí)有很大的影響。因此,聲學(xué)模塊要注重人性化設(shè)計(jì),語音設(shè)定盡可能符合自然語言特點(diǎn)。

4)搜索模塊。英語語音識(shí)別中的搜索,就是尋找一個(gè)詞模型序列以描述輸入語音信號(hào),從而得到詞解碼序列。本次所設(shè)計(jì)的搜索模塊中,其前端是一個(gè)語音識(shí)別器,識(shí)別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語法分析器進(jìn)行分析獲取語義信息,再由對(duì)話管理器確定應(yīng)答信息,由語音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關(guān)鍵詞的方法來獲取語義信息。

5)執(zhí)行模塊。實(shí)際應(yīng)用中,語言識(shí)別系統(tǒng)憑借執(zhí)行模塊完成操作,對(duì)英語語言識(shí)別方式進(jìn)行優(yōu)化擇取,以最佳狀態(tài)完成英語翻譯工作。目前,就英語教學(xué)中使用情況,聽寫及、對(duì)話系統(tǒng)等是語音識(shí)別執(zhí)行的兩種方式,充分展現(xiàn)了翻譯器在語言轉(zhuǎn)換方面的應(yīng)用功能。(1)聽寫機(jī)。大詞匯量、非特定人、連續(xù)語音識(shí)別系統(tǒng)通常稱為聽寫機(jī)。其架構(gòu)就是建立在前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時(shí)對(duì)每個(gè)基元用前向后向算法獲得模型參數(shù),識(shí)別時(shí),將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。(2)對(duì)話系統(tǒng)。用于實(shí)現(xiàn)人機(jī)口語對(duì)話的系統(tǒng)稱為對(duì)話系統(tǒng),英語翻譯器中完成了人機(jī)對(duì)話、語言轉(zhuǎn)換等工作,全面提升了翻譯器操控的性能系數(shù)。受目前技術(shù)所限,對(duì)話系統(tǒng)往往是面向一個(gè)狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等,隨著語音數(shù)據(jù)庫資源的優(yōu)化配置,對(duì)話系統(tǒng)功能將全面升級(jí)。

3翻譯器使用注意事項(xiàng)

語音識(shí)別系統(tǒng)就是讓機(jī)器通過識(shí)別和理解過程,把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高科技。隨著高校教學(xué)信息化建設(shè)時(shí)期到來,計(jì)算機(jī)軟件輔助教學(xué)活動(dòng)是一種先進(jìn)的模式,徹底改變了傳統(tǒng)人工教學(xué)模式的不足。翻譯軟件采用數(shù)字化元器件為硬件平臺(tái),配合遠(yuǎn)程互聯(lián)網(wǎng)建立多元化傳輸路徑,滿足了英語翻譯數(shù)據(jù)處理與傳輸?shù)膽?yīng)用要求。但是,未來英語教學(xué)內(nèi)容越來越復(fù)雜,翻譯器語音識(shí)別系統(tǒng)承載的數(shù)據(jù)范圍更廣,學(xué)校必須實(shí)施更新翻譯軟件產(chǎn)品,才能進(jìn)一步提升英語智能化翻譯水平。

4結(jié)論

篇2

關(guān)鍵詞 空間增強(qiáng);譜減法;連續(xù)語音識(shí)別;自適應(yīng);雙通道信號(hào)

中圖分類號(hào) TP393文獻(xiàn)標(biāo)識(shí)碼 A文章編號(hào) 10002537(2014)03006306

雖然自動(dòng)語音識(shí)別(ASR)系統(tǒng)的研究已投入了大量的人員和資金,但是它還不能夠像電話一樣,作為日常生活的一部分完整地融入到人們的生活當(dāng)中.其中一個(gè)最主要的問題就是自動(dòng)語音識(shí)別系統(tǒng)在噪聲和混響環(huán)境下,特別是二者混合環(huán)境下的識(shí)別性能過于低下[1].在大多數(shù)情況下,為獲得可接受的識(shí)別性能,只能依賴于麥克風(fēng)陣列的使用,即通過使用大量按照特定位置放置的麥克風(fēng)來獲取語音輸入和空間信息.大量的ASR研究,使用麥克風(fēng)陣列得到方向增益,以改善噪聲與混響環(huán)境中獲取信號(hào)的質(zhì)量;采用模式識(shí)別技術(shù)中的譜減法來消除噪聲和處理語音訓(xùn)練集與測(cè)試集不匹配問題[2].

在日常應(yīng)用中,普通用戶既不可能隨身攜帶麥克風(fēng)陣列也不可能精確地放置它們.目前,日常使用的麥克風(fēng)是與雙通道耳機(jī)相對(duì)應(yīng)的,它能得到雙通道語音信號(hào),卻不能得到復(fù)雜的空間信息.如果依然采用傳統(tǒng)的信號(hào)增強(qiáng)方法(例如廣義旁瓣抵消技術(shù))來處理雙通道信號(hào),以作為語音識(shí)別系統(tǒng)的預(yù)處理端,那么噪聲的消除反而會(huì)帶來無法接受的語音失真.

譜減法[3]作為另一種消除噪聲的技術(shù),可以不依賴麥克風(fēng)陣列獲取輸入信號(hào),但是卻存在三大缺點(diǎn):(1)噪聲估計(jì)誤差過大導(dǎo)致噪聲消除時(shí)語音失真;(2)增強(qiáng)后的語音中含有明顯的“音樂噪聲”;(3)混響未被處理.

為解決上述問題,本文基于雙聲道語音信號(hào)簡單的空間特性,綜合使用改進(jìn)的廣義旁瓣抵消空間增強(qiáng)技術(shù)和改進(jìn)的譜減法技術(shù)作為語音識(shí)別系統(tǒng)的噪聲消除和信號(hào)放大的預(yù)處理端,并基于HTK開發(fā)工具設(shè)計(jì)一個(gè)識(shí)別性能優(yōu)異的語音識(shí)別系統(tǒng).

1 系統(tǒng)描述

圖1 系統(tǒng)結(jié)構(gòu)

Fig.1 System structure

圖1為本系統(tǒng)的整體構(gòu)架.它由空間增強(qiáng)、譜減法模塊和自動(dòng)語音識(shí)別模塊3個(gè)主要部分構(gòu)成.

1.1 空間增強(qiáng)模塊

因?yàn)榭臻g線索是語音識(shí)別的主要部分和遠(yuǎn)場(chǎng)麥克風(fēng)語音識(shí)別的組織焦點(diǎn),在該ASR系統(tǒng)中,采用PASCAL “CHiME”[4]組織提供的雙通道含噪語音信號(hào),利用該信號(hào)簡單的空間特性可以得到表現(xiàn)優(yōu)異的噪聲估計(jì).

有許多經(jīng)典的使用麥克風(fēng)陣列的方法來放大目標(biāo)信號(hào),例如通過延遲求和方式的波束形成,自適應(yīng)噪聲消除(ANC)以及獨(dú)立成分分析(ICA).它們使用麥克風(fēng)陣列得到方向增益,以改善在噪聲與混響環(huán)境中獲取信號(hào)的質(zhì)量.

1.2 噪聲消除模塊

通常的ASR系統(tǒng)在處理含噪信號(hào)時(shí)性能大幅度下降,因此,噪音消除是該系統(tǒng)中常見且必須的組成部分.當(dāng)前主流的噪聲消除技術(shù)可以分為3大部分.(1)使用時(shí)域?yàn)V波技術(shù),例如維納濾波和自適應(yīng)濾波;(2)嘗試還原原始語音譜的譜還原技術(shù),例如譜減法[5]和參數(shù)減法;(3)為增強(qiáng)語音結(jié)構(gòu),有許多基于語音模型的噪聲消除技術(shù),例如基于諧波模型的噪聲消除.然而,使用這些技術(shù)來獲得噪聲衰減和信噪比的改善,往往會(huì)造成語音失真.通常,越干凈的噪聲消除會(huì)導(dǎo)致越嚴(yán)重的語音失真,因此,研究設(shè)計(jì)一個(gè)針對(duì)復(fù)雜聲學(xué)環(huán)境的ASR系統(tǒng),在語音失真和噪聲消除之間尋找一個(gè)平衡點(diǎn),是非常重要的工作.

1.3 識(shí)別系統(tǒng)自適應(yīng)

通過一些經(jīng)典的空間濾波和噪聲消除技術(shù)來處理麥克風(fēng)陣列在真實(shí)環(huán)境中獲取的聲音信號(hào),較直接采集含噪聲音,具有更好的聽感知質(zhì)量.但是無論系統(tǒng)設(shè)計(jì)多么完備,獲得的加強(qiáng)聲音中依然會(huì)有噪聲殘留和語音失真的問題存在,它們能被正常人輕易的接受和識(shí)別,但是目前的ASR系統(tǒng)卻不具備這樣的能力.當(dāng)前幾乎所有的ASR系統(tǒng)都采用模式識(shí)別技術(shù),當(dāng)測(cè)試數(shù)據(jù)集接近訓(xùn)練數(shù)據(jù)集時(shí),能夠得到非常高的識(shí)別精確度.但是噪聲殘留和語音失真會(huì)導(dǎo)致測(cè)試數(shù)據(jù)集完全不同于“干凈”的訓(xùn)練數(shù)據(jù)集,訓(xùn)練和測(cè)試不匹配的問題會(huì)直接導(dǎo)致ASR系統(tǒng)識(shí)別率的降低.

為解決這些問題,前人提出許多的方法,例如模型再訓(xùn)練和自適應(yīng),特征變換和歸一化[67],建立環(huán)境模型和模型特征一體化技術(shù)將之使用在自動(dòng)語音識(shí)別模塊上,能起到良好的效果.

綜合考慮到對(duì)上面所述三部分的分析,所有的模塊都應(yīng)該整合為一體,只有通過良好的語音信號(hào)預(yù)處理和完善的識(shí)別系統(tǒng)自適應(yīng),才能構(gòu)架一個(gè)更優(yōu)異性能的ASR系統(tǒng).

2 系統(tǒng)設(shè)計(jì)

本文提出一個(gè)簡潔而具有高魯棒性的針對(duì)CHiME問題的ASR系統(tǒng).首先,依據(jù)雙通道信號(hào)的空間信息增強(qiáng)它們,然后采用改進(jìn)的譜減法獲得增強(qiáng)信號(hào),作為ASR系統(tǒng)的輸入,最終得到識(shí)別結(jié)果和關(guān)鍵詞準(zhǔn)確率.

2.1 改進(jìn)的空間增強(qiáng)

由于存在混響問題,使用傳統(tǒng)方法得到雙通道信號(hào)的空間信息的有效內(nèi)容非常困難.另外,如果采用傳統(tǒng)的信號(hào)增強(qiáng)方法,例如基于廣義旁瓣相消(GSC) 的波束成型,作為ASR系統(tǒng)的前端,那么噪音消除會(huì)帶來語音失真[8],會(huì)極大地降低ASR系統(tǒng)的識(shí)別性能.語音失真是由GSC多路輸入抵消器(MC)的窄帶自適應(yīng)濾波器導(dǎo)致的,它既無法良好地消除噪聲,同時(shí)還消耗昂貴的計(jì)算資源.

圖2 空間增強(qiáng)

Fig.2 Spatial enhancement

本ASR系統(tǒng)的前端,利用雙通道語音信號(hào)的優(yōu)勢(shì),移除了典型GSC里的MC模型,使得在空間濾波的同時(shí)盡量避免語音失真和降低計(jì)算負(fù)擔(dān)(圖2).該模塊的主要任務(wù)是提取參考噪聲,而不再進(jìn)行噪聲消除.

4 結(jié)論

本文針對(duì)語音識(shí)別這一交叉性強(qiáng)的學(xué)科,打破傳統(tǒng)的語音識(shí)別系統(tǒng)局限于利用有限的技術(shù),不斷挖掘技術(shù)潛力,來達(dá)到提高性能的研究模式,提出了一種全新的綜合性構(gòu)架,并取得了實(shí)質(zhì)性的成效;考慮到人類聽覺的生理情況,結(jié)合空間增強(qiáng)層得出的無目標(biāo)語言的參考噪聲,對(duì)譜減法模塊做了積極的改變.將去除噪聲操作從空間增強(qiáng)層移動(dòng)到了效率更高的譜減法層,將噪聲估計(jì)移動(dòng)到空間增強(qiáng)層,使得整個(gè)系統(tǒng)的分工更加明確,以降低耦合,提高魯棒性;使用了倒譜均值歸一化實(shí)現(xiàn)標(biāo)準(zhǔn)39維梅爾倒頻譜系數(shù),為語音識(shí)別模塊加入基于最大后驗(yàn)概率的自適應(yīng)訓(xùn)練,提高了訓(xùn)練效率和系統(tǒng)整體性能.

參考文獻(xiàn):

[1] 宋志章,馬 麗,劉省非,等.混合語音識(shí)別模型的設(shè)計(jì)與仿真研究[J].計(jì)算機(jī)仿真, 2012,29 (5):152155.

[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.

[3] 張 滿,陶 亮,周 健.基于實(shí)值離散Cabor變換的譜減法語音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用, 2012,48(29):109113.

[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.

[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.

[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.

[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.

[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.

[9] KAUPPINEN I, ROTH K. Improved noise reduction in audio signals using spectral resolution enhancement with timedomain signal extrapolation[J]. Speech and Audio Processing, IEEE Transactions, 2005,13(6):12101216.

篇3

以下是來自現(xiàn)場(chǎng)的報(bào)道。

市場(chǎng)變化提出新需求

搬遷至新物流中心

神田業(yè)務(wù)支持公司成立于1974年,當(dāng)時(shí)與長崎屋合資,主要負(fù)責(zé)服裝配送。該公司在日本最早引進(jìn)了大型托盤輸送機(jī),曾一時(shí)成為業(yè)界熱議的話題。2002年,3家分公司合并后統(tǒng)一命名為神田業(yè)務(wù)支持公司。

公司現(xiàn)任總經(jīng)理吉林正和先生當(dāng)時(shí)已經(jīng)進(jìn)入公司,他回顧公司的發(fā)展歷程時(shí)說:“30多年來,公司經(jīng)營的物流業(yè)務(wù)幾乎都集中在服裝領(lǐng)域,因此積累了豐富的服裝物流經(jīng)驗(yàn)。近些年,公司的物流設(shè)施及分揀設(shè)備等已開始老化,為此建設(shè)了新的物流中心。同時(shí),為適應(yīng)客戶新的需求,我們準(zhǔn)備配送服裝以外的貨物,因此決定引進(jìn)語音識(shí)別系統(tǒng)。”

目前,習(xí)志野物流中心處理的貨物以服裝為主,同時(shí)也負(fù)責(zé)配送鞋類以及其他日用品,據(jù)說已接到約20家客戶的業(yè)務(wù)委托。物流中心根據(jù)客戶訂單的要求進(jìn)行分揀、貼標(biāo)簽等操作,然后向全國配送。

服裝類商品主要來自中國大陸及臺(tái)灣、越南等地,平均每天發(fā)送10萬件左右,需要投入包括物流中心職員和小時(shí)工在內(nèi)的50~60人從事物流作業(yè),并根據(jù)業(yè)務(wù)量進(jìn)行靈活調(diào)整。

適應(yīng)市場(chǎng)變化

在公司的舊址茜浜,倉庫內(nèi)的主要設(shè)備除了大型托盤輸送機(jī)外,還有自動(dòng)分揀機(jī)。如果要繼續(xù)使用這些設(shè)備,物流中心一層需要擁有2310平方米的面積,并且老化的設(shè)備也需要大筆資金進(jìn)行維修,如此看來實(shí)屬浪費(fèi)。可以說,繼續(xù)使用大型設(shè)備的外部條件發(fā)生了變化。

自動(dòng)分揀機(jī)每小時(shí)的處理能力達(dá)2000件,這是人工作業(yè)望塵莫及的。如果不使用分揀機(jī),根本不可能達(dá)到2000件/小時(shí)的處理能力,那么其他設(shè)備也都會(huì)閑置下來,其結(jié)果將是物流中心無法應(yīng)對(duì)市場(chǎng)的變化。

神田公司經(jīng)營策劃室的松尾健太郎科長談到:“考慮公司業(yè)務(wù)范圍的變化,我們的方針是保證低成本的同時(shí),新系統(tǒng)要能夠應(yīng)對(duì)市場(chǎng)的變化。”

這個(gè)新系統(tǒng)就是“語音識(shí)別系統(tǒng)”。

選擇語音識(shí)別系統(tǒng)

耳、眼、手、口總動(dòng)員

吉林總經(jīng)理談到:“在建設(shè)新物流中心時(shí),神田面臨的最大問題是建設(shè)資金,因此我們要控制初期投資。如果使用自動(dòng)分揀機(jī),至少需要2~3億日元的資金,但我們的總預(yù)算只有1億日元。而且還要求必須保證訂單的交付時(shí)間。最終,我們選擇了語音識(shí)別系統(tǒng)。”

除軟件外,新物流中心引進(jìn)的設(shè)備只有掛在腰間的便攜式終端和耳機(jī),共25套。包括基礎(chǔ)系統(tǒng)改造在內(nèi),總投資共6000萬日元。

實(shí)際上,神田公司從幾年前就已開始研究語音識(shí)別系統(tǒng),只不過一直沒有對(duì)外公開。

新物流中心處理的貨物仍以服裝為主。通常,以箱(盒)為包裝的物品是很容易處理的,數(shù)量統(tǒng)計(jì)也不易出錯(cuò)。但服裝往往裝在塑料袋中,既薄又輕,進(jìn)行揀選操作時(shí),如果工作人員一只手拿著無線終端,另一只手拿著塑料袋,不容易讀取條碼標(biāo)簽,又容易數(shù)錯(cuò)數(shù)量。此外,服裝的一大特點(diǎn)是顏色、規(guī)格多,SKU多,因此,如果使用手持終端進(jìn)行操作將非常費(fèi)力。

現(xiàn)在使用語音識(shí)別系統(tǒng),終端掛在腰間,解放了雙手,操作人員可以用雙手完成揀選作業(yè)。操作人員通過耳機(jī)得到系統(tǒng)指令的同時(shí),可以立即回應(yīng),而不需要“看明細(xì)”、“按開關(guān)”的動(dòng)作,能夠集中精力進(jìn)行揀選。

松尾科長說:“過去,物流現(xiàn)場(chǎng)的操作在很大程度上依賴于‘眼睛’,所有終端和明細(xì)單都必須用眼睛來判斷,如果看錯(cuò)了。就會(huì)直接導(dǎo)致發(fā)錯(cuò)貨。現(xiàn)在有了語音識(shí)別系統(tǒng),其最大的魅力就是通過‘聽’接受指令,用‘眼’和‘手’來確認(rèn),用‘說’來回應(yīng),讓兩手同時(shí)工作。這就是感覺器官的總動(dòng)員。由此帶來工作準(zhǔn)確率和效率的大幅提高。”

這也是神田公司選擇語音識(shí)別系統(tǒng)的初衷。

語音揀選解決方案在世界的發(fā)展

回顧歷史,在上世紀(jì)90年代,日本有幾家公司曾引進(jìn)過語音識(shí)別系統(tǒng),但由于當(dāng)時(shí)的識(shí)別能力有限,結(jié)果半途而廢。之后,經(jīng)過改良的語音識(shí)別系統(tǒng)再度登場(chǎng),尤其是在歐美物流界頗受歡迎,其中VOCOLLECT公司開始嶄露頭角。

特別值得一提的是,世界零售巨頭沃爾瑪把語音識(shí)別系統(tǒng)作為標(biāo)準(zhǔn)化配置的系統(tǒng),在其世界各地的物流中心都在使用。早在3年前,日本國內(nèi)的沃爾瑪旗下的西友?三鄉(xiāng)物流中心業(yè)也已引進(jìn)了VOCOLLECT的產(chǎn)品。

此后,眾多經(jīng)銷商的市場(chǎng)拓展行動(dòng)終于開啟了語音揀選的世界市場(chǎng)之門。VOCOLLECT公司于2006年成立了VOCOLLECT日本分公司,同時(shí)在東歐、南美也逐漸打開市場(chǎng),目前年銷售額近100億日元,占世界同行業(yè)銷售的80%。

承擔(dān)神田公司語音系統(tǒng)建設(shè)項(xiàng)目的日本優(yōu)利公司售后服務(wù)事業(yè)部矢島孝安部長說:“人們往往認(rèn)為只憑借聲音并不十分可靠,但VOCOLLECT的產(chǎn)品解決了這一難題。其識(shí)別系統(tǒng)和硬件設(shè)備組成了堪稱完美的系統(tǒng)。”

VOCOLLECT產(chǎn)品的特性

VOCOLLECT日本分公司總經(jīng)理塞薩爾?西森介紹說,市場(chǎng)上的其他產(chǎn)品大多是把幾家公司的終端和軟件組合在一起,而VOCOLLECT則根據(jù)物流現(xiàn)場(chǎng)的實(shí)際需要,從硬件到軟件都是自主研發(fā)的,具有非常實(shí)用的語音識(shí)別功能,能夠用日語應(yīng)答就是其一大特色。

如何確保語音識(shí)別的精度是使用中的關(guān)鍵問題。塞薩爾?西森總經(jīng)理認(rèn)為,要提高語音識(shí)別的精度是有前提的。語音識(shí)別的基本條件是“指定說話人”和“不指定說話人”,在日本,其他公司都選擇了“不指定說話人”,唯獨(dú)VOCOLLECT公司選擇了“指定說話人”。塞薩爾?西森總經(jīng)理指出,在被噪音環(huán)繞的物流和生產(chǎn)現(xiàn)場(chǎng),“不指定說話人”的方式存在很多問題。

“不指定說話人”即任何人的聲音都可能被確認(rèn)。因?yàn)樗雎粤嗣總€(gè)人聲音的差異,那么其識(shí)別能力自然低下,特別是在噪音大的場(chǎng)所,附近幾個(gè)人同時(shí)作業(yè),如果別人的聲音一旦被確認(rèn)。必將出現(xiàn)差錯(cuò)。

VOCOLLECT公司的“指定說

話人”的方式,是根據(jù)每個(gè)人所發(fā)出的聲音的頻率而設(shè)定的,具有聲音識(shí)別功能。這在很大程度上提高了識(shí)別精確度。在實(shí)際操作中,只要改變用戶名、輸入ID號(hào),就能夠直接調(diào)出所需的信息,因此在登錄系統(tǒng)后,其他工作人員也可以使用。

當(dāng)然。每個(gè)工作人員初次登錄時(shí),都需要經(jīng)過多次練習(xí),登錄加練習(xí)的時(shí)間大約在20-30分鐘。因?yàn)樵O(shè)有語音矯正功能,經(jīng)過幾次練習(xí),工作人員就可以熟練掌握。

此外,終端設(shè)備的堅(jiān)固性也非常突出,即使跌落地面,或被踩、被壓,都能保持完好無損。這給工作人員帶來安全感,可以全神貫注地投入揀選工作。

構(gòu)建并起用系統(tǒng)僅耗時(shí)3個(gè)月

神田公司選擇日本優(yōu)利推薦的VOCOLLECT公司的語音識(shí)別系統(tǒng)之前,已對(duì)該系統(tǒng)的結(jié)構(gòu)和實(shí)用性做了全面、細(xì)致的調(diào)查和論證。

吉林總經(jīng)理說:“因?yàn)槲覀兪鞘状问褂谜Z音識(shí)別系統(tǒng),因此必須進(jìn)行全面的考察。在考察3家日用品批發(fā)商使用該系統(tǒng)的效果時(shí),我們發(fā)現(xiàn)該系統(tǒng)不僅能用于分揀,還能用于盤點(diǎn)。這也是我們選擇它的一個(gè)重要原因。事實(shí)證明這個(gè)系統(tǒng)是完美的。”

接下來的系統(tǒng)設(shè)計(jì),神田公司僅給優(yōu)利公司和VOCOLLECT公司3個(gè)月時(shí)間。在此期間,神田為了讓員工盡快進(jìn)入狀態(tài),在現(xiàn)場(chǎng)進(jìn)行實(shí)地演示。2008年8月15~16日,公司在搬遷的同時(shí)安裝新系統(tǒng),18日就開始正常發(fā)貨了。

下面介紹語音識(shí)別系統(tǒng)的實(shí)際應(yīng)用。

貨物初次分揀

1、2、總體分類

語音識(shí)別系統(tǒng)主要應(yīng)用于服裝的發(fā)貨流程。

圖1、圖2是位于物流中心二層的存儲(chǔ)區(qū)。每天上午,操作人員根據(jù)發(fā)貨指示,首先進(jìn)行總體分類,即把當(dāng)天需要發(fā)的貨按款式分別集中在臺(tái)車上的紙箱中。這里的揀選作業(yè)是對(duì)照產(chǎn)品明細(xì)進(jìn)行的。

3 二次分揀

在相鄰的揀選區(qū),貨物按照店鋪別進(jìn)行分揀。在圖3中,左邊是使用手持終端進(jìn)行掃描,右邊是使用語音識(shí)別系統(tǒng)進(jìn)行揀選。

4、5手持終端+輸送機(jī)

總體分類完成后,把紙箱放到輸送機(jī)上,按發(fā)貨店鋪的不同,用手持終端逐一進(jìn)行掃描。

因?yàn)槊考浳锖彤a(chǎn)品明細(xì)都要進(jìn)行掃描,因此排除了款式錯(cuò)誤的可能。但因?yàn)槭菃问肿鳂I(yè),尤其對(duì)于較薄的服裝,產(chǎn)品數(shù)量容易弄錯(cuò)。偶爾也會(huì)發(fā)生無法讀取條碼標(biāo)簽的情況,或者標(biāo)簽被翻轉(zhuǎn)放置,此時(shí)操作起來相當(dāng)費(fèi)力。

6、7、臺(tái)車+手持終端

圖6是臺(tái)車分揀區(qū)。臺(tái)車底層放置了4個(gè)空周轉(zhuǎn)箱用于調(diào)節(jié)高度,上層的4個(gè)周轉(zhuǎn)箱分別代表4個(gè)店鋪,操作人員同時(shí)處理4家店鋪的貨物,操作非常快捷。當(dāng)然。通道,必須留有足夠的寬度,以保證臺(tái)車通過。

使用語音識(shí)別系統(tǒng)進(jìn)行揀選

8~11 語音識(shí)別揀選

前面提到的輸送機(jī)傳送來的周轉(zhuǎn)箱到達(dá)此處,按照發(fā)貨店鋪的不同依次進(jìn)行揀選。此時(shí)操作人員通過耳機(jī)接收指示,用麥克進(jìn)行回應(yīng),在“是”、“下面”的應(yīng)聲中進(jìn)行分揀作業(yè)。不僅雙手可同時(shí)操作,并且不需要看手持終端顯示的數(shù)據(jù),只需用眼睛確認(rèn)發(fā)貨明細(xì)上的代碼即可。

操作人員聽到的是什么樣的指示呢?是商店代碼、貨物代碼以及揀選的數(shù)量等,速度很快,聽到指示后必須立刻做出回應(yīng)。按照操作人員的話說:“聲音的節(jié)奏逐漸變快,我們已經(jīng)習(xí)慣了這樣的速度。”由于每個(gè)人的聽力和反應(yīng)速度存在差別,物流中心根據(jù)這一差別安排操作人員的崗位。

操作人員做出回應(yīng)后。下面的指示隨即就到。在這種快節(jié)奏中,幾乎沒有等待指示或閑下來的時(shí)間。

塞薩爾?西森總經(jīng)理說:“如果是使用手持終端,必然存在等待指令的時(shí)間。使用語音識(shí)別系統(tǒng)后,節(jié)省了操作時(shí)間。一旦有空閑的時(shí)間,操作人員反而會(huì)不習(xí)慣。”

VOCOLLECT的設(shè)計(jì)中包含了勞動(dòng)心理學(xué)原理,因?yàn)椴僮魅藛T的腰間攜帶了便攜終端,每個(gè)人可以調(diào)節(jié)適合自己的速度。

系統(tǒng)投入使用后,操作人員的熟練程度不斷提高,人均處理能力由原來每小時(shí)200~300件提高到500~700件。

此外,夏裝和冬裝有所不同,操作效率也存在差別,但結(jié)果卻比預(yù)期提高了50%。

12、13、不同商店的發(fā)貨明細(xì)及標(biāo)簽

根據(jù)語音指令做好的發(fā)貨明細(xì)上,標(biāo)有貨物代碼和商店代碼,暫時(shí)貼在貨箱的外面(圖12),待貨箱裝滿后,再把發(fā)貨明細(xì)放入箱中,然后把箱子放到輸送機(jī)上。

14、檢驗(yàn)

通過語音識(shí)別系統(tǒng)揀選的貨物。因?yàn)闆]有讀取條形碼,因此在包裝前需要檢查一遍。數(shù)量少時(shí)只要確認(rèn)條形碼即可,數(shù)量多時(shí)全部都要進(jìn)行檢驗(yàn)。

15、無線傳輸

通過2.4GHz的無線電波頻率,無線終端與服務(wù)器聯(lián)網(wǎng)后,進(jìn)行數(shù)據(jù)交換。

16、充電

在辦公室一角的架子上,放置了25臺(tái)充電器,以便為終端進(jìn)行充電。每次的充電過程需要8小時(shí)。

17、語音系統(tǒng)的管理

在同一辦公室內(nèi)設(shè)置了語音系統(tǒng)的管理器。畫面上顯示的是神田公司的WMS與合作公司VOCOLLECT的管理過程。

貼標(biāo)簽、包裝、發(fā)貨

18、19、貼價(jià)格標(biāo)簽、過檢針

貼價(jià)格標(biāo)簽、過檢針的操作也在物流中心二層完成。

20、21、搬運(yùn)發(fā)貨箱

貨箱打包完畢后碼盤,托盤貨物用叉車搬到垂直輸送機(jī),送往一層出貨區(qū)。

22、23、裝車

在出貨口,貨物裝上卡車,送到各店鋪。

目前,像這樣成功應(yīng)用語音識(shí)別系統(tǒng)的案例在日本還不多見。吉林總經(jīng)理對(duì)于初次引進(jìn)語音識(shí)別系統(tǒng)是這樣評(píng)價(jià)的:對(duì)于習(xí)慣了以往傳統(tǒng)分揀方法的操作人員來講,他們完全沒有不適應(yīng)的感覺,反而更喜歡現(xiàn)在極富節(jié)奏感的作業(yè)。

“要通過改善工作流程,使所有人員都適應(yīng)語音識(shí)別系統(tǒng),不斷提高工作效率。我們不要求最好,只追求更好”。吉林總經(jīng)理說。

篇4

關(guān)鍵詞 語音識(shí)別技術(shù) 聽覺系統(tǒng) 仿生學(xué) 智能 機(jī)器人

中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A

1語音識(shí)別技術(shù)

1.1語音識(shí)別技術(shù)簡介

語音識(shí)別技術(shù)主要分為兩類,一是語音意義的識(shí)別,一種是目標(biāo)聲識(shí)別。第一個(gè)被稱為語音識(shí)別,它是根據(jù)聲音的成詞特點(diǎn)對(duì)聲音進(jìn)一步分析,主要應(yīng)用在人工智能,人機(jī)對(duì)話和快速輸入等領(lǐng)域。通過訪問聲音的特征,從目標(biāo)語音中進(jìn)行提取,該項(xiàng)技術(shù)可以區(qū)分多目標(biāo)語音的種類,確定目標(biāo),主要用于戰(zhàn)場(chǎng)目標(biāo)識(shí)別領(lǐng)域,海上偵察系統(tǒng),預(yù)警系統(tǒng),軍事聲納識(shí)別,車輛聲音識(shí)別,火車預(yù)警系統(tǒng),動(dòng)物個(gè)體的語音識(shí)別和家庭安全系統(tǒng)等。

科技研究人員通過對(duì)語音信號(hào)處理技術(shù)進(jìn)行深入的研究,結(jié)果發(fā)現(xiàn):人的聽覺系統(tǒng)的聲音配合具有獨(dú)特的優(yōu)勢(shì),它能準(zhǔn)確地提取目標(biāo)的聲音特征,準(zhǔn)確地辨別聲音的方向和內(nèi)容分類,所以基于仿生聽覺系統(tǒng)的目標(biāo)聲識(shí)別技術(shù)備受現(xiàn)代前沿科技的關(guān)注。針對(duì)目標(biāo)聲音識(shí)別系統(tǒng)的研究工作成為了現(xiàn)代語音識(shí)別技術(shù)研究的一個(gè)熱門方向,不少科技研究人員正在積極探索先進(jìn)可行的仿生學(xué)理論,特征提取技術(shù)和語音識(shí)別技術(shù)。

1.2語音識(shí)別技術(shù)的研究現(xiàn)狀

語音識(shí)別技術(shù)主要是通過對(duì)監(jiān)測(cè)數(shù)據(jù)的聲音特性分析,得到聲音特性的樣本文件。語音識(shí)別技術(shù)是一種非接觸技術(shù),用戶可以很自然地接受。但語音識(shí)別技術(shù)和其他行為識(shí)別技術(shù)具有共同的缺點(diǎn),即輸入樣本的變化太大,所以很難完成一些精確的匹配,聲音也會(huì)伴隨著速度,音質(zhì)的變化而影響到信號(hào)的采集和結(jié)果的比較。

在語音識(shí)別中,語音識(shí)別是最早也是比較成熟的領(lǐng)域。隨著越來越多的應(yīng)用需求,識(shí)別聲音并不局限于語音識(shí)別,人們開始深入研究目標(biāo)識(shí)別技術(shù)的非語音識(shí)別,該項(xiàng)技術(shù)已經(jīng)參照了成熟的語音識(shí)別技術(shù)的一部分,但由于各自的應(yīng)用環(huán)境和實(shí)際的音頻特征之間的差異,該技術(shù)還存在一些差異。

1.3語音識(shí)別技術(shù)的實(shí)際應(yīng)用

在民用方面,目標(biāo)聲音識(shí)別系統(tǒng)可以應(yīng)用于門禁系統(tǒng),網(wǎng)絡(luò)安全,認(rèn)證,智能機(jī)器人,動(dòng)物語音識(shí)別,電子商務(wù)和智能交通等領(lǐng)域。在智能交通領(lǐng)域,利用來自車輛識(shí)別模型的運(yùn)動(dòng)音頻信號(hào),可以實(shí)現(xiàn)交通信息的智能化管理。在智能機(jī)器人領(lǐng)域,機(jī)器人目標(biāo)聲音識(shí)別系統(tǒng)可以作為機(jī)器人的耳朵,通過環(huán)境聲音識(shí)別并確定聲音的方位,然后再反應(yīng)外界的聲音,因此可以將其當(dāng)作家庭自動(dòng)化服務(wù)系統(tǒng)和安全系統(tǒng)。在動(dòng)物的語音識(shí)別領(lǐng)域,可以根據(jù)害蟲聲特征來區(qū)分害蟲種類,根據(jù)不同的害蟲采取不同的措施。在網(wǎng)絡(luò)應(yīng)用領(lǐng)域,在關(guān)于各種在線服務(wù)支持的語音識(shí)別技術(shù)新項(xiàng)目開發(fā)中,可以提高網(wǎng)絡(luò)的服務(wù)質(zhì)量,給人們的生活帶來方便。現(xiàn)在,美國,德國和日本都開了電話銀行,語音代替原來的密碼和使用印章,簡化了工作服務(wù)流程,提高工作效率。

在軍事上,目標(biāo)聲音識(shí)別技術(shù)來自于第二次世界大戰(zhàn),在探測(cè)敵人的炮火和潛艇時(shí),起著重要的識(shí)別和定位作用。但由于計(jì)算機(jī)技術(shù),信號(hào)處理技術(shù),光電檢測(cè)和雷達(dá)檢測(cè)技術(shù)快速的發(fā)展,使聲探測(cè)技術(shù)發(fā)展得十分緩慢。直到現(xiàn)代的戰(zhàn)爭,研發(fā)了使用于戰(zhàn)爭中的三維信息,全方位定向,反欺詐、欺騙、干擾和反偵察、監(jiān)視,在隱身與反隱身的現(xiàn)代戰(zhàn)爭中為國家的國防事業(yè)做出了不可磨滅的杰出貢獻(xiàn)。通過電,磁,光學(xué)和雷達(dá)探測(cè)技術(shù)和主動(dòng)檢測(cè)技術(shù)來完成偵察任務(wù)已經(jīng)不能滿足現(xiàn)代戰(zhàn)爭的需求。在武裝直升機(jī)技術(shù)成熟的當(dāng)代,隱形轟炸機(jī)和其他高科技武器都有了反射功率,抗電磁干擾,反輻射的功能,特別是快速發(fā)展的數(shù)字技術(shù)和計(jì)算機(jī)技術(shù),迫使各國為了實(shí)現(xiàn)對(duì)目標(biāo)的定位跟蹤和噪聲識(shí)別而重新開始研究被動(dòng)聲探測(cè)技術(shù),關(guān)注聲檢測(cè)技術(shù)。在未來戰(zhàn)爭中,武器裝備發(fā)展的一個(gè)重要趨勢(shì)是智能化、小型化,一個(gè)重要的特點(diǎn)是具備目標(biāo)識(shí)別的能力,并根據(jù)不同的對(duì)象使用不同的攻擊方法。

2聽覺系統(tǒng)

為了設(shè)計(jì)一個(gè)更精確的目標(biāo)聲音識(shí)別系統(tǒng),越來越多的學(xué)者開始深入研究仿生學(xué)領(lǐng)域。通過研究發(fā)現(xiàn),人類的聽覺系統(tǒng)在聲音的物理方面具有獨(dú)特的優(yōu)勢(shì),聲音特征可以準(zhǔn)確提取目標(biāo)識(shí)別中聲音的方向,種類和含量,而且還可以提高抗噪聲能力,所以基于人基于語音識(shí)別技術(shù)的聽覺系統(tǒng)已經(jīng)成為目前的研究熱點(diǎn)。

人類聽覺仿生學(xué)是模仿人耳的聽覺系統(tǒng)和生理功能,并通過建立數(shù)學(xué)模型,根據(jù)數(shù)學(xué)分析原理得到的聽覺系統(tǒng)。它涉及聲學(xué),生理學(xué),信號(hào)處理,模式識(shí)別和人工智能等學(xué)科,是一個(gè)跨學(xué)科研究領(lǐng)域的綜合應(yīng)用。該技術(shù)已在軍事,交通,銀行,醫(yī)療治療的許多方面取得了重要應(yīng)用,是人類實(shí)現(xiàn)智能生命的重要研究課題之一。

人類聽覺系統(tǒng)的處理能力大大超過目前的聲音信號(hào)處理水平。從人類聽覺系統(tǒng)的心理和生理特點(diǎn)視角,許多研究人員對(duì)接聽過程中的語音識(shí)別進(jìn)行深入的研究。目前,許多學(xué)者提出了不同的聽覺模型,這些模型大多是一些基于語音識(shí)別和語音質(zhì)量評(píng)價(jià)系統(tǒng)的聽覺模型,模擬人耳聽覺功能的生理結(jié)構(gòu),這些應(yīng)用處理方法大大提高了系統(tǒng)的性能。

參考文獻(xiàn)

篇5

關(guān)鍵詞:凌陽單片機(jī);語音識(shí)別;家居控制;Android;藍(lán)牙通信

Abstract:This paper studied the technology of speaker-dependent recognition based on Sunplus SPCE061A, voice recognition technology will be applied to the home control system. Proposed a control scheme which is convenient operation,easy to expand, and applicable to home applications. The system will be analyzed from the perspective of hardware circuit and software design. Also in the Google App Inventer platform, built out a control software based on Android smartphone’s Bluetooth communication.The tested results showed that the system has successfully realized the voice technology appliances and Android smartphones remote control technology.

Key words:Sunplus;voice recognition;home control;Android;Bluetooth communication

隨著科技智能化的發(fā)展和社會(huì)生活水平的不斷提高,人們對(duì)家居環(huán)境方便快捷的要求也隨之提高,智能家居的概念成為了一個(gè)熱門話題。在智能家居系統(tǒng)中,語音識(shí)別和遠(yuǎn)程控制的應(yīng)用打破了常規(guī)的家用電器局域性控制局限,已經(jīng)成為了具有競(jìng)爭性的新興高技術(shù)產(chǎn)業(yè),在智能家居控制系統(tǒng)上應(yīng)用非常廣泛。本文研究了基于SPCE061A單片機(jī)的特定人語音識(shí)別技術(shù)以及智能手機(jī)藍(lán)牙通信技術(shù),并將其成功應(yīng)用于家用電器的控制上,用戶可以利用語音命令和Android手機(jī)操作方便快捷地控制電器的開關(guān)動(dòng)作。

1 系統(tǒng)總體設(shè)計(jì)

系統(tǒng)采用凌陽16位SPCE061A單片機(jī)為核心控制器,由藍(lán)牙串口透?jìng)髂KATK-HC05、MIC輸入模塊、揚(yáng)聲器、液晶顯示器、按鍵組成,利用SPCE061A內(nèi)置的語音模塊,將麥克風(fēng)采集到的語音信號(hào)與事先訓(xùn)練好的語音庫的特征語音進(jìn)行對(duì)比,根據(jù)語音辨識(shí)結(jié)果產(chǎn)生控制信號(hào),進(jìn)而控制家用電器[1]。系統(tǒng)還增加了無線藍(lán)牙通信功能,由Android智能手機(jī)發(fā)送事先規(guī)定的指令,藍(lán)牙模塊接收后將數(shù)據(jù)交給控制器處理,產(chǎn)生的控制信號(hào)將發(fā)送給執(zhí)行器對(duì)家電進(jìn)行控制。系統(tǒng)還設(shè)置了人性化的液晶人機(jī)界面和指示燈方便用戶操作。用戶可以通過鍵盤對(duì)系統(tǒng)進(jìn)行復(fù)位、重新學(xué)習(xí)語音命令的操作。系統(tǒng)總體結(jié)構(gòu)框圖如圖1所示。

2 系統(tǒng)硬件設(shè)計(jì)

凌陽16位單片機(jī)SPCE061A在硬件結(jié)構(gòu)和指令系統(tǒng)上都非常適用于語音信號(hào)處理,其主要的特點(diǎn)為:速度快,多中斷,多個(gè)A/D轉(zhuǎn)換器,特別是具有音頻輸出功能的雙通道10位D/A轉(zhuǎn)換器,具有自動(dòng)增益控制功能與內(nèi)置傳聲放大器的A/D轉(zhuǎn)換器[2]。本設(shè)計(jì)采用具有DSP功能并內(nèi)置聲音A/D轉(zhuǎn)換器的凌陽單片機(jī),可以使得系統(tǒng)大大簡化。

SPCE061A的A/D轉(zhuǎn)換器有8個(gè)通道,其中有一個(gè)是MIC_IN輸入,專門對(duì)語音信號(hào)進(jìn)行采樣。MIC選用駐極體話筒,其偏壓由SPCE061A的VMIC腳提供。MIC輸入模塊電路結(jié)構(gòu)簡單,只需外接三個(gè)電阻和電容以對(duì)電流信號(hào)進(jìn)行濾波。

SPCE061A提供雙通道10位的D/A輸出AUD1、AUD2,每個(gè)通道的輸出能力是30mA。為了能驅(qū)動(dòng)揚(yáng)聲器放音,將輸出電路設(shè)計(jì)為由負(fù)載電阻和三極管8050組成的功放電路[3]。

2.1 最小系統(tǒng)組成

最小系統(tǒng)接線如下圖2所示,在OSC0、OSC1端接上晶振及諧振電容,在鎖相環(huán)壓控振蕩器的阻容輸入VCP端接上相應(yīng)的電容電阻后即可工作。其它閑置的電源端和地端接上0.1?F的去藕電容以提高抗干擾能力。

2.2 藍(lán)牙通信電路

ATK-HC05是一款高性能的主從一體藍(lán)牙串口模塊,該模塊支持非常寬的波特率范圍:4800~1382400,并且模塊兼容5V或3.3V單片機(jī)系統(tǒng)[4]。

模塊與單片機(jī)連接最少只需要4根線即可:VCC、GND、TXD、RXD。其中VCC和GND用于給模塊供電,RXD和TXD分別為串口接收腳和串口發(fā)送腳,分別連接單片機(jī)的TXD和RXD進(jìn)行通信。

ATK-HC05模塊與單片機(jī)系統(tǒng)的典型連接方式如圖3所示:

3 系統(tǒng)軟件設(shè)計(jì)

本課題的軟件主要包括兩部分:語音控制和藍(lán)牙通信,采用C語言編程。該系統(tǒng)的智能手機(jī)控制軟件是在MIT/Google App Inventer平臺(tái)下搭建的,App Inventor是一個(gè)完全在線開發(fā)的Android編程環(huán)境,拋棄復(fù)雜的程式代碼而使用積木式的堆疊法來完成Android程式。Google App Inventor用戶能夠通過該工具軟件使用谷歌的Android系列軟件自行研發(fā)適合手機(jī)使用的應(yīng)用程序[5]。

3.1 語音控制程序流程圖

語音控制程序流程如圖4所示。該控制程序主要包括兩個(gè)部分,即語音訓(xùn)練和語音識(shí)別。語音識(shí)別部分則實(shí)現(xiàn)對(duì)特定人發(fā)出的語音命令與系統(tǒng)儲(chǔ)存的語音命令比較,并根據(jù)比較結(jié)果產(chǎn)生相應(yīng)的控制信號(hào)。

程序執(zhí)行步驟如下:程序開始運(yùn)行時(shí),首先將RAM中的語音模式擦除,為下面的語音訓(xùn)練的存儲(chǔ)做準(zhǔn)備。然后按照訓(xùn)練提示音依次訓(xùn)練觸發(fā)名稱。每一條語音命令需要訓(xùn)練兩次,這兩次訓(xùn)練會(huì)自動(dòng)作出比較判斷。當(dāng)訓(xùn)練人兩次發(fā)出的語音命令在誤差允許范圍內(nèi)則判斷為訓(xùn)練成功,同時(shí)將訓(xùn)練人的發(fā)音特征儲(chǔ)存到系統(tǒng)中,否則程序返回上一層對(duì)該命令再次進(jìn)行訓(xùn)練,直到語音命令完全訓(xùn)練成功。

當(dāng)系統(tǒng)提示語音訓(xùn)練完畢后,程序隨即進(jìn)入識(shí)別階段。系統(tǒng)首先對(duì)語音識(shí)別器進(jìn)行初始化,同時(shí)麥克風(fēng)會(huì)播放提示音,提示訓(xùn)練人此時(shí)可以對(duì)控制系統(tǒng)發(fā)出語音命令。處理器將采集的語音信號(hào)進(jìn)行處理,并與存儲(chǔ)器中訓(xùn)練人的語音樣本進(jìn)行比較,根據(jù)比較結(jié)果產(chǎn)生相應(yīng)的控制信號(hào)從而驅(qū)動(dòng)設(shè)備動(dòng)作。語音識(shí)別過程循環(huán)進(jìn)行,完成語音命令的控制任務(wù)后系統(tǒng)等待訓(xùn)練人再次語音命令[6]。

3.2 藍(lán)牙通信

由Android移動(dòng)設(shè)備發(fā)送事先規(guī)定好的數(shù)據(jù)指令,系統(tǒng)中的藍(lán)牙模塊接收到后將數(shù)據(jù)交給單片機(jī)處理,單片機(jī)將接收到的指令和預(yù)先規(guī)定好的指令進(jìn)行比較,產(chǎn)生控制信號(hào)傳送給被控對(duì)象,從而實(shí)現(xiàn)Android智能手機(jī)對(duì)電器設(shè)備的控制。藍(lán)牙通信流程圖如圖5所示。

3.3 Android軟件設(shè)計(jì)

App Inventor for Android,它是一個(gè)基于網(wǎng)頁的開發(fā)環(huán)境,即使是沒有開發(fā)背景的人也能通過它輕松創(chuàng)建Android應(yīng)用程序。App Inventor可以讓開發(fā)者拋開復(fù)雜的程序代碼,使用搭積木式的方法來完成Android應(yīng)用程序。

搭建應(yīng)用程序需要準(zhǔn)備以下材料:

⑴Android系統(tǒng)智能型手機(jī)

⑵藍(lán)牙串口透?jìng)髂K(本文使用ATK-HC05)

⑶單片機(jī)系統(tǒng)開發(fā)板(本文使用凌陽SPCE061A)

首先要有一個(gè)谷歌賬戶,并且申請(qǐng)了開發(fā)App inventor的權(quán)限。

登錄到App inventor開發(fā)界面可以看到一個(gè)空頁面,點(diǎn)擊“new”創(chuàng)建一個(gè)新項(xiàng)目,在出現(xiàn)的對(duì)話框中輸入創(chuàng)建的app的名字,便可以開始對(duì)應(yīng)用程序的編輯。

App Inventor由兩個(gè)部分構(gòu)成:設(shè)計(jì)視圖和塊編輯視圖。開發(fā)者可以在設(shè)計(jì)視圖中完成添加按鈕、文本框等程序外觀的設(shè)計(jì),設(shè)計(jì)視圖就是一個(gè)網(wǎng)頁;在塊編輯視圖進(jìn)行真正的代碼編輯,塊編輯視圖就是一個(gè)Java應(yīng)用。如果將Android設(shè)備連接到了電腦上,還可以隨時(shí)在手機(jī)上看到應(yīng)用程序的修改。

Android軟件設(shè)計(jì)結(jié)構(gòu)圖如圖6所示,此程序表示當(dāng)打開Android手機(jī)的藍(lán)牙功能后,獲取可連接設(shè)備的地址。當(dāng)連接成功后按下發(fā)送按鈕,Android手機(jī)會(huì)經(jīng)由藍(lán)牙發(fā)送指令數(shù)據(jù)給當(dāng)前地址的接收端,從而實(shí)現(xiàn)智能手機(jī)對(duì)電器設(shè)備的遠(yuǎn)程控制。

4 結(jié)論

本設(shè)計(jì)采用凌陽單片機(jī)SPCE061A作語音識(shí)別處理器,硬件電路簡單,控制靈活;選用適合特定人孤立詞識(shí)別的語音特征和識(shí)別方法,處理速度快,識(shí)別率高,可滿足實(shí)時(shí)語音識(shí)別的需要。同時(shí)使用者可以根據(jù)自己的需要改變應(yīng)答反應(yīng)(包括語音輸出和控制輸出),就可以實(shí)現(xiàn)對(duì)多種電器設(shè)備的控制,如電視機(jī)開關(guān)及選臺(tái)、音量調(diào)節(jié)等操作。該系統(tǒng)可擴(kuò)展性和靈活性強(qiáng)、成本低廉,在智能家居方面具有良好的應(yīng)用前景。

[參考文獻(xiàn)]

[1]王中強(qiáng),楊坤,俞一奇,張志美,程立英.基于SPCE061A單片機(jī)的智能小車的設(shè)計(jì)[J].科技資訊,2013,(18):88~89.

[2]陳海宴,呂江濤,李瑞.凌陽16位單片機(jī)經(jīng)典實(shí)戰(zhàn)[M].北京航空航天大學(xué)出版社,2011-7-4:12-13.

[3]李金波,田民.基于單片機(jī)的智能家居系統(tǒng)設(shè)計(jì)[J].自動(dòng)化技術(shù)與應(yīng)用,2010,29(6):125~128,131.

[4]廣州星翼電子.藍(lán)牙串口模塊[EB/OL].[2013-12-25].http:///product/showproduct.php?lang=cn&id=31.

篇6

【關(guān)鍵詞】語音識(shí)別技術(shù);發(fā)展趨勢(shì)

語音識(shí)別是一門交叉學(xué)科。語音識(shí)別研究經(jīng)歷了50多年的研究歷程,經(jīng)過50多年的積累研究,獲得了巨大的進(jìn)展。特別是近20年來,語音識(shí)別技術(shù)取得了顯著的進(jìn)步,并逐步的走向市場(chǎng)。在未來的日子里,語音識(shí)別技術(shù)將應(yīng)用更為廣泛。

一、語音識(shí)別技術(shù)概述

語音識(shí)別是解決機(jī)器“聽懂”人類語言的一項(xiàng)技術(shù)。作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語音通信的關(guān)鍵技術(shù),語音識(shí)別技術(shù)一直受到各國科學(xué)界的廣泛關(guān)注。如今,隨著語音識(shí)別技術(shù)研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來。以語音識(shí)別技術(shù)開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語音通信系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)和每個(gè)方面。

廣泛意義上的語音識(shí)別按照任務(wù)的不同可以分為4個(gè)方向:說話人識(shí)別、關(guān)鍵詞檢出、語言辨識(shí)和語音識(shí)別。說話人識(shí)別技術(shù)是以話音對(duì)說話人進(jìn)行區(qū)別,從而進(jìn)行身份鑒別和認(rèn)證的技術(shù)。關(guān)鍵詞檢出技術(shù)應(yīng)用于一些具有特定要求的場(chǎng)合,只關(guān)注那些包含特定詞的句子,例如對(duì)一些特殊人名、地名的電話監(jiān)聽等。語言辨識(shí)技術(shù)是通過分析處理一個(gè)語音片斷以判別其所屬語言種類的技術(shù),本質(zhì)上也是語音識(shí)別技術(shù)的一個(gè)方面。語音識(shí)別就是通常人們所說的以說話的內(nèi)容作為識(shí)別對(duì)象的技術(shù),它是4個(gè)方面中最重要和研究最廣泛的一個(gè)方向,也是本文討論的主要內(nèi)容。

二、語音識(shí)別的研究歷史

語音識(shí)別的研究工作始于20世紀(jì)50年代,1952年Bell實(shí)驗(yàn)室開發(fā)的Audry系統(tǒng)是第一個(gè)可以識(shí)別10個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。

1959年,Rorgie和Forge采用數(shù)字計(jì)算機(jī)識(shí)別英文元音和孤立詞,從此開始了計(jì)算機(jī)語音識(shí)別。

60年代,蘇聯(lián)的Matin等提出了語音結(jié)束點(diǎn)的端點(diǎn)檢測(cè),使語音識(shí)別水平明顯上升;Vintsyuk提出了動(dòng)態(tài)編程,這一提法在以后的識(shí)別中不可或缺。60年代末、70年代初的重要成果是提出了信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),有效地解決了語音信號(hào)的特征提取和不等長語音匹配問題;同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

80年代語音識(shí)別研究進(jìn)一步走向深入:HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識(shí)別中成功應(yīng)用。1988年,F(xiàn)ULEE Kai等用VQ/I-IMM方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語音識(shí)別系統(tǒng)SPHINX。這是世界上第1個(gè)高性能的非特定人、大詞匯量、連續(xù)語音識(shí)別系統(tǒng)。

進(jìn)入90年代后,語音識(shí)別技術(shù)進(jìn)一步成熟,并開始向市場(chǎng)提品。許多發(fā)達(dá)國家如美國、日本、韓國以及IBM、Apple、AT&;T、Microsoft等公司都為語音識(shí)別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。同時(shí)漢語語音識(shí)別也越來越受到重視。IBM開發(fā)的ViaVoice和Microsoft開發(fā)的中文識(shí)別引擎都具有了相當(dāng)高的漢語語音識(shí)別水平。

進(jìn)入21世紀(jì),隨著消費(fèi)類電子產(chǎn)品的普及,嵌入式語音處理技術(shù)發(fā)展迅速[2]。基于語音識(shí)別芯片的嵌入式產(chǎn)品也越來越多,如Sensory公司的RSC系列語音識(shí)別芯片、Infineon公司的Unispeech和Unilite語音芯片等,這些芯片在嵌入式硬件開發(fā)中得到了廣泛的應(yīng)用。在軟件上,目前比較成功的語音識(shí)別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續(xù)語音識(shí)別系統(tǒng)。

三、語音識(shí)別技術(shù)的發(fā)展現(xiàn)狀

語音識(shí)別技術(shù)通過全球科學(xué)家的共同努力,經(jīng)歷半個(gè)多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實(shí)用的階段。在實(shí)驗(yàn)室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語音信號(hào)的平均識(shí)別率可以達(dá)到90%以上。正式有了如此高的識(shí)別率之后,語音識(shí)別技術(shù)慢慢地從實(shí)驗(yàn)室演示系統(tǒng)逐步走向?qū)嵱没唐贰R訧BM Via Voice和Dragon Dictation為代表的兩個(gè)聽寫機(jī)系統(tǒng)的出現(xiàn),使“語音識(shí)別”逐步進(jìn)入大眾視線,引起了廣泛的社會(huì)關(guān)注。

由于校對(duì)和更正識(shí)別的錯(cuò)誤很麻煩和浪費(fèi)時(shí)間,這樣便降低語音識(shí)別的優(yōu)勢(shì)。同時(shí),由于使用的環(huán)境或講話口音習(xí)慣等因素的影響,語音識(shí)別的內(nèi)容大大降低,識(shí)別的內(nèi)容不能達(dá)到100%的正確,所以很多人認(rèn)為目前的語音識(shí)別系統(tǒng)還無法滿足實(shí)用要求。

目前,AT&T和MIT等將語音識(shí)別技術(shù)應(yīng)用在一些有限詞匯的特定任務(wù)上,如電話自動(dòng)轉(zhuǎn)接、電話查詢、數(shù)字串識(shí)別的任務(wù)中,當(dāng)講話的內(nèi)容是系統(tǒng)所存儲(chǔ)的內(nèi)容存在的,且使用環(huán)境的聲學(xué)特性與訓(xùn)練數(shù)據(jù)的聲學(xué)特性相差不太大時(shí),語音識(shí)別的正確識(shí)別率可以接近100%。但是,在實(shí)際使用中如果這些條件被破壞,則會(huì)對(duì)識(shí)別系統(tǒng)造成一定的影響。

我國的語音識(shí)別研究一直緊跟國際水平,國家也很重視。國內(nèi)中科院的自動(dòng)化所、聲學(xué)所以及清華大學(xué)等科研機(jī)構(gòu)和高校都在從事語音識(shí)別領(lǐng)域的研究和開發(fā)。國家863智能計(jì)算機(jī)專家組為語音識(shí)別技術(shù)研究專門立項(xiàng),并取得了高水平的科研成果。我國中科院自動(dòng)化所研制的非特定人、連續(xù)語音聽寫系統(tǒng)和漢語語音人機(jī)對(duì)話系統(tǒng),其準(zhǔn)確率和系統(tǒng)響應(yīng)率均可達(dá)90%以上。

四、語音識(shí)別技術(shù)發(fā)展趨勢(shì)

語音作為當(dāng)前通信系統(tǒng)中最自然的通信媒介,語音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù)。隨著計(jì)算機(jī)和語音處理技術(shù)的發(fā)展,語音識(shí)別系統(tǒng)的實(shí)用性將進(jìn)一步提高。應(yīng)用語音的自動(dòng)理解和翻譯,可消除人類相互交往的語言障礙。國外已有多種基于語音識(shí)別產(chǎn)品的應(yīng)用,如聲控?fù)芴?hào)電話、語音記事本等,基于特定任務(wù)和環(huán)境的聽寫機(jī)也已經(jīng)進(jìn)入應(yīng)用階段。這預(yù)示著語音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景。隨著語音技術(shù)的進(jìn)步和通信技術(shù)的飛速發(fā)展,語音識(shí)別技術(shù)將為網(wǎng)上會(huì)議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個(gè)領(lǐng)域帶來極大的便利,其應(yīng)用和經(jīng)濟(jì)、社會(huì)效益前景非常良好.

雖然語音識(shí)別在過去的20年里有了很大的發(fā)展,但是,仍然存在很多的不足,有待于進(jìn)一步的探索,具體可分為以下幾個(gè)方面:

1.提高可靠性。語音識(shí)別技術(shù)需要能排除各種聲學(xué)環(huán)境因素的影響。在比較嘈雜的公共環(huán)境中,人的意識(shí)會(huì)有意識(shí)的排除非需要的聲學(xué)環(huán)境因素,這對(duì)語音識(shí)別系統(tǒng)而言,是很難做到的。另外,在日常生活中,人類的語言常常具有較大的不確定性,比較隨意,并帶有明顯的言語習(xí)慣。這同樣會(huì)給語音識(shí)別系統(tǒng)很大的識(shí)別麻煩。目前,在提高語音系統(tǒng)在不同環(huán)境中的可靠性,同時(shí)要應(yīng)用現(xiàn)代技術(shù)讓語音識(shí)別系統(tǒng)更加智能化,掌握人們語言隨意性的部分規(guī)律,以達(dá)到最佳的識(shí)別效果。

2.增加詞匯量。系統(tǒng)可以識(shí)別的詞匯的數(shù)量是系統(tǒng)能夠做什么事情的一個(gè)重要度量。一個(gè)語音識(shí)別系統(tǒng)使用的聲學(xué)模型和語音模型如果太過于局限,當(dāng)用戶所講的詞匯超出系統(tǒng)已知的范圍時(shí),則語音識(shí)別系統(tǒng)不能準(zhǔn)確的識(shí)別出相應(yīng)的內(nèi)容,比如,當(dāng)突然從中文轉(zhuǎn)為英文、法文、俄文時(shí),計(jì)算機(jī)就會(huì)常常輸出混亂奇怪的結(jié)果。但是,隨著系統(tǒng)建模方法的不斷改進(jìn)、搜索算法效率的提高以及硬件資源的發(fā)展,未來的語音識(shí)別系統(tǒng)可能會(huì)做到詞匯量無限制和多種語言混合,這樣用戶在使用的時(shí)候可以不必在語種之間來回切換,這樣就能大大減少詞匯量的對(duì)語音識(shí)別系統(tǒng)的限制。

3.應(yīng)用拓展。語音識(shí)別技術(shù)可以用于把費(fèi)腦、費(fèi)力、費(fèi)時(shí)的機(jī)器操作變成一件很容易很有趣味性的事,比如,當(dāng)人們出現(xiàn)手忙、手不能及以及分身無術(shù)的場(chǎng)景時(shí),通過語音識(shí)別系統(tǒng)的模型構(gòu)造,則能夠在象駕駛室、危險(xiǎn)的工業(yè)場(chǎng)合、遠(yuǎn)距離信息獲取、家電控制等各個(gè)方面,語音識(shí)別技術(shù)可能帶動(dòng)一系列嶄新或更便捷功能的設(shè)備出現(xiàn),更加方便人的工作和生活。其應(yīng)用的范圍和前景非常廣泛。不僅能夠應(yīng)用于日常生活,更重要的會(huì)帶來生產(chǎn)方式的革命,是下一代智能化控制的基礎(chǔ)。

篇7

摘要:本文簡要介紹了語音識(shí)別技術(shù)理論基礎(chǔ)及分類方式,所采用的關(guān)鍵技術(shù)以及所面臨的困難與挑戰(zhàn),最后討論了語音識(shí)別技術(shù)的發(fā)展前景和應(yīng)用。

關(guān)鍵詞:語音識(shí)別;特征提取;模式匹配;模型訓(xùn)練

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、語音識(shí)別技術(shù)的理論基礎(chǔ)

語音識(shí)別技術(shù):是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高級(jí)技術(shù)。語音識(shí)別以語音為研究對(duì)象,它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支,涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語言(如人在說話時(shí)的表情、手勢(shì)等行為動(dòng)作可幫助對(duì)方理解),其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語言通信。

不同的語音識(shí)別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的基本技術(shù)相似,一個(gè)典型語音識(shí)別系統(tǒng)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。此外,還涉及到語音識(shí)別單元的選取。

(一) 語音識(shí)別單元的選取

選擇識(shí)別單元是語音識(shí)別研究的第一步。語音識(shí)別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。

單詞(句)單元廣泛應(yīng)用于中小詞匯語音識(shí)別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜,難以滿足實(shí)時(shí)性要求。

音節(jié)單元多見于漢語語音識(shí)別,主要因?yàn)闈h語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié),并且漢語雖然有大約1300個(gè)音節(jié),但若不考慮聲調(diào),約有408個(gè)無調(diào)音節(jié),數(shù)量相對(duì)較少。因此,對(duì)于中、大詞匯量漢語語音識(shí)別系統(tǒng)來說,以音節(jié)為識(shí)別單元基本是可行的。

音素單元以前多見于英語語音識(shí)別的研究中,但目前中、大詞匯量漢語語音識(shí)別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有22個(gè))和韻母(共有28個(gè))構(gòu)成,且聲韻母聲學(xué)特性相差很大。實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音的影響,音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究。

(二) 特征參數(shù)提取技術(shù)

語音信號(hào)中含有豐富的信息,但如何從中提取出對(duì)語音識(shí)別有用的信息呢?特征提取就是完成這項(xiàng)工作,它對(duì)語音信號(hào)進(jìn)行分析處理,去除對(duì)語音識(shí)別無關(guān)緊要的冗余信息,獲得影響語音識(shí)別的重要信息。對(duì)于非特定人語音識(shí)別來講,希望特征參數(shù)盡可能多的反映語義信息,盡量減少說話人的個(gè)人信息(對(duì)特定人語音識(shí)別來講,則相反)。從信息論角度講,這是信息壓縮的過程。

線性預(yù)測(cè)(LP)分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預(yù)測(cè)模型是純數(shù)學(xué)模型,沒有考慮人類聽覺系統(tǒng)對(duì)語音的處理特點(diǎn)。

Mel參數(shù)和基于感知線性預(yù)測(cè)(PLP)分析提取的感知線性預(yù)測(cè)倒譜,在一定程度上模擬了人耳對(duì)語音的處理特點(diǎn),應(yīng)用了人耳聽覺感知方面的一些研究成果。實(shí)驗(yàn)證明,采用這種技術(shù),語音識(shí)別系統(tǒng)的性能有一定提高。

也有研究者嘗試把小波分析技術(shù)應(yīng)用于特征提取,但目前性能難以與上述技術(shù)相比,有待進(jìn)一步研究。

(三)模式匹配及模型訓(xùn)練技術(shù)

模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫中的某一個(gè)模型獲得最佳匹配。

語音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)。

DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長不等的難題,在孤立詞語音識(shí)別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識(shí)別系統(tǒng),目前已被HMM模型和ANN替代。

HMM模型是語音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過程共同描述信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程(可觀測(cè)的)。隱蔽Markor鏈的特征要靠可觀測(cè)到的信號(hào)特征揭示。這樣,語音等時(shí)變信號(hào)某一段的特征就由對(duì)應(yīng)狀態(tài)觀察符號(hào)的隨機(jī)過程描述,而信號(hào)隨時(shí)間的變化由隱蔽Markor鏈的轉(zhuǎn)移概率描述。模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù)。按照隨機(jī)函數(shù)的特點(diǎn),HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數(shù),簡稱DHMM)和連續(xù)隱馬爾可夫模型(采用連續(xù)概率密度函數(shù),簡稱CHMM)以及半連續(xù)隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點(diǎn))。一般來講,在訓(xùn)練數(shù)據(jù)足夠的,CHMM優(yōu)于DHMM和SCHMM。HMM模型的訓(xùn)練和識(shí)別都已研究出有效的算法,并不斷被完善,以增強(qiáng)HMM模型的魯棒性。

人工神經(jīng)元網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)元活動(dòng)的原理,具有自學(xué)、聯(lián)想、對(duì)比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不個(gè)有HMM模型的動(dòng)態(tài)時(shí)間歸正性能。因此,現(xiàn)在已有人研究如何把二者的優(yōu)點(diǎn)有機(jī)結(jié)合起來,從而提高整個(gè)模型的魯棒性。 二、語音識(shí)別的困難與對(duì)策

目前,語音識(shí)別方面的困難主要表現(xiàn)在:

(一)語音識(shí)別系統(tǒng)的適應(yīng)性差,主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng),即在某種環(huán)境下采集到的語音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降;另外一個(gè)問題是對(duì)用戶的錯(cuò)誤輸入不能正確響應(yīng),使用不方便。

(二)高噪聲環(huán)境下語音識(shí)別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,這就是所謂Lombard效應(yīng),必須尋找新的信號(hào)分析處理方法。

(三)語言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少,但如何把這些知識(shí)量化、建模并用于語音識(shí)別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識(shí)別中是非常重要的。

(四)我們對(duì)人類的聽覺理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等分面的認(rèn)識(shí)還很不清楚;其次,把這方面的現(xiàn)有成果用于語音識(shí)別,還有一個(gè)艱難的過程。

(五)語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化過程中還有許多具體問題需要解決,識(shí)別速度、拒識(shí)問題以及關(guān)鍵詞(句)檢測(cè)技術(shù)等等技術(shù)細(xì)節(jié)要解決。

三、語音識(shí)別技術(shù)的前景和應(yīng)用

語音識(shí)別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語音識(shí)別系統(tǒng)的識(shí)別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語音識(shí)別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在西方經(jīng)濟(jì)發(fā)達(dá)國家,大量的語音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶交機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語音識(shí)別撥號(hào)功能,還有語音記事本、語音智能玩具等產(chǎn)品也包括語音識(shí)別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識(shí)別口語對(duì)話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。

語音識(shí)別是一門交叉學(xué)科,語音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語音識(shí)別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進(jìn)行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭性的新興高技術(shù)產(chǎn)業(yè)。

參考文獻(xiàn)

[1]科大訊飛語音識(shí)別技術(shù)專欄. 語音識(shí)別產(chǎn)業(yè)的新發(fā)展.企業(yè)專欄.通訊世界,2007.2:(總l12期)

[2]任天平,門茂深.語音識(shí)別技術(shù)應(yīng)用的進(jìn)展.科技廣場(chǎng).河南科技,2005.2:19-20

[3]俞鐵城.科大訊飛語音識(shí)別技術(shù)專欄.語音識(shí)別的發(fā)展現(xiàn)狀.企業(yè)專欄.通訊世界,2006.2 (總122期)

[4]陳尚勤等.近代語音識(shí)別.西安:電子科技大學(xué)出版社,1991

篇8

語音識(shí)別算法雖然還有很多問題沒有解決,但語音識(shí)別技術(shù)已經(jīng)開始逐步進(jìn)入實(shí)用階段。在發(fā)達(dá)國家語音識(shí)別技術(shù)已經(jīng)用于信息服務(wù)系統(tǒng)和查詢系統(tǒng),人們可以通過電話網(wǎng)絡(luò)查詢有關(guān)的信息,并且取得很好的結(jié)果。用戶交換機(jī)、電話機(jī)、手機(jī)也包含了語音識(shí)別撥號(hào)功能。調(diào)查統(tǒng)計(jì)表明多達(dá)80%以上的人對(duì)這些服務(wù)表示滿意。中小詞匯量的語音識(shí)別系統(tǒng)(

語音芯片的應(yīng)用

近年來語音芯片應(yīng)用越來越廣泛,主要包括:

1.電話通信中的語音撥號(hào)。特別是在中、高檔移動(dòng)電話上,現(xiàn)已普遍具有語音撥號(hào)的功能。隨著語音識(shí)別芯片的價(jià)格降低,普通電話上也將具備語音撥號(hào)的功能。

2. 汽車的語音控制。由于在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號(hào)功能的免提電話通信方式。此外,對(duì)汽車的門、窗、空調(diào)、照明以及音響等設(shè)備,同樣也可以由語音來方便地進(jìn)行控制。

3. 工業(yè)控制及醫(yī)療領(lǐng)域。當(dāng)操作人員的眼或手已經(jīng)被占用的情況下,在增加控制操作時(shí),最好的辦法就是增加人與機(jī)器的語音交互界面。由語音對(duì)機(jī)器發(fā)出命令,機(jī)器用語音做出應(yīng)答。

4. 個(gè)人數(shù)字助理(Personal Digital Assistant,PDA)的語音交互界面。PDA的體積很小,人機(jī)界面一直是其應(yīng)用和技術(shù)的瓶頸之一。由于在PDA上使用鍵盤非常不便,因此,現(xiàn)多采用手寫體識(shí)別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便。現(xiàn)在業(yè)界一致認(rèn)為,PDA的最佳人機(jī)交互界面是以語音作為傳輸介質(zhì)的交互方法,并且已有少量應(yīng)用。隨著語音識(shí)別技術(shù)的提高,可以預(yù)見,在不久的將來,語音將成為PDA主要的人機(jī)交互界面。

5. 智能玩具。通過語音識(shí)別技術(shù),我們可以與智能娃娃對(duì)話,可以用語音對(duì)玩具發(fā)出命令,讓其完成一些簡單的任務(wù),甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場(chǎng)潛力,而其關(guān)鍵在于語音芯片價(jià)格的降低。

6. 家電遙控。用語音可以控制電視機(jī)、VCD、空調(diào)、電扇、窗簾的操作,而且一個(gè)遙控器就可以把家中的電器皆用語音控制起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。

語音識(shí)別專用芯片系統(tǒng)有如下幾個(gè)特點(diǎn): 1. 多為中、小詞匯量的語音識(shí)別系統(tǒng),即只能夠識(shí)別10~100詞條。只有近一兩年來,才有連續(xù)數(shù)碼或連續(xù)字母語音識(shí)別專用芯片實(shí)現(xiàn)。2. 一般僅限于特定人語音識(shí)別的實(shí)現(xiàn),即需要讓使用者對(duì)所識(shí)別的詞條先進(jìn)行學(xué)習(xí)或訓(xùn)練,這一類識(shí)別功能對(duì)語種、方言和詞條沒有限制。有的芯片也能夠?qū)崿F(xiàn)非特定人語音識(shí)別,即預(yù)先將所要識(shí)別的語句碼本訓(xùn)練好而裝入芯片,用戶使用時(shí)不需要再進(jìn)行學(xué)習(xí)就可直接應(yīng)用。但這一類識(shí)別功能只適用于規(guī)定的語種和方言,而且所識(shí)別的語句只限于預(yù)先已訓(xùn)練好的語句。3. 由此芯片組成一個(gè)完整的語音識(shí)別系統(tǒng)。因此,除了語音識(shí)別功能以外,為了有一個(gè)好的人機(jī)界面和識(shí)別正確與否的驗(yàn)證,該系統(tǒng)還必須具備語音提示(語音合成)及語音回放(語音編解碼記錄)功能。4. 多為實(shí)時(shí)系統(tǒng),即當(dāng)用戶說完待識(shí)別的詞條后,系統(tǒng)立即完成識(shí)別功能并有所回應(yīng),這就對(duì)電路的運(yùn)算速度有較高的要求。5. 除了要求有盡可能好的識(shí)別性能外,還要求體積盡可能小、可靠性高、耗電省、價(jià)錢低等特點(diǎn)。

語音識(shí)別技術(shù)發(fā)展

在發(fā)達(dá)國家各種各樣基于語音識(shí)別技術(shù)的產(chǎn)品已經(jīng)可以買到,如具有聲控?fù)芴?hào)電話,語音記事本等等。語音電話服務(wù)、數(shù)據(jù)查詢服務(wù)也已經(jīng)部分實(shí)現(xiàn)。基于特定任務(wù)和環(huán)境的聽寫機(jī)也已經(jīng)進(jìn)入應(yīng)用階段。語音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù),有著非常廣泛的應(yīng)用前景。

說話者自適應(yīng)技術(shù)近年在語音識(shí)別系統(tǒng)的研究中也備受重視,這是由于與人有關(guān)的語音識(shí)別系統(tǒng)比與人無關(guān)的語音識(shí)別系統(tǒng)的識(shí)別率要高很多。通過有效的自適應(yīng)手段可以很快地提高系統(tǒng)的識(shí)別能力。實(shí)際上說話人自適應(yīng)技術(shù)和穩(wěn)健語音自適應(yīng)技術(shù)是相通的。由于不同的說話人在聲道長度,說話口音方式都很不一樣。說話者自適應(yīng)技術(shù)也主要是從以下兩方面著手。

靜態(tài)處理方法。從特征提取或訓(xùn)練階段就盡可能減少來自說話人的變化因素對(duì)模型的貢獻(xiàn)。可以進(jìn)行聲道參數(shù)的歸一化處理或?qū)φf話人進(jìn)行分類處理,如分男女聲的識(shí)別系統(tǒng)就是其中的一個(gè)典型,但實(shí)際上僅僅從男女聲上對(duì)模型分類還是太粗,可以通過有效的聚類方法進(jìn)行分類。這類方法統(tǒng)稱為聲學(xué)歸一化處理方法。

動(dòng)態(tài)處理方法。對(duì)預(yù)先訓(xùn)練好的與人無關(guān)識(shí)別系統(tǒng),通過臨時(shí)得到的特定人語音數(shù)據(jù)對(duì)系統(tǒng)的模板或特征參數(shù)進(jìn)行自適應(yīng)修正,從而在原有系統(tǒng)基礎(chǔ)上建立一個(gè)用于特定任務(wù)、特定環(huán)境或特定說話人的系統(tǒng),這類方法統(tǒng)稱為自適應(yīng)方法。自適應(yīng)方法可分為: 批模式、累進(jìn)模式、即時(shí)模式; 按自適應(yīng)學(xué)習(xí)策略又分為無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。從用戶使用的方便程度來看是由難到易,而算法實(shí)現(xiàn)則是由易到難。采用何種策略取決于應(yīng)用背景,對(duì)識(shí)別率的要求等因素。對(duì)于聽寫機(jī)等應(yīng)用來說,最具吸引力的是累進(jìn)、無監(jiān)督的自適應(yīng)方式,也稱在線自適應(yīng)。

語言模型也是目前研究的一個(gè)重要方面。目前的語言模型是與任務(wù)有關(guān)的,典型的統(tǒng)計(jì)語言模型是通過大量任務(wù)特定的語料訓(xùn)練出來的。通過新聞?wù)Z料訓(xùn)練出來的模型不能很好地工作于法律方面的文件語音識(shí)別。有幾種方法用于解決這些問題。一種是使用自適應(yīng)語言模型。在靜態(tài)語言模型的基礎(chǔ)上,通過一個(gè)高速緩沖存儲(chǔ)器對(duì)語言模型進(jìn)行動(dòng)態(tài)的修正; 另一種是先訓(xùn)練多領(lǐng)域語言模型,然后通過混合高斯模型將這些模型結(jié)合在一起; 還有一種比較好的辦法是使用大顆粒的語言模型,如基于類的語言模型,而不是基于詞的語言模型,類可以是詞性類,詞義類,以及由一定的數(shù)據(jù)驅(qū)動(dòng)的聚類算法產(chǎn)生的各種類。

由于不同詞可以屬于同一類,這樣類比較大,構(gòu)成的語言模型就比較穩(wěn)健。其關(guān)鍵的問題是如何決定詞的分類,由于詞的分類比較復(fù)雜,同一詞可能屬于不同的類,特別是解決如何通過計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)分類的算法,即使用數(shù)據(jù)驅(qū)動(dòng)算法也還沒有很好地解決。基于統(tǒng)計(jì)技術(shù)的計(jì)算語言學(xué)已經(jīng)越來越受到重視,它解決了單獨(dú)規(guī)則語言模型不能解決的一些問題。當(dāng)然統(tǒng)計(jì)語言模型也不能解決全部問題,因此如何把統(tǒng)計(jì)語言模型和基于規(guī)則的語言模型結(jié)合也是語言模型研究的重點(diǎn)之一。

目前不同快速語音識(shí)別算法都在開發(fā)中。其中包括對(duì)HMM狀態(tài)輸出的概率分布進(jìn)行矢量量化,縮小搜索空間算法,減少計(jì)算機(jī)的內(nèi)存需求方法,以及結(jié)合計(jì)算機(jī)結(jié)構(gòu)特點(diǎn)的編程技術(shù)的應(yīng)用。

鏈接:穩(wěn)健語音識(shí)別技術(shù)

篇9

手寫輸入

手寫輸入一直是一個(gè)很方便的輸入方法,一般都是配合手寫板來輸入的,很適合那些不會(huì)打字的朋友輸入文字,其實(shí)在Windows Vista操作系統(tǒng)中,也有一個(gè)很不錯(cuò)的手寫功能,它是利用鼠標(biāo)在指定的輸入框中進(jìn)行“寫”字,通過操作系統(tǒng)的識(shí)別系統(tǒng)來輸入文字,我們可以點(diǎn)擊菜單“開始―所有程序―附件―Tablte PC―Tablte PC輸入面板”來打開它,或者按“Win+R”來打開運(yùn)行窗口,輸入“TabTip”也能馬上運(yùn)行。這時(shí)候可以看到手寫功能的界面了,現(xiàn)在就可以用鼠標(biāo)來代替手寫板進(jìn)行寫字了(如圖1)。

手寫輸入默認(rèn)使用簡體中文,手寫識(shí)別率還是比較不錯(cuò)的,比如我們要輸入中文內(nèi)容,用鼠標(biāo)直接在上面寫就可以了,如果是輸入數(shù)字、字母或者英語單詞,那可以先點(diǎn)擊下面相應(yīng)的標(biāo)簽,然后再進(jìn)行輸入,輸入好后點(diǎn)擊右下角的“插入”按鈕就可以插入到文檔中了(如圖2)。

如果你經(jīng)常使用一些特殊的字符,特別是手寫系統(tǒng)不能識(shí)別的,那我們可以讓手寫板來“自學(xué)”。點(diǎn)擊菜單“工具―個(gè)性化手寫識(shí)別”,彈出設(shè)置窗口,點(diǎn)擊左面的“簡體中文”,接著用輸入法輸入要識(shí)別的字符,完成后點(diǎn)擊“下一步”按鈕,然后就在手寫板上寫五遍剛才輸入的符號(hào),讓手寫系統(tǒng)記住你輸入的筆畫,全部設(shè)置好后,下次輸入該字符時(shí),手寫系統(tǒng)就可以自己識(shí)別了(如圖3)。

我們還可以給手寫輸入進(jìn)行一些設(shè)置,讓它使用起來更加方便,點(diǎn)擊菜單“工具―選項(xiàng)”,在彈出的“選項(xiàng)”窗口中就可以進(jìn)行設(shè)置了。比如要設(shè)置一下手寫筆的粗細(xì),那只要點(diǎn)擊“書寫板”標(biāo)簽,然后在“墨跡粗細(xì)”中選擇自己的適合的規(guī)格就可以了(如圖4)。

語音輸入

Windows Vista系統(tǒng)中還有一個(gè)以前在Office 中的語音識(shí)別系統(tǒng),通過它可以進(jìn)行語音輸入文字,而且還可以通過語音來控制電腦呢。

要使用語音識(shí)別系統(tǒng),耳麥或者話筒是不可缺少的,它們的質(zhì)量不要太差就可以了,以免影響語音的識(shí)別效果。點(diǎn)擊菜單“開始―所有程序―附件―輕松訪問―Windows語音識(shí)別”,第一次使用會(huì)彈出一個(gè)設(shè)置向?qū)Ы缑妫c(diǎn)擊“下一步”按鈕來選擇一下耳機(jī)的類型,這個(gè)就看自己是使用的什么類型的麥克風(fēng)了,一般選擇“頭戴式麥克風(fēng)”或者“桌面麥克風(fēng)”就可以了,接下來設(shè)置向?qū)?huì)告訴一些麥克風(fēng)的擺放位置和注意事項(xiàng)(如圖5)。

現(xiàn)在我們可以來調(diào)整麥克風(fēng)的音量了,大聲朗讀窗口中的斜體文章,聲音的范圍最好在綠色區(qū)域內(nèi)波動(dòng),這也是語音識(shí)別系統(tǒng)在采集你的聲音,完成后點(diǎn)擊“下一步”按鈕(如圖6)。

為了提高語音識(shí)別的準(zhǔn)確度,我們?cè)谙旅娴倪x項(xiàng)中還可以來選擇“啟用文檔復(fù)查”和讓語音識(shí)別系統(tǒng)在開始的時(shí)候自動(dòng)運(yùn)行。完成設(shè)置后,“語音識(shí)別”系統(tǒng)會(huì)自動(dòng)調(diào)出它的使用教程,整個(gè)教程分歡迎、基礎(chǔ)、聽寫、命令、使用Windows、結(jié)論這幾個(gè)部分,按它的提示進(jìn)行操作就可以了,非常簡單,而且其中的操作都可以用語音來進(jìn)行,如要點(diǎn)擊“下一步”按鈕,只要直接說“下一步”就可以了(如圖7)。

在使用和學(xué)習(xí)“語音識(shí)別”系統(tǒng)的過程中,周圍的環(huán)境一定要安靜,如果有雜聲會(huì)影響語音識(shí)別的效果,而且在說話的時(shí)候,語速不要太快,語言自然是說普通話了。

篇10

關(guān)鍵詞:語音識(shí)別; ARM; 機(jī)器人控制; 嵌入式系統(tǒng)

1 語音識(shí)別過程分析

目前使用最為廣泛的是LPCC和MFCC。MFCC參數(shù)將線性頻標(biāo)轉(zhuǎn)化為MEL頻標(biāo),更利于突出待識(shí)別的信息。而LPCC參數(shù)是基于線性頻標(biāo)的,沒有這一特性。MFCC參數(shù)提取過程中需要FFT變換,由此可以獲得語音信號(hào)的頻域上的全部信息,有利于端點(diǎn)檢測(cè)、語音分段。

對(duì)語音信號(hào)進(jìn)行參數(shù)提取后的信息存儲(chǔ)在模板庫中,模式匹配過程中,實(shí)際上就是將測(cè)試語音的參數(shù)模板和模板庫中的模板進(jìn)行比較的過程。在小詞匯量的孤立詞語音識(shí)別系統(tǒng)中,通常采用DTW 算法。算法原理為:

設(shè)R為參考模式,T為待測(cè)模式。R和T分別表示為: