多功能語音識別記事本及大容量數字錄音一體機的制作方法

文檔序號：2821523閱讀：549來源：國知局

專利名稱：多功能語音識別記事本及大容量數字錄音一體機的制作方法
技術領域：
本實用新型發明屬于語音技術領域，尤其是涉及采用單片數字信號處理器或微控制器實現語音識別、語音合成、語音編解碼的多功能語音記事本或語音個人數字助理的設計。
語音技術—包括語音編碼、語音合成，尤其是語音識別技術在九十年代逐步成熟，語音產品在市場上開始出現。目前國際上，特別是歐美市場已經可以買到很多語音技術產品，如美國東芝公司生產的語音記事本，日本東芝公司、韓國三星公司生產的語音數字錄音機，以及具有語音識別功能一些移動電話手機等。這類語音數字錄音機、語音記事本一般包括語音識別或語音壓縮專用芯片、A/D、D/A、微控制器、外接存儲器、麥克風、喇叭等部件。語音識別或語音壓縮專用芯片中存有語音識別、語音合成、或語音編碼程序。在這類產品中，語音記事本通常不包括數字語音錄音功能，或僅僅能夠紀錄很短的數字語音錄音(1-2分鐘)。而且使用的語音識別技術對漢語語音識別的性能并不很好，對一些易混的漢語語音如“李寧”，“李平”，“李星”等相似漢語發音的識別率很低，對漢語數碼語音“0，1，2，3，4，5，6，7，8，9”的識別性能就更差。國內也有一些公司開始從事語音技術產品的開發，如廣東江門三特電子科技有限公司生產的語音電子記事本，但其語音識別性能與語音壓縮編碼的質量都不理想。對錄制數字語音也沒有時間檢索功能，因此使用非常不方便。另外這些產品的各個語音功能往往互相分離，沒有集成在一塊單片上。
本實用新型的目的旨在為克服已有技術的不足之處，將本申請人開發的特定人語音識別、語音壓縮編碼、語音合成等處理程序同時固化在數字信號處理芯片上。使其不僅能夠識別易混漢語語音，能夠識別漢語數碼語音，語音識別率為99％，達到實用水平，而且具有集成度高，功能多，綜合性能比好，成本低，體積小，重量輕，以及耗電省的突出特點。
本實用新型提出的一種多功能語音識別記事本及大容量數字錄音一體機(簡稱語音記事通)，包括數字信號處理器、語音采樣編解碼器、微控制器、閃爍存儲器、電源管理器、麥克風、喇叭。其特征在于，所說的數字信號處理器通過數據線和控制線與采樣編解碼器及微控制器相連，并且通過數據線、地址線和控制線與閃爍存儲器相連，通過控制線與所說的電源管理器相連；所說采樣編解碼器與麥克風、喇叭，以及信號處理器相連，完成語音采集數模轉換與模數轉換功能；所說的微控制器通過控制線和數據線與信號處理器、顯示控制電路相連，用于控制鍵盤、顯示與命令；所說的數字信號處理器上固化有語音識別、語音合成與語音編碼的程序、系統控制程序，以及對存儲語音進行時間檢索與管理程序。
所說的閃爍存儲器可包括兩個閃爍存儲器，其中的一個用于存儲壓縮的語音數據，另一個用于存儲語音識別的碼本，以及需要外存的語音處理程序；所說的電源管理器，通過控制線分別與該兩個閃爍存儲器相連，并完成電壓轉換以及節電功能的操作。
所說的微控制器還可固化有一個實現計算、計數功能的計算程序。
本實用新型采用固化有本申請人專門開發的語音處理和管理程序的通用器件，將語音記事本與大容量數字錄音合二為一，構成的多功能一體機，具有如下特點1、實現特定人漢語數碼“0”～“9”語音識別。
2、實現200-400個關鍵信息(如姓名、單位名)語音識別功能，對易混姓名語音有很高識別率。
3、采用高性能語音壓縮編碼技術與話音激活技術，實現大容量數碼語音錄音功能，錄音時間可達8小時。在存儲數字語音之前，先將語音打上時間標記，因此具有高精度語音檢索功能，可以查詢到某月某日某時某分某秒的錄制的語音信息。
4、具有語音商務信息紀錄功能。
5、具有語音提示與語音回放功能，通過語音提示用戶進行操作；通過語音回放將用戶存入的語音回放出來。
6、具有語音信息檢索功能，利用語音識別技術，查詢語音關鍵信息，將查詢到有關信息通過屏幕顯示或回放語音輸出。
7、本實用新型是以數字信號處理器為核心組成的語音識別、語音編碼、語音合成模塊。任何需要通過語音命令操作代替人手工控制操作場合都可以使用該模塊。將該新型結合移動手機中，該手機就具備了語音記事本功能。該模塊具有體積小、重量輕、耗電省、成本低等突出特點，將給使用者帶來極大方便。在通信、工業控制、家用電器、智能玩具等領域有著極大的應用價值。
附圖簡要說明

圖1為本實用新型的實施總體結構示意圖。
圖2為本實施例語音處理模塊電路原理圖(一)。
圖3為本實施例語音處理模塊電路原理圖(二)。
圖4為本實施例語音處理流程框圖。
本實用新型設計的一種多功能語音識別記事本及大容量數字錄音一體機的實施例結合附圖詳細說明如下本實施例的總體結構如
圖1所示，其組成為U1采樣編解碼器CODEC(TCM320AC37)；U2數字信號處理器DSP(ADSP-218X)；U3微控制器Micro Control UnitMCU(KS57C0400)U4液晶顯示器LCD；U5鍵盤；U6與U7閃爍存儲器；U8電源管理單元。這些器件的各部分連接關系如圖2、圖3所示。電路連接與功能說明如下1、語音通過麥克風輸入到U1采樣編碼器中，采樣編碼器作為A/D與D/A實現語音信號模/數與數/模轉換功能。
2、經過U1數字化的語音信號通過串行接口傳送到U2信號處理器中，在信號處理器中，通過語音識別或語音壓縮編碼進行信號處理，將輸出結果存入閃爍存儲器(U6或U7)中或通過U1將數字語音信號轉換成模擬信號輸出語音或通過U3微控制器將顯示信息輸出到U4顯示屏LCD上。
3、在識別與壓縮處理過程中，U2信號處理器要向U6或U7閃爍存儲器讀寫程序與數據。因此U1與U6、U7之間有雙向數據、地址和控制信號線的連接。
4、在整個系統工作中，U3微控制器對U2信號處理器起總控作用，對U4液晶顯示屏與U5鍵盤進行控制，并在節電情況下進行時間計數操作，因此U3與U2之間有數據線與控制線連接，U3與U7和U8之間有控制線連接。
本實施例系統控制與語音處理過程說明如下1、微控制器U3對整個系統起到總控作用(1)接受鍵盤命令，控制數字信號處理器U2的工作模式。
(2)接受數字信號處理器的識別結果，并輸出到顯示屏上。
(3)在在節電情況下進行時間計數操作，保持系統的時間正常工作。
2、通過數字信號處理器U2來控制采樣編碼器U1的工作。
當語音信號通過麥克風輸入到U1后，在U1中進行如下處理(1)進行濾波處理，濾波器帶寬為300～3400kHz。
(2)進行8k/s信號采樣處理。
(3)進行A/D變換成為13比特線性PCM數字語音信號，然后輸入到數字信號處理器U2中。
當合成語音與解碼語音輸出到U1后，在U1中進行如下處理(1)進行濾波處理，濾波器帶寬為300～3400kHz，去除高頻噪聲。
(2)進行D/A變換，將數字語音轉換成模擬語音輸出到喇叭。
3．數字語音信號進入到U2信號處理器后，根據語音識別或語音編碼的要求，進行不同的語音處理，如圖4所示，詳細描述如下A、在進行語音識別處理時(1)首先語音信號通過加窗分幀與頻譜整形，然后提取語音特征參數，用于語音識別。
(2)進行語音端點檢測，去處無關語音信息與噪聲。
(3)在進行語音識別模板訓練時，通過學習將提取的語音特征參數轉變成語音識別模式碼本存儲在U6閃爍存儲器1中；同時將該語音波形進行壓縮處理，作為語音回放確認信息存儲在U7閃爍存儲器2中。
(4)在進行語音識別時，將輸入的語音特征參數與存儲的識別模板進行模式匹配提取最佳的識別結果。將識別結果的文字信息提供給U3微控制器輸出到U4顯示屏上，將存儲的語音回方信息輸出到U1采樣編碼器轉變為模擬語音輸出。
B、在進行語音壓縮編解碼時(1)將輸入的語音信號加窗分幀與頻譜整形處理后，通過短時能量、過零率進行語音有聲、無聲判決(話音激活)處理，如果有語音信號存在則激活語音編碼程序，進行語音編碼處理，如果無語音信號輸入，則停止語音壓縮編碼器工作。
(2)語音壓縮編碼采用碼激勵(CELP)語音編碼算法，使用碼激勵語音編碼模型，提取線性預測參數與激勵矢碼本，最后對語音編碼模型的參數進行矢量量化，然后壓縮后的數字化語音與日期、時間標記信息一起存儲在閃爍存儲器U7中。語音壓縮速率為5.3kbits/s。在存儲壓縮語音信號時必須包括用于今后檢索的日期、時間等標記信息。這些標記信息可以方便的用于語音信息檢索。
(3)在語音解碼過程中，可以根據存儲的時間信息進行檢索，提取不同時間錄音的語音信號，精度可以精確到秒，如可以提取某年某月某日某時某分某秒錄音的語音信息。
在本實施例的微控制器中還固化有一個實現計算、計數功能的計算程序，以及定時叫醒功能程序。該程序可采用常規的方法實現，在此不再詳述。
本實施例的使用方法如下1、作為記事本使用時(1)其輸入過程為首先輸入用于語音識別的語音關鍵信息(如人的姓名、單位名稱、地名等)，系統通過學習提取該語音重要特征參數用于后面的識別，然后通過鍵盤輸入電話號碼、郵編、身份證等數字信息，每個人可存儲4個電話號碼。接著通過語音錄入其它商務信息(如地址、電子郵件地址、職務等有關信息)等；(2)檢索過程為通過語音關鍵信息或手動按健查找到預先存儲信息，其中包括數字信息如電話號碼、郵編、身份證號碼等；語音信息如姓名、地址、職稱等。
2、作為錄音機使用時(1)通過按鍵自動進行錄音；(2)檢索時通過鍵盤輸入日期、時間等關鍵信息，即可提取該時錄的語音，也可以通過按鍵進行順序檢索。
權利要求1.一種多功能語音識別記事本及大容量數字錄音一體機，包括數字信號處理器、語音采樣編解碼器、微控制器、閃爍存儲器、電源管理器、麥克風、喇叭。其特征在于，所說的數字信號處理器通過數據線和控制線與采樣編解碼器及微控制器相連，并且通過數據線、地址線和控制線與閃爍存儲器相連，通過控制線與所說的電源管理器相連；所說采樣編解碼器與麥克風、喇叭，以及信號處理器相連；所說的微控制器通過控制線和數據線與信號處理器、顯示控制電路相連；所說的數字信號處理器上固化有語音識別、語音合成與語音編碼的程序、系統控制程序，以及對存儲語音進行時間檢索與管理程序。
2.如權利要求1所述的多功能語音識別記事本及大容量數字錄音一體機，其特征在于，所說的閃爍存儲器可包括兩個閃爍存儲器，其中的一個用于存儲壓縮的語音數據，另一個用于存儲語音識別的碼本，以及需要外存的語音處理程序；所說的電源管理器，通過控制線分別與該兩個閃爍存儲器相連。
3.如權利要求1所述的多功能語音識別記事本及大容量數字錄音一體機，其特征在于，所說的微控制器還固化有一個實現計算、計數功能的計算程序以及定時叫醒功能程序。
專利摘要本實用新型發明屬于語音技術領域,它包括數字信號處理器、語音采樣編解碼器、微控制器、閃爍存儲器、電源管理器、麥克風、喇叭。其中,數字信號處理器固化有語音處理和管理程序。具有特定人語音識別、語音提示、語音回放、0—8小時高質量數字語音錄音、計算器,以及定時叫醒等功能。它可以通過數碼鍵或語音來存儲各種商務信息,還可以進行長時的會議、談話或課堂教學錄音。通過語音識別就可以方便的查詢存儲的各種信息。
文檔編號G10L15/00GK2424513SQ0023347
公開日2001年3月21日申請日期2000年5月22日優先權日2000年5月22日
發明者劉加, 劉潤生, 薛曉光申請人:清華大學, 北京安可爾通訊技術有限公司

完整全部詳細技術資料下載