一種語音撥號系統和實現方法

文檔序號：7588124閱讀：338來源：國知局

專利名稱：一種語音撥號系統和實現方法
技術領域：
本發明涉及一個語音撥號系統，該系統采用分布式的布局，系統誤轉率低，并且易于維護。
背景技術：
隨著對各種自動化、智能化系統需求的不斷增多和語音應用技術的不斷成熟，各種基于語音提示引導用戶完成系統特定的功能導航交互系統日漸增多，應用涉及語音撥號、郵件、電話號碼查詢、股票信息、銀行業務及其他各種信息服務領域。因此基于語音的交互應用系統成為一個非常活躍的領域，而具有廣泛應用需求的語音撥號則又是該領域的一個應用熱點。
目前，多數公司的總機采用直接撥號或者由人工接線員接聽電話的方式。無論哪種方式，每次通話前都至少需要20秒到30秒的時間來查找被叫用戶的電話，對于一個擁有幾百甚至上千員工的企業，累計起來的時間是很驚人的。而一些采用語音識別技術的電話總機，由于語音識別技術和流程處理方面等的局限，使得系統的正確轉接率、人性化程度不高。
另外，現有的語音撥號系統只能轉接被叫用戶的分機，當被叫用戶不在座位上時，現有的電話總機系統就無能為力。
加之，現有的語音撥號系統一般只能簡單的部署到一臺機器上，系統的擴充性和易維護性不好；管理員端操作往往比較復雜，需要專人專崗。
因此，希望能有一種方法和系統，可以具有分布式的布局，誤轉率低，并且易于維護。

發明內容
本發明的目的是克服現有技術的上述缺點，為此，本發明提供一個語音撥號系統，該系統能夠分布的部署到多臺計算機上，同時也可以部署到一臺計算機上；該系統特有的流程設計能夠最大限度的防止錯誤的轉接電話；并且，該系統的信息維護方便快捷，不需要專人專崗。
為了達到上面的目的，本發明的技術方案是這樣實現的一種語音撥號的實現方法，包括步驟接收呼入信號，以觸發提示用戶的語音提示；用戶根據所述語音提示，以語音方式應答；識別所述應答，并輸出所述識別結果對應的置信度；根據所述置信度確認處理場景，以處理所述用戶應答，獲取轉接的目標對應的終端；根據所述目標對應的終端轉接呼叫到目標電話；其中，所述根據所述置信度確認處理場景的步驟包括判斷所述置信度是否大于第一門限，如果大于，判斷是否僅一個識別結果，如果僅一個，確認識別的所述轉接目標正確；如果有多個，選擇其中之一為所述轉接目標；如果小于，要求用戶重新輸入話音或根據其它門限判決。
可選地，所述根據其它門限判決的步驟包括判斷所述置信度是否大于第二門限，如果大于，判斷是否僅一個識別結果，如果僅一個，確認識別的所述轉接目標正確；如果有多個，選擇其中之一為所述轉接目標；如果小于，要求用戶重新輸入話音。
優選地，還包括步驟，判斷是否所述轉接目標對應多個同名終端，如果有多個，選擇其中之一為所述對應的終端；如果有一個，確認其為所述對應的終端。
可選地，所述選擇其中之一為所述轉接目標的步驟包括輸出多個可選項，并提示用戶選擇；用戶根據所述可選項選擇。
優選地，在所述可選項沒有正確值時，用戶選擇取消或重新語音輸入。
可選地，還包括步驟，如果所述對應的終端沒有應答，轉接用戶預定的手機。
優選地，所述第一門限為70，第二門限為60。
可選地，所述根據其它門限判決的步驟包括判斷所述置信度是否小于第三門限，如果小于，拒識；如果大于，通過用戶確認所述轉接目標。
本發明還提供一種語音撥號的系統，包括存儲裝置，用于存儲需要識別的語音庫及對應信息；至少一個語音識別服務器，用于根據所述存儲裝置的信息識別用戶根據提示輸入的語音；語音撥號控制系統，用于控制所述存儲裝置與至少一個語音識別服務器的運行；其中，所述語音識別服務器根據識別結果對應的置信度確定轉接目標和終端。
可選地，系統還包括管理員端，用于在管理員與所述語音撥號控制系統之間交互；負載平衡系統，用于根據所述語音撥號控制系統的指令選擇所述至少一個語音識別服務器的負載較輕的之一進行語音識別。。
本發明公開的語音撥號系統可以分布式的部署在多臺機器上；本發明的方法可以最大限度的降低誤轉率；同時期管理員端的界面使得整個系統易于維護。

圖1為本發明系統的原理部署圖；圖2為本發明系統的實施例1的流程模塊的流程圖；
圖3為本發明系統的實施例2的流程模塊的流程圖；圖4為本發明系統管理員端對系統監控的界面；圖5為本發明系統管理員端對信息維護的界面；圖6為本發明播放語音合成的步驟流程圖。
具體實施例方式
為了使本技術領域的人員更好地理解本發明，下面結合附圖和實施方式對本發明作進一步的詳細說明。
圖1為本發明系統的部署圖；其中的語音識別服務器、語音合成服務器、負載平衡系統、數據庫、管理員端、語音撥號控制系統等都不需要部署到單獨的機器上，可以一個或幾個系統部署在同一臺機器上，甚至整個語音撥號系統部署在同一臺機器上。但是同一臺機器上不能有多個語音合成服務器，也不能有多個語音識別服務器；整個系統只有一個語音識別服務器和一個語音合成服務器的時候，則不需要負載平衡系統，每次語音撥號控制系統需要進行識別或者合成的時候，直接和識別或者合成服務器相連。
圖2為本系統的實施例1的流程控制模塊的流程圖。其中的置信度，是語音識別服務器對本次識別結果的確信程度，當置信度＞70的時候，一般識別服務器本次識別結果都非常準確；識別結果1、識別結果2等是識別服務器把本次識別結果按照置信度排序，排在最前面的識別結果1是置信度最高的，以此類推。
所以本流程首先根據主場景的識別結果進行跳轉，如果識別結果1的置信度＞70，并且識別結果2的置信度＜65的時候，就表明識別結果1非常可信，這時候可以直接轉到同名處理場景；否則，轉入確認場景，和電話用戶確認一下識別結果1是否是電話用戶要找的人。
同樣，在電話用戶第二次說出人名的時候也是根據識別結果進行跳轉，如果識別結果1的置信度＞70，并且識別結果2的置信度＜65的時候，就表明識別結果1非常可信，這時候可以跳轉到同名處理場景；但是這個時候不滿足這個條件的時候，則轉入Nbest(N個最好)場景，即把幾個候選識別結果都列出來，供電話用戶選擇。
特有的同名處理功能，當出現同名的時候，提示電話用戶有多個叫這個名字的員工，并且給出每個同名員工的附加特征，例如部門、性別等。
當員工不在座位上，并且開啟了轉接手機功能的時候，系統還會為電話用戶轉接到該員工的手機上。
無論是根據置信度進行場景跳轉、多次確認、多識別結果處理、還是同名處理、轉接手機，都是為了最大限度的降低誤轉率，同時減少系統交互時間和交互次數，并且能夠盡量為電話用戶找到被叫員工。
圖3為本系統的實施例1的流程控制模塊的流程圖。其中，圖中的分數值70(第一域值)、60(第二域值)只是舉了一個例子，除此之外還有一個45(第三域值--拒識域值，即低于這個分數，識別引擎將不再返回分數，系統做拒識處理，而不再按照流程走)，對不同的識別引擎、不同的應用可以調整；在本流程圖中沒有列出拒識(拒絕識別)的情況，通常拒識的處理如下面的偽代碼if(連續拒識的次數＜3)重新進入當前場景；重新播放當前場景的提示語；else系統轉人工接線員；
由于在本流程圖中沒有列出無識別結果的情況，當用戶沒有語音輸入或者聲音過小的時候，系統視為無識別結果。通常情況下當無識別結果的時候，系統會做無輸入處理，其處理如下面的偽代碼if(連續無輸入的次數＜3)重新進入當前場景；重新播放當前場景的提示語；else系統認為用戶已經離開，主動掛機；圖中紅框分別為兩個算法，在主場景使用的是算法1；在次場景使用的是算法21)算法1if(所有的識別結果都＜45)作為拒識處理else(有不止一個識別分數＞70)轉到Nbest處理場景else(只有一個＞70)轉到同名處理場景else//即沒有分數大于70的)進入確認場景；2)算法2if(所有的識別結果都＜45)作為拒識處理(參見2)else(只有一個識別分數＞60)轉到同名處理場景；else//即有多個識別分數大于60，或者沒有識別結果大于60)轉到Nbest處理場景；其中，確認場景是這樣工作的系統XX，確認請按“#”號鍵，否則請再說一下您找誰用戶按“#”號鍵由于用戶是按鍵表示確定，系統不會識別錯誤，所以沒有對“確定”這個識別結果的分值做處理；相反，如果用戶再說出某個人名，則系統要對其識別分數做處理，即算法2；Nbest(n個最佳)處理場景是對系統識別分數最高的幾個識別結果做處理，所謂Nbest是指識別引擎根據系統的設置，對當前用戶的輸入返回n個較佳的識別結果；通常，這n個較佳的識別結果不只是高于45(第三域值--拒識域值)，而是高于60(第二域值)；從流程圖中可以看出來，當只有一個識別分數＞60的時候才會跳過此場景，否則(也就是有多個識別分數＞60，或者所有的識別分數在45和60之間)都會進入此場景。
本場景是這樣工作的用戶張三系統張三請按1鍵，張山請按2鍵，取消請按“*”號鍵，用戶按“1”號鍵由于本場景要求用戶按鍵輸入，系統不會識別錯誤，所以沒有對本場景識別結果的分值做處理；而同名處理場景是這樣工作的用戶張三系統有兩個叫張三的，北京廠張三請按1鍵，研究院張三請按2鍵，取消請按“*”號鍵，用戶按“1”號鍵由于本場景要求用戶按鍵輸入，系統不會識別錯誤，所以沒有對本場景識別結果的分值做處理；
轉接電話場景之后的部分為可選部分，可以按照需要轉接手機或者家庭電話等，也可以沒有這部分的內容。
另外，本方法可以應用到不同的語音識別引擎，例如Nuance、ViaVoice等。
下表對不同的域值的轉接情況的統計

從流程圖中可以看出來，當只有一個識別分數大于第2域值的時候才會跳過此場景，否則(也就是有多個識別分數大于第2域值，或者所有的識別分數在第3域值和第2域值之間)，從而不難得出這樣的結論第2域值過高或者過低都會導致在次場景中進入Nbest場景的百分比增大。
第3域值過高會導致拒識率增高；過低會導致系統返回很多不相關的識別結果，使得可用性降低。該表是對員工人數(即語音識別詞表數)為3000的時候做的統計。
圖4是本系統管理員端的系統監測界面，通過本界面，管理員不僅可以察看系統的狀態信息(端口空閑與否、系統是否正常等)、時時的日志信息(例如內存使用情況等)，還可以開啟/關閉系統、設置系統參數、查詢一段時間的通話數量。
圖5是本系統的管理員端的系統信息維護界面。通過該界面，管理員初始化電話本、和某一個數據庫同步、增加/修改/刪除某個員工的信息、增加/修改/刪除某個部門的信息、編譯語法文件、修改提示語信息等。其中初始化電話本、和某一個數據庫同步、增加/修改/刪除某個員工的信息、增加/修改/刪除某個部門的信息等操作的結果通過語音撥號控制系統保存到數據庫中；其中的編譯語法文件操作在語音撥號控制系統中進行，并且把編譯之后的語法包更新到各個語音識別服務器中；其中的修改提示語信息等操作通過語音撥號控制系統數據庫中。
概言之，本發明的系統包括負載平衡系統，它在接到語音撥號系統識別或者合成的命令之后，察看當前各個識別服務器或者合成服務器的負載狀態，找到當前負載最輕的一臺服務器，把機器名稱告訴給語音撥號控制系統，使得語音撥號控制系統和該識別或合成服務器建立連接。
至少一個語音識別服務器，在負載平衡系統查詢該服務器狀態的時候該服務器要給出當前的狀態忙、閑；如果忙，還要給出已經忙了多久。當該服務器和語音撥號系統建立連接之后，它負責具體的一次識別操作，然后就斷開。管理員可以通過管理員端系統維護語音識別服務器的語法文件等信息。
至少一個語音合成服務器，在負載平衡系統查詢該服務器狀態的時候該服務器要給出當前的狀態忙、閑；如果忙，還要給出多久之后會空閑。當該服務器和語音撥號系統建立連接之后，它負責具體的一次語音合成操作，然后就斷開。管理員可以通過管理員端系統維護語音合成服務器的錄音文件、音庫等信息。
至少一個管理員端系統。管理員端系統通過語音撥號系統對語音識別系統的語法文件、語音合成系統的提示語、數據庫中的員工部門等信息進行維護。
一個語音撥號控制系統，該系統負責對語音板卡控制、處理每次的識別結果、設置每次的合成內容；另外該系統負責把管理員通過管理員端維護的信息分別更新到語音撥號控制系統、每個語音識別服務器、以及數據庫中。
一個數據庫，用于存儲員工的電話號碼、姓名、姓名拼音、所在部門等信息；對于有重名的員工，還要存儲能夠區別該員工的附加標識信息及其拼音。
其中，語音撥號控制系統分別和管理員端、數據庫、負載平衡系統相聯；負載平衡系統除了和語音撥號控制系統相聯之外，還和各個語音合成服務器、語音識別服務器相連。
上述系統中，語音撥號控制系統還包括流程控制單元、語音板卡及其控制單元、語法包編譯器等。
管理員端還包括語音撥號系統狀態檢測模塊和語音撥號系統信息維護模塊。
一種分布式語音撥號的方法，其工作步驟如下a.管理員通過管理員端對語音撥號系統進行監控和維護；b.當有電話用戶打電話至語音撥號系統時，語音撥號控制系統通過語音板卡應答，并設置流程位初始狀態。
c.語音撥號控制系統設置提示語的內容并向負載平衡系統發出要進行語音合成的請求；d.負載平衡系統查詢每一個語音合成服務器的狀態，尋找負載最輕的一個，把其機器名稱告訴語音撥號控制系統；e.語音撥號控制系統和該語音合成服務器進行連接，語音撥號控制系統把要合成的內容傳遞給該語音合成服務器進行連接，該語音合成服務器進行連接把合成的結果返回給語音撥號控制系統，然后斷開連接，把自己的狀態置閑；f.語音撥號控制系統播放提示語，同時設置語法文件并向負載平衡系統發出要進行語音識別的請求；g.負載平衡系統查詢每一個語音識別服務器的狀態，尋找負載最輕的一個，把其機器名稱告訴語音撥號控制系統；h.語音撥號控制系統和該語音識別服務器進行連接，語音撥號控制系統把要識別的內容傳遞給該語音識別服務器，該語音識別服務器把識別的結果返回給語音撥號控制系統，然后斷開連接，把自己的狀態置閑；i.語音撥號控制系統根據返回的識別結果進行場景跳轉，如果不是結束狀態則跳轉到c在語音撥號控制系統中有一個流程控制模塊，它根據識別結果和識別結果的置信度來決定流程的跳轉，這樣可以最大程度的降低誤轉率。
當某員工不在座位上的時候，可以轉接該員工的手機。
當整個系統只有一個語音識別服務器和一個語音合成服務器的時候，則不需要負載平衡系統，每次語音撥號控制系統需要進行識別或者合成的時候，直接和識別或者合成服務器相連。
可以幾個系統部署在同一臺機器上，甚至整個語音撥號系統部署在同一臺機器上。但是同一臺機器上不能有多個語音合成服務器，也不能有多個語音識別服務器。
管理員端可以對語音撥號系統的運行狀態進行維護，例如是否出現異常、有什么用戶在線、最近通話統計等(參見附圖3)；還可以對系統的一些參數進行設置；同時還可以對系統中的員工信息、部門信息等進行維護。
雖然通過實施例描繪了本發明，本領域普通技術人員知道，本發明有許多變形和變化而不脫離本發明的精神，希望所附的權利要求包括這些變形和變化而不脫離本發明的精神。
權利要求
1.一種語音撥號的實現方法，包括步驟接收呼入信號，以觸發提示用戶的語音提示；用戶根據所述語音提示，以語音方式應答；識別所述應答，并輸出所述識別結果對應的置信度；根據所述置信度確認處理場景，以處理所述用戶應答，獲取轉接的目標對應的終端；根據所述目標對應的終端轉接呼叫到目標電話；其中，所述根據所述置信度確認處理場景的步驟包括判斷所述置信度是否大于第一門限，如果大于，判斷是否僅一個識別結果，如果僅一個，確認識別的所述轉接目標正確；如果有多個，選擇其中之一為所述轉接目標；如果小于，要求用戶重新輸入話音或根據其它門限判決。
2.如權利要求1所述的方法，其中，所述根據其它門限判決的步驟包括判斷所述置信度是否大于第二門限，如果大于，判斷是否僅一個識別結果，如果僅一個，確認識別的所述轉接目標正確；如果有多個，選擇其中之一為所述轉接目標；如果小于，要求用戶重新輸入話音。
3.如權利要求1或2所述的方法，其中，還包括步驟，判斷是否所述轉接目標對應多個同名終端，如果有多個，選擇其中之一為所述對應的終端；如果有一個，確認其為所述對應的終端。
4.如權利要求1或2所述的方法，其中，所述選擇其中之一為所述轉接目標的步驟包括輸出多個可選項，并提示用戶選擇；用戶根據所述可選項選擇。
5.如權利要求4所述的方法，其中，在所述可選項沒有正確值時，用戶選擇取消或重新語音輸入。
6.如權利要求3所述的方法，還包括步驟，如果所述對應的終端沒有應答，轉接用戶預定的手機。
7.如權利要求1或2所述的方法，其中，所述第一門限為70，第二門限為60。
8.如權利要求1或2所述的方法，其中，所述根據其它門限判決的步驟包括判斷所述置信度是否小于第三門限，如果小于，拒識；如果大于，通過用戶確認所述轉接目標。
9.一種語音撥號的系統，用于實現如權利要求1-8的方法，所述系統包括存儲裝置，用于存儲需要識別的語音庫及對應信息；至少一個語音識別服務器，用于根據所述存儲裝置的信息識別用戶根據提示輸入的語音；語音撥號控制系統，用于控制所述存儲裝置與至少一個語音識別服務器的運行；其中，所述語音識別服務器根據識別結果對應的置信度確定轉接目標和終端。
10.如權利要求9所述的系統，還包括管理員端，用于在管理員與所述語音撥號控制系統之間交互；負載平衡系統，用于根據所述語音撥號控制系統的指令選擇所述至少一個語音識別服務器的負載較輕的之一進行語音識別。
全文摘要
本發明提供了一種語音撥號的實現方法和系統。方法包括步驟接收呼入信號，以觸發語音提示；用戶根據所述語音提示，應答；識別所述應答，并輸出對應的置信度；根據所述置信度確認處理場景，以處理所述用戶應答，獲取轉接的目標對應的終端；根據所述目標對應的終端轉接呼叫到目標電話。系統包括存儲裝置，用于存儲需要識別的語音庫及對應信息；至少一個語音識別服務器，用于根據所述存儲裝置的信息識別用戶根據提示輸入的語音；語音撥號控制系統，用于控制所述存儲裝置與至少一個語音識別服務器的運行；其中，所述語音識別服務器根據識別結果對應的置信度確定轉接目標和終端。本發明具有分布式的布局，誤轉率低，并且易于維護。
文檔編號H04M1/26GK1617554SQ20041000111
公開日2005年5月18日申請日期2004年1月20日優先權日2004年1月20日
發明者張繼勇, 任文捷, 孫文彥, 諸光申請人:聯想(北京)有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：張繼勇;任文捷;孫文彥;諸光
技術所有人：聯想（北京）有限公司
我是此專利的發明人

上一篇：一種基于voicexml的電話語音實時交互系統和方法
下一篇：符合ipmi規范的sol的實現方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.數字信號處理 2.傳感器技術及應用 3.機電一體化產品開發 4.機械工程測試技術 5.逆向工程技術研究
2、王老師：1.機器人 2.嵌入式控制系統開發
3、孫老師：1.振動信號時頻分析理論與測試系統設計 2.汽車檢測系統設計 3.汽車電子控制系統設計
4、畢老師：機構動力學與控制
5、袁老師：1.計算機視覺 2.無線網絡及物聯網
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！