基于VoiceXML移動終端語音交互方法及移動終端的制作方法

文檔序號：2832221閱讀：291來源：國知局

專利名稱：基于VoiceXML移動終端語音交互方法及移動終端的制作方法
技術領域：
本發明涉及通信領域，具體而言，涉及一種基于VoiceXML移動鄉冬端i吾音交互方法及移動終端。
背景技術：
隨著手機等移動終端越來越智能化，人機交互成為發展的趨勢，用戶希望自己的手機就像一個小秘書，可以通過簡單的人機交互來代替具體復雜的操作。
目前，已經存在簡單的人4幾交互形式，即，利用對-活"告訴" 手才幾要撥號通話，這種方式語音交互生^更，并且必須4要既定流程對話，智能性較差，缺乏跨平臺移植的靈活性。
基于可才廣展才示i己"i吾言(Extensible Markup Language, 簡一爾為 XML )的特殊文檔結構VoiceXML (語音XML )，是一種應用于語音瀏覽的標記語言，能夠將用戶交互作用的代碼從服務邏輯中分離出來，利用VoiceXML文檔，可以開發更加接近于人類語言的交互系統，增加語音交互的智能化，并且開發出的交互系統能夠適用于多種應用平臺。
但是，針對語音交互技術智能性差且不能夠跨平臺移植的問題，相關技術中尚未提出有效的技術方案。

發明內容
考慮到相關技術中語音交互技術智能性差且不能夠跨平臺移植的問題而提出本發明，為此，本發明的主要目的在于提供一種基于
VoiceXML的移動終端i吾音交互方法及移動終端，以解決坤目關4支術中存在的上述問題至少之一。
為了實現上述目的，根據本發明的一個方面，提供了一種基于 VoiceXML移動纟冬端i吾音交互方法。
根據本發明的基于VoiceXML的移動終端語音交互方法包括將接收的語音信息轉換為VoiceXML文檔，根據預先配置的 VoiceXML文檔才醫架解4斤VoiceXML文檔，查找VoiceXML文檔對應的語音信息需要實現的功能信息，其中，VoiceXML文檔框架中包括至少一個功能信息以及對應的VoiceXML文檔；將查找到的功能信息映射為人機接口的具體功能對應的功能，并將映射后的功能通^口l會人才幾-接口；只t來自人才A4妄口的回應4言息進4亍VoiceXML回應文檔轉換處理，并將轉換結果通過相應的語音信息進行播放。
優選地，將^t妄收的語音信息轉換為VoiceXML文檔包^r:通過基于VoiceXML的語音識別4是取語音信息中的識別的文本，將才是取的文本組合為VoiceXML文檔。
優選地，才艮據預先配置的VoiceXML文檔沖匡架解析VoiceXML 文檔包括確定VoiceXML文檔的關鍵節點，在VoiceXML文檔框
架中查找相應的關鍵節點，并將查找到的關鍵節點對應的有效數據作為語音信息需要實現的功能信息。
優選地，將查找到的功能信息映射為人機接口的具體功能對應的功能包括將查找到的功能信息映射為人機接口能夠執行的相應功能函凄t和函數參凄史信息，并將映射后的功能函lt和函凄t參H信息作為映射后的功能。
^尤選i也，7十來自人才幾*接口的回應^f言息進4亍VoiceXML回應文才當轉換處理，并將轉換結果通過相應的語音信息進行播放包括將來自人才A4妾口的回應4言息壽爭4灸為VoiceXML回應文才當；^是取VoiceXML 回應文檔中的語音信息，通過基于VoiceXML的語音合成合成為語音信息進行播放。
根據本發明的另一方面，還提供了一種移動終端。
根據本發明的移動終端包括人機接口功能模塊，并且，該移動終端還包括交互功能界面模塊，用于將接收的語音信息轉換為 VoiceXML文檔，并將VoiceXML回應文檔的轉纟灸結果通過相應的語音信息進行播放；功能映射模塊，用于4艮據預先配置的VoiceXML 文檔框架解析VoiceXML文檔，查找VoiceXML文檔對應的語音信息需要實現的功能信息，將查找到的功能信息映射為人機接口功能才莫塊的具體功能對應的功能，并將映射后的功能通知纟合人4幾4妄口功能模塊，還用于對來自人機接口功能模塊的回應信息進行 VoiceXML回應文檔轉換處理，并將轉換結果發送至交互功能界面模塊。
優選地，交互功能界面模塊包括交互界面，用于接收來自用戶的語音信息，將該語音信息發送至語音識別模塊，并播放來自語音合成模塊的語音信息；語音識別才莫塊，用于通過基于VoiceXML 的語音識別提取來自交互界面的語音信息，并轉換為對應的文本信息，將對應的文本信息組合為VoiceXML文檔；語音合成才莫塊，用于提取來自功能映射模塊的VoiceXML回應文檔中的語音信息，通過基于VoiceXML的語音合成合成語音〗言息。優選地，功能映射模塊包括配置纟莫塊，用于配置VoiceXML 文檔框架，其中，VoiceXML文檔框架中包括至少一個功能信息以及對應的VoiceXML文檔；VoiceXML解析器，用于確定來自語音識別才莫塊的VoiceXML文檔的關鍵節點，在VoiceXML文檔框架中查找相應的關鍵節點，并將查找到的關鍵節點對應的有效數據作為語音信息需要實現的功能信息，還用于將來自功能交互模塊的回應信息進行VoiceXML回應文檔轉換處理；功能交互模塊，用于將查找到的功能信息映射為人機接口功能^^莫塊對應的功能，將映射后的功能通知給人機接口功能模塊，并接收來自人機接口功能模塊的回應4言息。
優選地，功能交互模塊映射的人機接口功能模塊對應的功能，為人機接口功能模塊能夠執行的相應功能函數和函數參數信息。
^昔助于本發明的上述4支術方案，通過在移動終端的專id牛MMI 層增加交互功能界面模塊和功能映射模塊，解決了相關技術中語音交互技術智能性差且不能夠跨平臺移植的問題，能夠實現高智能化的復雜語音交互，并且，根據本發明實施例的技術方案適用于多種平臺，提高了語音交互的可移植性。

此處所i兌明的附圖用來^是供對本發明的進一步理解，構成本申請的一部分，本發明的示意性實施例及其說明用于解釋本發明，并不構成對本發明的不當限定。在附圖中
圖1是根據本發明實施例的移動終端的框圖2是才艮據本發明實施例的一個優選結構的框圖3是才艮據本發明實施例的另一優選結構的框圖；圖4是才艮據本發明實施例的基于VoiceXML的移動終端語音交互方法的流禾呈圖5是根據本發明實施例的基于VoiceXML的移動終端語音交互方法的優選處理方案的流程圖。
具體實施例方式
功能相無述
本發明的主要思想是將接收的語音信息轉換為VoiceXML文檔，才艮據預先配置的VoiceXML文檔框架解析VoiceXML文檔，查找VoiceXML文檔對應的語音信息需要實現的功能信息；將查找到的功能信息映射為人機接口的具體功能對應的功能，并將映射后的功能通知給人機4妄口；對來自人機接口的回應信息進行VoiceXML 回應文檔轉換處理，并將轉換結果通過相應的語音信息進4于4番;^。通過本發明，能夠實現高智能化的復雜語音交互，并且，根據本發明實施例的技術方案適用于多種平臺， -提高了語音交互的可移植性。
以下結合附圖對本發明的優選實施例進行說明，應當理解，此處所描述的優選實施例僅用于說明和解釋本發明，并不用于限定本發明。如果不沖突，本發明實施例及實施例中特征可以相互組合。
裝置實施例
根據本發明實施例，提供了一種移動終端。
圖1是才艮據本發明實施例的移動終端的框圖。如圖l所示，該移動終端包括:交互功能界面才莫塊10和功能映射模塊20。
下面詳細描述移動終端中各個模塊的功能。交互功能界面才莫塊10,用于將接收的語音信息轉換為 VoiceXML文檔，并^l奪VoiceXML回應文檔的壽爭才奐結果通過相應的語音信息進行播放；
功能映射模塊20，連接至交互功能界面模塊10，用于根據預先配置的VoiceXML文檔框架解析VoiceXML文檔，查找VoiceXML 文檔對應的語音信息需要實現的功能信息，將查找到的功能信息映射為人機接口功能模塊的具體功能對應的功能，并將映射后的功能通知給人機接口功能模塊，還用于對來自人機接口功能模塊的回應信息進行VoiceXML回應文檔轉換處理，并將轉換結果發送至交互功能界面模塊。
圖2示出了 4艮據本發明實施例的交互功能界面才莫塊10和功能映射才莫塊20在移動終端中的相應位置，如圖2所示，移動終端的人才幾接口 ( Man Machine Interface,筒稱為MMI)層包4舌MMI功能才莫塊，才艮據本發明實施例，在移動終端的MMI層增加了交互功能界面才莫塊10和功能映射一莫塊20。
圖3是根據本發明實施例的另一優選結構的框圖。如圖3所示，在圖1所示結構的基礎上，根據本發明實施例的交互功能界面模塊 10進一步包4舌交互界面110, "i吾音識別才莫塊120， i吾音合成才莫塊 130，其中
交互界面110,用于接收來自用戶的語音信息，將該語音信息發送至語音識別模塊，并播放來自語音合成模塊的語音信息；
語音識別才莫塊120，連4妄至交互界面110,用于通過基于 VoiceXML的語音識別提耳又來自交互界面的語音信息中的識另'J的文本，將纟是取的述文本組合為VoiceXML文檔；語音合成模塊130，連接至交互界面110,用于提取來自功能映射才莫塊的VoiceXML回應文檔中的語音信息，通過基于VoiceXML 的語音合成合成語音信息。
并且，功能映射模塊20進一步包括配置模塊210, VoiceXML 解析器220，功能交互才莫塊230，其中
配置才莫塊210，用于配置VoiceXML文檔沖匡架，其中，VoiceXML 文檔框架中包括至少一個功能信息以及對應的VoiceXML文檔；
VoiceXML解析器220，連接至配置模塊210,用于確定來自語音識別才莫塊的VoiceXML文檔的關4建節點，在VoiceXML文檔4匡架中查找相應的關鍵節點，并將查找到的關鍵節點對應的有效數據作為語音信息需要實現的功能信息，還用于將來自功能交互模塊的回應信息進行VoiceXML回應文檔轉換處理；
功能交互模塊230,連接至VoiceXML解析器220，用于將查
找到的功能信息映射為MMI功能模塊對應的功能，將映射后的功能通知給MMI功能模塊，并接收來自MMI功能模塊的回應信息。優選地，功能交互模塊映射的MMI功能模塊對應的功能，為MMI 功能模塊能夠執行的相應功能函數和函數參數信息。
根據本發明的上述實施例，通過在移動終端的MMI層增加交互功能界面模塊和功能映射模塊，實現了高智能化的復雜語音交互，能夠實現正常的呼叫、發送短信、操作名片夾等操作功能；并且，根據本發明實施例提供的模塊可以跨平臺移植，語音交互開發人員只需編寫各種各才羊的VoiceXML文檔4匡架，就能實現不同的通信邏輯交互，提高了語音交互的可移植性。根據本發明的上述實施例，通過在移動終端增加交互功能界面
模塊和功能映射模塊，實現了基于VoiceXML的人機交互，能夠提高語音交互的智能化以及語音交互的可移才直性。
方法實施例
圖4是根據本發明實施例的基于VoiceXML的移動終端語音交互方法的流程圖。該方法可以實現上述裝置實施例所4是供的移動終端。
需要說明的是，在以下方法中描述的步驟可以在諸如一組計算機可執行指令的計算機系統中執行，并且，雖然在圖4中示出了邏輯順序，^旦是在某些情況下，可以以不同于此處的順序執4亍所示出或描述的步驟。如圖4所示，該方法包括以下處理(步驟S402-步驟S406 ):
步驟S402，將接收的語音信息轉換為VoiceXML文檔，根據預先配置的VoiceXML文檔沖匡架解沖斤VoiceXML文檔，查找VoiceXML 文檔對應的語音信息需要實現的功能信息，其中，VoiceXML文檔框架中包括至少一個功能信息以及對應的VoiceXML文檔。
通過基于VoiceXML的語音識別^是取接收的語音信息中的識別的文本，將提取的文本組合為VoiceXML文檔，確定VoiceXML文檔的關4定節點，在VoiceXML文檔框架中查找相應的關4定節點，并將查找到的關鍵節點對應的有效數據作為語音信息需要實現的功能信息。
步驟S404,將查找到的功能信息映射為人機接口的具體功能對應的功能，并將映射后的功能通知給人才幾接口。將查找到的功能信息映射為人機接口能夠執行的相應功能函數和函數參數信息，并將映射后的功能函數和函數參數信息作為映射后的功能。
步艱《S406，》于來自人才A4妄口的回應4言息進4亍VoiceXML回應文檔轉換處理，并將轉換結果通過相應的語音信息進行播放。
將映射后的功能通知給人機接口后，人才幾接口根據該功能進行相應的操作，可以通過交互界面顯示操作的結果，之后，人機接口返回纟喿作的回應^f言息，卩尋該回應4言息轉^奐為VoiceXML回應文檔，才是耳又VoiceXML回應文檔中的"i吾音信息，通過基于VoiceXML的i吾音合成合成為語音信息進行播放。
下面以^安姓名撥號為例詳細描述才艮據本發明實施例的4支術方案。圖5是根據本發明實施例的基于VoiceXML的移動終端語音交互方法的優選處理方案的流程圖。如圖5所示，具體包括以下步驟
步驟S502,移動終端已經正常開才幾，并進入待機狀態，此時語音交互才莫塊已經正常啟動，等4寺用戶'H兌出"需要的通訊功能。
步-驟S504,用戶告訴移動終端對某個姓名撥號，MMI層交互界面模塊獲取話音提示，通過基于VoiceXML的語音識別提取識別的文本，纟且合成只于應的VoiceXML文檔。
步驟S506， VoiceXML解析器解析該VoiceXML文檔，根據預先配置的VoiceXML文檔框架提取VoiceXML文檔的實現功能信息，將VoiceXML文檔框架中各節點對應功能，節點內信息對應操作的內容，作為一個整體的結構傳遞到功能交互模塊。
步驟S508,功能交互模塊根據解析器傳遞過來的結構映射為對應的功能函數及函數入參信息；實現將具體功能映射到對應MMI 功能實現才莫塊，完成功能實現。步驟S510, MMI功能模塊完成功能實現之后，發送回應給功能交互模塊，功能交互模塊打包為對應的回應結構，傳遞到解析器。
步驟S512,解析器作為橋梁，將回應結構轉換為VoiceXML格式的統一回應文檔，傳遞到i吾音合成才莫塊。
步驟S514，語音合成模塊根據VoiceXML文檔的結構性特點，提取語音信息；將語音信息合成為語音(根據文檔結構特點，可以進4亍相應的語音、i吾調及語速和4亭頓的處理，^吏交互更加流暢)，通過交互界面插^文《合用戶，同時終端界面按功能顯示相應狀態。
圖5示出了4艮據本發明實施例的正常情況下的一次完整的語音交互操作。
綜上所述，借助于本發明的上述纟支術方案，通過在移動終端的軟件MMI層增加交互功能界面模塊和功能映射模塊，能夠實現高智能化的復雜語音交互，并且，根據本發明實施例的技術方案適用于多種平臺，提高了語音交互的可移植性。
顯然，本領域的技術人員應該明白，上述的本發明的各模塊或各步驟可以用通用的計算裝置來實現，它們可以集中在單個的計算裝置上，或者分布在多個計算裝置所組成的網絡上，可選地，它們可以用計算裝置可執行的程序代碼來實現，從而，可以將它們存儲
在存儲裝置中由計算裝置來執行，或者將它們分別制作成各個集成電路模塊，或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現。這樣，本發明不限制于任何特定的硬件和軟件結合。
以上所述僅為本發明的優選實施例而已，并不用于限制本發明，對于本領域的技術人員來說，本發明可以有各種更改和變化。凡在本發明的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本發明的保護范圍之內。
權利要求
1.一種基于語音可擴展標記語言VoiceXML移動終端語音交互方法，其特征在于，包括將接收的語音信息轉換為VoiceXML文檔，根據預先配置的VoiceXML文檔框架解析所述VoiceXML文檔，查找所述VoiceXML文檔對應的所述語音信息需要實現的功能信息，其中，所述VoiceXML文檔框架中包括至少一個功能信息以及對應的VoiceXML文檔；將查找到的所述功能信息映射為人機接口的具體功能對應的功能，并將映射后的功能通知給所述人機接口；對來自所述人機接口的回應信息進行VoiceXML回應文檔轉換處理，并將轉換結果通過相應的語音信息進行播放。
2. 根據權利要求1所述的方法，其特征在于，將接收的語音信息轉換為VoiceXML文檔包括通過基于VoiceXML的語音識別提取所述語音信息中的識別的文本，將提耳又的所述文本組合為所述VoiceXML文檔。
3. 根據權利要求2所述的方法，其特征在于，根據預先配置的 VoiceXML文檔框架解析所述VoiceXML文檔包括確定所述VoiceXML文檔的關4建節點，在所述VoiceXML 文檔框架中查找相應的關鍵節點，并將查找到的所述關鍵節點對應的有效數據作為所述語音信息需要實現的功能信息。
4. 根據權利要求3所述的方法，其特征在于，將查找到的所述功能信息映射為所述人機接口的具體功能對應的功能包括將查找到的所述功能信息映射為所述人機接口能夠執行的相應功能函數和函數參數信息，并將映射后的所述功能函數和所述函數參數信息作為映射后的所述功能。
5. 根據權利要求4所述的方法，其特征在于，對來自所述人機接口的回應信息進行VoiceXML回應文檔轉換處理，并將轉換結果通過相應的語音信息進行播放包括將來自所述人4幾*接口的所述回應信息轉:換為所述 VoiceXML回應文檔；提取所述VoiceXML回應文檔中的語音信息，通過基于 VoiceXML的語音合成合成為所述語音信息進行播;故。
6. —種移動終端，包括人機接口功能模塊，其特征在于，還包括交互功能界面模塊，用于將接收的語音信息轉換為 VoiceXML文檔，并將VoiceXML回應文檔的轉換結果通過相應的語音信息進行播放；功能映射才莫塊，用于根據預先配置的VoiceXML文檔框架解析所述VoiceXML文檔，查找所述VoiceXML文檔對應的所述語音信息需要實現的功能信息，將查找到的所述功能信息映射為人機接口功能模塊的具體功能對應的功能，并將映射后的功能通知給所述人機接口功能模塊，還用于對來自所述人機接口功能一莫塊的回應信息進行VoiceXML回應文檔轉換處理，并將轉換結果發送至所述交互功能界面模塊。
7. 根據權利要求6所述的移動終端，其特征在于，所述交互功能界面模塊包括交互界面，用于接收來自用戶的所述語音信息，將該語音信息發送至語音識別模塊，并播放來自語音合成模塊的語音信自'-所述語音識別才莫塊，用于通過基于VoiceXML的語音識別提取來自所述交互界面的語音信息中的識別的文本，將提取的述文本組合為所述VoiceXML文檔；所述語音合成模塊，用于提取來自所述功能映射模塊的所述VoiceXML回應文檔中的語音信息，通過基于VoiceXML的 i吾音合成合成所述i吾音信息。
8. 根據權利要求7所述的移動終端，其特征在于，所述功能映射模塊包括配置才莫塊，用于配置所述VoiceXML文檔框架，其中，所述VoiceXML文檔框架中包括至少一個功能信息以及對應的 VoiceXML文檔；VoiceXML解析器，用于確定來自所述語音識別才莫塊的所述VoiceXML文檔的關4建節點，在所述VoiceXML文檔框架中查找相應的關4建節點，并將查找到的所述關4建節點對應的有效數據作為所述語音信息需要實現的功能信息，還用于將來自功能交互才莫塊的回應信息進行VoiceXML回應文檔轉換處理；所述功能交互模塊，用于將查找到的所述功能信息映射為人機接口功能模塊對應的功能，將映射后的功能通知給所述人機接口功能模塊，并接收來自所述人機接口功能模塊的回應信息。
9. 根據權利要求8所述的移動終端，其特征在于，所述功能交互模塊映射的所述人機接口功能模塊對應的功能，為所述人機接口功能模塊能夠執行的相應功能函數和函數參數信息。
全文摘要
本發明公開了一種基于VoiceXML移動終端語音交互方法及移動終端，在上述方法中，將接收的語音信息轉換為VoiceXML文檔，根據預先配置的VoiceXML文檔框架解析VoiceXML文檔，查找VoiceXML文檔對應的語音信息需要實現的功能信息；將查找到的功能信息映射為人機接口的具體功能對應的功能，并將映射后的功能通知給人機接口；對來自人機接口的回應信息進行VoiceXML回應文檔轉換處理，并將轉換結果通過相應的語音信息進行播放。根據本發明提供的技術方案，能夠實現高智能化的復雜語音交互，并可以提高語音交互的可移植性。
文檔編號G10L15/22GK101527755SQ200910130320
公開日2009年9月9日申請日期2009年3月30日優先權日2009年3月30日
發明者彭海勇, 楊學森, 連東洲, 光陳申請人:中興通訊股份有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：連東洲;楊學森;彭海勇;陳光
技術所有人：中興通訊股份有限公司
我是此專利的發明人

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！