專利名稱:具有智能糾錯功能的交互式虛擬教師系統的制作方法
技術領域:
本發明涉及一種虛擬教師系統,尤其涉及一種具有智能糾錯功能的交互式虛擬教師系統。適用于智能可視化互動人機對話學習平臺。
背景技術:
語音糾錯是語言學習和交流中的重要環節,也是人機對話教學需要解決的難點之一。理想狀態下,虛擬教師應具有充分的智能性,不僅能自主發現錯誤,還要分析其錯誤的根源,知道如何糾正,何時糾正,糾正同時考慮學習者的情感因素,這樣才能激發學習者的學習興趣和學習信心,提高教學效率。而目前市場上存在的軟件產品大多糾錯時機固定, 一旦發現學習者語音不達標,立刻糾正,不能根據學習者的情緒變化隨時調整;并且糾錯方式單一,只能針對某一確定官方標準語種,識別出學習者的語音,將其與標準語音做簡單的對比分析,然后采用打分的形式對發音進行評判,根據分數的高低判斷學習者的發音正誤, 如果系統認為發音有誤,則提供正確的發音示范,供學生反復跟讀練習,直至系統認為發音符合要求為止。這種糾錯示范方式存在的一個明顯弊端是,學習者必須具備良好的聽音辨音能力,才能獲得良好的糾錯效果,而事實上,大多數學習者需要長期訓練才能獲得這種能力,這就與系統的糾錯策略形成了一對矛盾體,學習者只能自己摸索發音差異,盲目的“模仿”學習,由于找不到發音差異和錯誤的真正根源,往往導致反復跟讀都不正確發音,長此以往,打擊學習者的自信心,造成了學習的厭煩和抵觸情緒。為了彌補上述缺點,一些產品增加了聲音波形對比圖或者發音的視覺演示圖,從視覺上提供個人語音與標準語音間的差異信息,雖然可以使學習者看到差異所在,但是并未用明確的文字信息告訴學習者如何改正。美國語言學家S. D. Krashen認為語言使用能力如口語,不是教出來的,而是隨著時間的推移,接觸大量的可理解語料之后自然獲得的,并且同樣也能獲得必要的語法。據此,本發明設計的糾錯評價模塊著重分析學習者語音錯誤的產生原因,虛擬教師的主要任務是向學習者提供可理解的文字信息,輔以多視角發音口型圖像同步示范,讓學習者明確發音差距及如何糾正,養成主動糾錯意識,有利于學習者養成良好的發音習慣,極大地提高語音糾錯效率,快速提高學習者的語言交流使用能力。此外現有產品的糾錯功能都依賴于語音識別的準確率,即使語音識別技術再出色,也不可能包容所有的干擾情況和類型。一旦由于環境噪聲的干擾或學習者明顯地域特色的發音使得系統的語音識別出現誤判,學習者的糾錯學習也會隨之出現偏差。 Q. Summerfield等通過實驗證明,在有噪背景下,與只提供聲音信息相比,同時提供聲音和同步的說話人臉視頻圖像,實驗對象對語言的理解正確率提高31%。即使在聲學環境良好的情況下,視覺信息的輔助也有利于語音的識別和學習。基于圖像處理的唇型識別技術通過說話人的口型變化識別出說話的內容,最早研究源于聽障者的學習,其后唇讀技術又用于情報獲取等場合,1984年Petajan提出了首個計算機唇讀系統,聽覺視覺語音識別(AVSR)研究開始受到廣泛關注,現有相關產品或專利使用范圍有限,主要針對語音殘障人群。而且該技術側重于語音口型的識別和演示輸出,沒有充分挖掘聲音圖像中隱含的關聯信息、分析探究會話中出現的錯誤根源及糾正方法,對說話人的情感識別關注也較少。本發明在語音識別的基礎上結合了基于圖像處理的唇型識別技術,對采集的音視頻信號分析處理,識別出學習者的語音口型和情感狀態,不僅最大限度地提高語音識別的準確性、魯棒性,而且根據學習者的情感和發音口型利用人工智能方法查找分析錯誤原因、 解釋錯誤、提供改正建議,自主調整糾錯時機和糾錯策略,增強了糾錯的有效性,拓展了各種人群的語音培訓和交互學習范疇。
發明內容
本發明為了解決傳統的人機對話教學通常只利用單純的語音識別技術,識別率低、抗噪能力差,語言培訓軟件產品主要還是處于特定行業的中英文語音合成信息和口語評測狀態,在智能糾錯互動方面無法滿足學習和交流需求的技術問題,提供了一種具有智能糾錯功能的交互式虛擬教師系統,它包括音視頻數據采集模塊、信息識別模塊、糾錯評價模塊、教學策略模塊和數據庫。所述音視頻數據采集模塊,通過視頻音頻兩路傳感器采集學習者面部圖像和聲音信號;再由信息識別模塊,辨識經融合后的學習者口型、發音內容和情感;由糾錯評價模塊,從標準口型發音數據庫中提取與之對應的標準口型和發音數據,自動評斷學習者的發音和口型,并在互動交流中,自主選擇恰當的時機反饋給學習者與標準發音口型間的差異信息、差異產生原因,指導學習者如何糾正;再由教學策略模塊根據糾錯評價模塊對學習者的評斷數據和情感狀態,制定出師生一對一互動的個性化教學實施方案, 形成具有智能糾錯功能的可視化互動人機對話學習平臺。本發明的特點及有益效果運用先進的語音識別技術和圖像識別技術實現具有智能糾錯功能的虛擬教師,形成智能可視化互動人機對話學習系統。該系統利用語音情感多源信息交融加上虛擬教師視頻交互糾正英語發音。將語音識別和基于視覺的圖像處理技術結合,提高了系統的識別率、魯棒性;此外,系統加入了動畫演示功能,實現交互模擬、實時溝通的學習模式,彌補了聲音教學的枯燥性,提高了學習的趣味性和準確性。該系統至少有三種語音輸出格式由學習者設定,并且能直接導入學習者自定義語音。學習者可存儲視頻對話文件,音頻對話文件和文本文件,以備查詢。學習者可以自定義輸入性別、年齡、地域、英語掌握程度等信息,減少程序判斷負擔。所述信息識別模塊在識別過程中包括語音信息、口型信息和情感信息的相互融合,結合預先輸入的學習者年齡、性別、民族和省份等信息學習的情緒,有效提高識別速率和準確率。語音和情感特征的融合研究表明語音信號中的音質特征也包含情感信息,情感不同發音方式及聲音韻律也不同,從而可以根據聲學特征參數識別人類的三種以上的基本情感,如高興,生氣,驚奇等。根據語音與情感的對應關系,一是判斷學習者當前的學習狀態及時改變教學內容;二是模擬各種情景,提供表演式朗誦范例或進行角色扮演。教學策略模塊根據學習者成績和學習者情緒自適應調整交互訓練學習的難度,若學習者情緒不高,降低交互學習訓練的難度;若學習者情緒積極,緩慢提高互學習訓練的難度;若學習者情緒平穩,保持交互學習訓練的難度;若學習者情緒積極,緩慢提高互學習訓練的難度。同時在動畫演示時加入情感激勵信息,鼓勵激發學習者的學習熱情。糾錯評價模塊實現了虛擬教師與學習者智能互動學習的過程虛擬教師根據學習者的發音口型判斷學習者的發音口型是否準確,結合專家知識庫,對偏差糾正調理,以文字形式反饋給學習者發音不準確的原因和改正辦法,并作標準的音像示范,學習者糾正發音的結果反饋回教師,教師再次進行識別判斷,根據當前觀測信號(即學習者發音口型)與標準信號(標準發音口型)之差遞進反饋,在線自適應調整,用文字聲音動畫多種形式明確偏差的差異點、差異度及如何糾正,力求將學習者的偏差控制在理想的容許范圍內,遞進式智能糾正觀測錯誤,形成完全自動閉環反饋模式的智能糾錯,如此循環往復,直至教師認為學習者的發音口型已經標準,本次學習內容結束,可以進入下一階段的學習。判定學習者發音口型已經合格的標準是將當前觀測信號與標準信號之差量化為百分制,各項分數達到95分以上為合格。包含的各項指標具體為口型分、發音分、情緒分、 綜合分,其中發音分還可進一步細分為聲學分數、韻律分數和感知分數三部分。各項分數可輸出到顯示屏,供學習者參考。同時虛擬教師將學習者的成績存入學習者檔案,作為今后教學策略調整的依據。糾錯評價模塊中,虛擬教師著重解決學習者由于受生活地域影響,語言發音中特有的不標準的發音習慣,虛擬教師,根據學習者地域特點可以預判學習者可能出現的語音錯誤,據此選擇相應的課程進行針對性指導。學習者可以根據自己的需要選擇虛擬教師作標準口型發音的三維多視角動畫示范,包括舌、齒等口腔內的細節演示。融入圖像特征,結合預先輸入的性別年齡等信息,軟件也可以自主選擇設計一個與學習者容貌和聲音特質相近的虛擬教師,同時可以實時將學習者的發音唇形疊加顯示到正確唇形上,直觀比較兩者差異,還可觀察虛擬教師與學習者的聲音波形對比圖,經過量化的口型發音的各項分數,配以教師指導意見和評語,形象直觀的了解自己發音不正確的原因、錯在哪里、如何糾正,糾正后的發音口型是否達到了教師的要求。所有的口型發聲表情演示及相關文字說明動態同步。融合區域發音特征。中國地域廣闊,各區域發言和發音特征顯著不同,適應各地發音習慣的語音和唇形語料極度缺乏,當前軟件一般只能保證官方語言說得好的用戶才可以在對話練習、發音糾錯方面取得相對滿意的成績,因此本發明建立不同地域發音習慣的語音和唇形語料數據庫,可以提高系統的適應性,對不同個體特征進行針對性的教學輔導。
圖1是本發明的整體結構示意圖;圖2是本發明中信息識別模塊的結構示意圖;圖3是本發明的發音口型差異解釋糾正流程圖;圖4是本發明的智能糾錯閉環反饋系統原理圖;圖5是本發明的閉環反饋控制系統框圖;圖6是本發明的RBF神經網絡模型結構。
具體實施例方式參看圖1,具有智能糾錯功能的交互式虛擬教師系統,它包括音視頻數據采集模塊、信息識別模塊、糾錯評價模塊、教學策略模塊和數據庫。通過所述音視頻數據采集模塊的視頻音頻兩路傳感器,采集學習者面部圖像和聲音信號;再由信息識別模塊,辨識經融合后的學習者發音內容,如口型,面部和心理情感;由糾錯評價模塊,從標準口型發音數據庫數據中提讀取與之對應的標準口型和發音數據,自動評斷學習者的發音內容、口型是否標準,根據偏差信息結合專家知識,確定偏差產生原因、所屬類型、改正方法,進而以文字說明的形式反饋給學習者,幫助其改正偏差,遞進式智能糾正學習者的音頻和視頻口型錯誤,同時虛擬教師輔以標準口型發聲多視角動畫演示、聲音波形對比圖、口型重合對比圖等形式直觀提示學習者如何正確發音,音像文字多種技術手段結合,錯誤根源分析、改正方法等的具體解釋說明與分數、評語、動畫演示動態同步,形成完全自動閉環反饋模式的智能糾錯; 再由教學策略模塊根據糾錯評價模塊對學習者的評斷數據,制定出師生一對一互動的個性化教學實施方案,讓學習者反復練習,以提高個人的語言會話水平,同時虛擬教師可根據學習者情緒和學習成績分析隨時調整教學內容。用于采集音頻和視頻信號的傳感器沒有特殊限定,可以是學習平臺自帶的,如智能手機本身帶有的攝像頭和錄音器,也可以是自配的攝像頭和麥克,只要其接口能與學習者使用的學習平臺匹配即可。攝像頭采集學習者的面部圖像,學習者可預設參數,確定采集的圖像分辨率,采集圖像范圍是整個面部還是只有唇部區域,系統默認采集區域為唇部區域;麥克采集學習者聲音。然后由信息識別模塊對采集到的聲音和圖像兩路原始信息進行預處理、唇部區域檢測、唇動跟蹤和定位、特征提取、特征融合、訓練進而識別出語音口型和情緒。參看圖2本發明中信息識別模塊的結構示意圖,做進一步描述。圖中虛線部分表示該部分不是必需處理的。對原始信息的預處理包括聲音和圖像兩路信息數字化預處理。其中圖像信息的預處理首先用圖像增強算法去除噪聲,然后根據采集模塊的預先設定值確定采集的圖像范圍是整個人臉還是唇部區域,若采集的是整個人臉,則需要首先從人臉中確定出唇部區域,本發明采用基于人臉結構特征的方法,首先確定眼睛和鼻孔的位置,再根據眼睛鼻孔的位置信息確定嘴唇的大致范圍,然后采用基于運動目標的檢測方法準確跟蹤定位發音時口型的運動變化過程。對聲音信息的預處理首先采用視覺通道的唇動信息區分語音和非語音信號時段,再利用去噪濾波技術去除信道噪聲和所有可能的背景加性噪聲,獲得盡可能純凈的學習者聲音信號。預處理后的圖像和聲音信號提取特征供系統訓練識別,提取的特征信息包括初級特征語音特征、唇型特征、面部特征(采集的圖像范圍是整個人臉時)和高級特征情感特征;其中初級特征是從預處理后的音頻視頻傳感器采集的語音圖像信息中提取出來的,高級特征不能從傳感器采集的信息中直接獲得,而是各初級特征中的隱含信息,由基于專家知識的信息融合技術生成的。各初級特征中語音特征具體包括聲學特征、韻律特征和感知特征三類特征,例如反應基本聲音信息的LPCC(Linear Predictive Cepstral Coefficient,線性預測倒譜系數)特征參數、MFCC (Mel Frequency Cepstral Coefficient,梅爾頻率倒譜系數)特征參數,與情感、唇動相關的一次共振峰和二次共振峰、能量、說話速率等特征參數;唇型特征包括與語音、情感相關的內外唇唇線輪廓特征、嘴唇變化速率、人臉側面圖像的嘴唇突出度動態變化特征、口腔內的舌頭和牙齒位置變化特征等;面部特征包括眼睛、鼻子、口型的整體輪廓關系特征,面部特征不是必需提取的特征, 但如果學習平臺的傳感器能保證采集圖像分辨率的要求,則加入該特征可進一步提高虛擬教師識別學習者情感的識別準確率和識別速度。高級特征情感特征由學習者的聲學特征、 韻律特征和感知特征、唇線輪廓特征隱含的潛在信息和面部特征融合而成的。訓練識別采用人工智能神經網絡方法,首先建立訓練集樣本訓練網絡,建立朗讀內容與語音、唇型、面部表情、心理情感間的對應關系,網絡訓練好后,即可用于識別任務,將使用者的所有特征作為多權值神經元網絡的輸入層,輸出層為要識別的內容,使得虛擬教師可以實時準確地識別出學習者當前的發音內容、發音口型、情感狀態,即完成語音口型情感三重識別。虛擬教師將識別出的學習者發音與之對應的口型變化和當前情緒作為一個整體記錄,并輸出到糾錯評價模塊,以便與標準發音和口型比較尋找差異、分析解釋錯誤原因、錯誤所屬類型、 改正方法,同時參考學習者情緒,給出發音口型修正建議,評價分數和直觀的多視角發音口型演示比對圖。參看圖3本發明的發音口型差異解釋糾正流程圖,本發明的糾錯重點是自主分析錯誤根源,提供改正意見,指導學習者有意識的修正不準確的發音口型。具體描述如下,首先把識別出的學習者的語音口型和標準的語音口型的所有特征參數放在一起分類比較,尋找它們之間的差異點并計算差異度,如果差異度超過了容忍的閾值范圍,則認為學習者的語音口型錯誤或不標準,需要糾正;然后根據差異點利用專家知識對錯誤進行描述,最后解釋錯誤,其中解釋錯誤的關鍵是根據描述結果分析錯誤的根源,屬于什么類型,回答為什么會犯這樣的錯誤,如何改正。參看圖4本發明糾錯評價模塊中的智能糾錯閉環反饋系統原理圖,從數學模型的角度對發音口型差異解釋糾正流程做進一步描述。圖4中y(t)為當前觀測信號,即識別出的學習者聲音和口型;r(t)為標準信號,即數據庫中給定的標準聲音和口型;e(t)為觀測信號與標準信號的差,即偏差信號。該系統的關鍵在于根據當前觀測信號與標準信號之差, 確定差異點和差異度,進而結合專家知識描述錯誤、解釋錯誤,即將量化的差異數字信息轉化為對應的可以理解的文字信息,把學習者錯誤產生原因、所屬類型、改進方法遞進反饋給學習者,指導其縮短與標準口型發音間的偏差、遞進式智能改正學習者的聲音和口型錯誤, 達到完全自動閉環反饋模式的智能糾錯。具體數學模型及智能控制糾錯算法如下(l)e (t) = y(t)-r(t)(1)(2)E(s) =L[e(t)],L 為拉普拉斯變換(2)(3) Y (s) = G(S)E(S)(3)(4) y (t) = L—1 [Y (S) ],L—1 為拉普拉斯變換(4)(5)返回(1) e(t)可以歸類為兩組偏差信號視頻信號偏差包括唇,喉,舌,牙齒和氣流特征參數的偏差、具體特征參數包括嘴唇的開合度、寬度,舌、齒與嘴唇的位置形狀因子等靜態特征和舌、唇收縮度等動態變化特征;音頻偏差包括LPCC、MPCC的偏差等。對e(t)中的所有元素計算偏差容許度,其計算公式為偏差與標準信號比值的百分率,如果任一項的偏差容許度大于等于5%,則認為學習者的發音或口型不準確,需要糾正,智能糾錯的根本在于對各個信號誤差的糾正調理過程,公式表示為
權利要求
1.具有智能糾錯功能的交互式虛擬教師系統,它包括音視頻數據采集模塊、信息識別模塊、糾錯評價模塊、教學策略模塊和數據庫,其特征在于所述音視頻數據采集模塊,通過視頻音頻兩路傳感器采集學習者面部圖像和聲音信號;再由信息識別模塊,辨識經融合后的學習者口型,發音內容和情緒;由糾錯評價模塊,從標準口型發音數據庫中提讀取與之對應的標準口型和發音數據,自動評斷學習者的發音內容、發音口型,智能分析發音不準確的原因,并提供修正發音的方法,同時多視角動畫示范正確的發音和口型;再由教學策略模塊根據糾錯評價模塊對學習者的評斷數據,制定出師生一對一互動的個性化教學實施方案, 形成智能可視化互動人機對話學習系統。
2.根據權利要求1所述的具有智能糾錯功能的交互式虛擬教師系統,其特征在于所述視頻音頻兩路傳感器,通過預設參數,確定所采集的學習者面部圖像分辨率和所要采集的面部區域。
3.根據權利要求1所述的具有智能糾錯功能的交互式虛擬教師系統,其特征在于所述糾錯示范模塊,通過建立閉環智能反饋控制系統,自動決定糾錯方式和時機,提供修正口型和發聲方法的指導意見,并通過文字解釋和圖像形象顯示兩者的差異性。
4.根據權利要求1所述的具有智能糾錯功能的交互式虛擬教師系統,其特征在于所述信息識別模塊提供將語音、情感及口型相互融合的數據。
5.根據權利要求1所述的具有智能糾錯功能的交互式虛擬教師系統,其特征在于所述糾錯評價模塊,根據信息識別模塊提供的學習者口型和發聲的缺陷數據,將學習者多視角的面部圖像疊加到對應視角的虛擬教師的面部圖像上,通過輸出設備形象觀察差異點, 輔助口型糾正。
6.根據權利要求1所述的具有智能糾錯功能的交互式虛擬教師系統,其特征在于所述教學策略模塊,由虛擬教師根據評價參數和學習者口型和發聲的缺陷數據和學習者情緒數據調整教學策略,制定個性化教學方案數據。
7.根據權利要求1所述的具有智能糾錯功能的交互式虛擬教師系統,其特征在于所述虛擬教師,根據性別,年齡,地域,面貌和發音聲線特征而不同,供學習者根據自己喜好及自身特點自由選擇。
8.根據權利要求7所述的具有智能糾錯功能的交互式虛擬教師系統,其特征在于所述虛擬教師所有的口型發聲表情演示及相關文字說明動態同步。
9.根據權利要求1所述的具有智能糾錯功能的交互式虛擬教師系統,其特征在于所述信息識別模塊的工作流程為對采集到的聲音和圖像兩路原始信息進行預處理、唇部區域檢測、唇動跟蹤和定位、特征提取、特征融合、訓練及語音唇型情緒識別。
10.根據權利要求1所述的具有智能糾錯功能的交互式虛擬教師系統,其特征在于所述虛擬教師,根據學習者地域特點可以預判學習者可能出現的語音錯誤,據此選擇相應的課程進行針對性指導。
全文摘要
具有智能糾錯功能的交互式虛擬教師系統是為解決目前人機對話教學只限于語音合成信息和口語評測,在學習和交流中無法滿足智能糾錯互動需求的技術問題而設計的。它包括音視頻數據采集、信息識別、糾錯評價及教學策略等模塊。由視音頻兩路傳感器,采集學習者面部圖像和聲音信號;再由信息識別模塊辨識經融合后的學習者口型、發音和情感;糾錯評價模塊自動評斷學習者發音口型,檢測與標準發音口型數據庫中的標準數據間的差異,自主選擇恰當時機,指明發音不正確的原因和改正方法,提供正確的發音口型及動畫示范;再由教學策略模塊根據評斷數據和情感狀態制定出師生一對一互動的個性化教學實施方案。利用語音情感多源信息交融,與虛擬教師視頻交互智能糾錯、模擬,實現實時溝通,動畫演示。提高了聲音教學準確性。
文檔編號G09B5/06GK102169642SQ201110085339
公開日2011年8月31日 申請日期2011年4月6日 優先權日2011年4月6日
發明者任濤, 劉洋, 李一波, 王志怡, 王揚揚 申請人:李一波