一種基于空間聲的人機交互方法和系統的制作方法
【技術領域】
[0001 ]本發明涉及人機交互領域,具體涉及一種基于空間聲的人機交互方法和系統。
【背景技術】
[0002] 用戶消費多媒體內容時,常常通過顯示設備(計算機屏幕,移動設備屏幕,虛擬現 實顯示屏幕)來欣賞視頻,通過立體聲耳機欣賞音頻內容。彈幕是近年來興起的一種在屏幕 上實時顯示用戶評論的方式,可以給觀眾一種"實時互動"的錯覺。
[0003] 彈幕作為用戶對視頻內容的實時評論,可以有效的提升用戶的興趣,增加用戶的 粘性。但同時傳統彈幕用文字的方式也帶來遮擋視頻內容的弊病,一些不合時宜的彈幕也 會降低觀眾對于視頻的注意力。
[0004] 在用虛擬現實設備觀看內容時,如常見的虛擬影院模式,用戶置身于一個虛擬影 院環境中,前方是電影的大屏幕。在此場景中,如果使用聲音評論則會提升臨場感,并降低 用戶孤獨感,當然,在觀看普通電影時,只要戴著立體聲耳機,用戶也可以使用語音彈幕。
[0005] 在用虛擬現實設備觀看全景視頻內容時,語音彈幕可以起到引導用戶更有效的觀 看視頻的作用。這也是傳統基于文字的彈幕所不具備的。這要求播放語音評論時空間聲的 方位和錄制時的方位是一致的(在這里方位是指用戶觀看全景視頻的方位)。比如,用戶在 觀看第一個方向的視頻內容是,有來自左側90度方向的語音評論,則用戶就會被引導向左 轉頭90度去觀看相應的視頻內容。相應的播放模塊需要旋轉聲場使得原來90度的語音評論 聽起來是來自正前方。如何實現上述功能,目前還沒有比較有效的解決方案。
【發明內容】
[0006] 本發明主要解決的技術問題是提供一種基于空間聲的人機交互方法和系統,利用 改變聲音的雙耳聲級差和雙耳時間差,生成基于雙耳的空間聲,實現聲音在三維空間中的 定位,引導用戶更有效的觀看全景視頻,從而提升用戶的興趣。
[0007] 為解決上述技術問題,本發明采用如下技術方案:
[0008] -種基于空間聲的人機交互的方法,其特征在于,包括如下步驟:
[0009] 步驟Sl,通過客戶端麥克風錄入客戶聲音,,對錄入的所述聲音數據進行初級篩 選,獲取聲音數據;
[001 0]步驟S2,將所述聲音數據上傳到服務器端;
[0011] 步驟S3,所述服務器端對接收到的所述語音數據進行分析和整合;
[0012] 步驟S4,對所述語音數據進行空間聲生成渲染;
[0013] 步驟S5,通過所述客戶端的播放端播放所述語音數據,生成空間聲彈幕。
[0014] 進一步,所述步驟1在錄入所述聲音數據的同時記錄如下信息:
[0015]語音錄制時間:用于后期對語音排序使用;
[0016] 在錄制時相應視頻內容的時間:用于確定語音被回放的時間點;
[0017] 使用的是虛擬現實設備觀看全景視頻時,還需要記錄所述語音數據錄入時觀看視 角。
[0018] 進一步,所述步驟3中所述分析和整合包括:
[0019] 對所述語音數據進行篩選,包括使用語音識別、關鍵詞審查、音頻分析技術去除噪 音過大和含有不雅詞匯;
[0020] 對所述語音數據進行優先級排序;
[0021] 生成播放列表,包括文件名和相關的元數據,用來表明語音文件的播放時間及空 間位置。
[0022]進一步,所述語音數據優先級排序規則為所述語音數據物理性質適宜播放,VIP會 員,評論內容與視頻內容相關性和評論的新舊程度。
[0023]進一步,所述步驟S4中所述空間聲生成渲染方法為:
[0024] 根據所述步驟Sl中所述聲音數據錄音時記錄下的時間和觀看視角,改變聲音的雙 耳聲級差和雙耳時間差,生成基于雙耳的空間聲,實現聲音在三維空間中的定位。
[0025] 進一步,所述聲音數據錄音時記錄下的時間和觀看視角可以在所述服務器端根據 需求修改。
[0026] 進一步,在所述空間聲生成渲染方法中使用頭部相關傳遞函數(HRTF)濾波器,獲 得對聲音在三維感知空間中更為真實的模擬,所述HRTF濾波器系數可以通過測量或使用數 學模型來獲得,分為左耳和右耳的傳遞函數;
[0027] 對于一個音源S,放在空間中Θ角度,所述Θ角度根據所述觀看視角確定,則所述音 源S雙耳化過程為:
[0029]其中,Ηι,θ,Ηγ,θ為對應角度Θ的左右耳的HRTF;
[0030]對于多個音源
^則會把分別的雙耳化結果
(i = 1,2......N)相加,所述 多個音源
的雙耳化過程用矩陣形式表示為:
[0032]進一步,所述步驟S4中所述空間聲生成渲染在所述服務器端或客戶端進行,
[0033] 在所述服務端進行時生成的空間聲是固定的,所述播放端不需要實時交互;
[0034] 在所述客戶端進行時所述客戶端的播放端需要與用戶實時交互。
[0035]進一步,所述步驟S5中生成空間聲彈幕準則如下:
[0036] 同一時刻同一位置只出現一個空間聲;
[0037]同時呈現的聲音不多于用戶設定的個數;
[0038] 音源的擺放的默認位置依據錄制時記錄下的觀看視角,但如果和所述前兩個準則 沖突則需調整空間聲位置和播放時間。
[0039] -種基于空間聲的人機交互系統,包括空間聲生成模塊、位于客戶端的錄入模塊 和播放模塊、位于服務器端的聚合模塊,其特征在于,
[0040] 所述錄入模塊用于錄入客戶聲音并將所錄制的語音數據上傳到所述服務器端; [0041 ]所述聚合模塊對所述錄入模塊上傳到服務器端的所述語音數據進行分析和整合; [0042]所述空間聲生成模塊用于把聲音放到三維空間中;
[0043]所述播放模塊負責從負責從服務器下載語音數據,進行播放;
[0044]所述空間聲生成模塊與所述聚合模塊連接,獲取分析整合后的語音數據,對所述 語音數據利用改變聲音的雙耳聲級差和雙耳時間差,生成基于雙耳的空間聲,并將生成的 所述空間聲通過所述播放模塊發送給用戶;
[0045] 所述空間生成模塊位于所述客戶端或所述服務器端。
[0046] 本發明的有益效果是:
[0047] 用戶在觀看全景視頻,尤其是在虛擬現實設備中,本發明可以起到引導用戶更有 效的觀看全景視頻,沉浸式聲音更大的帶來親切感,會降低用虛擬現實設備觀看電影時的 孤獨感,空間聲更充分的利用了聲音的特性來傳遞了更多的信息。
[0048] 本發明克服了傳統彈幕用文字方式帶來遮擋視頻內容的弊病,提升了用戶的興 趣。
【附圖說明】
[0049] 圖1是本發明一個實施例的基于空間聲的人機交互方法流程示意圖。
[0050] 圖2是本發明一個實施例的基于空間聲的人機交互方法中記錄下的觀看視角示意 圖。
[0051] 圖3是本發明一個實施例的基于空間聲的人機交互方法中根據觀看視角確定的空 間聲位置示意圖。
[0052]圖4是本發明一個實施例的基于空間聲的人機交互系統連接方框示意圖。
【具體實施方式】
[0053]下面對本發明的較佳實施例進行詳細闡述,以使本發明的優點和特征能更易于被 本領域技術人員理解,從而對本發明的保護范圍做出更為清楚明確的界定。
[0054]實施例1 一種基于空間聲的人機交互的方法,包括如下步驟:
[0055] 步驟Sl,通過客戶端麥克風錄入客戶聲音,進行初級篩選,獲取聲音數據。
[0056] 客戶端麥克風錄入用戶語音,通過初級篩選屏蔽無效語音,如噪音過大,音量過高 或過低等,同時記錄以下信息:
[0057] 語音錄制時間:用來后期對語音排序使用,如新進評論可能權重高些,被播出的概 率大些;
[0058] 在錄制時相應視頻內容的時間:此時間決定了語音被回放的時間點;
[0059]如果是全景視頻,在用虛擬現實設備觀看時,還要記錄下當前觀看視角。
[0060]步驟S2,將所述聲音數據上傳到服務器端。
[0061 ]步驟S3,所述服務器端對接收到的所述語音數據進行分析和整合。
[0062]服務器端接收客戶端錄入的聲音數據,進行分析整合,具體過程如下:
[0063] 進一步的語音評論篩選:包括使用語音識別,關鍵詞審查(keyword spotting),音 頻分析技術等,去除噪音過大,含有不雅詞匯等;
[0064]對評論進行優先級排序:影響排序的則有多種,如物理性質適宜播放(長短適中 等),VIP會員,評論內容與視頻內容相關性等;
[0065]生成播放列表,列表包括文件名,以及相關的元數據(Metadata),用來表明語音文 件的播放時間及空間位置。
[0066]步驟S4,對所述語音數據進行空間聲生成渲染。
[0067] 根據聲音數據錄音時記錄下的時間和音源觀看視角,利用改變聲音的雙耳聲級差 (interaural level difference)和雙耳時間差(interaural time difference)生成基于 雙耳的空間聲(spatial sound),或三維音頻(3D audio),實現聲音在三維空間中的定位。
[0068] 在頻域上,通過使用頭部相關傳遞函數(Head-Related Transfer Function, HRTF)濾波器,對聲音在三維感知空間中更為真實的模擬。
[0069] HRTF濾波器系數可以通過測量或使用數學模型來獲得,分為左耳和右耳的傳遞函 數。比如將一個音源S放在空間中Θ角度,則其雙耳化過程為:
[0071] 其中,Ηι,θ,ΗΓ,θ為對應角度Θ的左右耳的HRTF;
[0072] 對于多個音源
,則會把分別的雙耳化結