一種基于空間聲的人機交互方法和系統的制作方法_2

文檔序號：9847379閱讀：來源：國知局

果
相加，多個音源的雙耳化過程用矩陣形式表示為：
[0074]如果是在時域上操作，則矩陣相乘就變成了卷積，HRTF也需要換成對應的HRIR (Head-Related Impulse Response)函數。
[0075]本實施例中只對空間聲做角度上的區分，因此假設音源到聽者的距離保持一致。
[0076] 空間聲生成渲染可以在在服務器端或客戶端進行，如果不需要改變生成的音頻信號，也就是播放端不需要實時交互，客戶端只需本地生成或從服務器下載生成的雙聲道立體聲音頻。
[0077] 上述將音源按照指定的時間和空間位置生成空間聲的方法中，默認是依據錄音時記錄下的時間和觀看視角，也可以利用服務器處理模塊根據需求改變，賦予空間聲新的時間和方位。
[0078] 在全景視頻模式下，空間聲生成渲染可以在客戶端或服務器端進行，此時客戶端的播放端需要與用戶實時交互，空間聲需要根據播放端用戶的頭部方位做實時調整，如用戶使用虛擬顯示設備(可以是帶頭部跟蹤傳感器的移動設備或耳機），則用戶的頭部旋轉角度可以返回給播放端，播放端根據角度實時調整或生成對應的空間聲。如果是在服務器端進行雙耳化，則需要把角度實時傳到服務器端，如果角度變化不大，或網絡延遲很低，這也是可行的。
[0079] 步驟S5,通過所述客戶端的播放端播放所述語音數據，生成空間聲彈幕。
[0080] 生成空間聲彈幕準則如下：
[0081] 同一時刻同一位置只出現一個空間聲；
[0082] 同時呈現的聲音不多于用戶設定的個數；
[0083] 音源的擺放的默認位置依據錄制時記錄下的觀看視角，但如果和前兩個準則沖突則需調整空間聲位置和播放時間。
[0084] 根據記錄的觀看視角確定空間聲的播放位置，如圖2和圖3所示，圖2中虛線方框的位置為用戶全景視頻觀看區域，該區域的中心點到原點的距離為d，角度為Θ，則空間聲的播放位置如圖3所示。
[0085] 本實施例克服了傳統彈幕用文字方式帶來遮擋視頻內容的弊病，可以引導用戶更有效的觀看全景視頻，尤其是在虛擬現實設備中。
[0086]實施例2-種基于空間聲的人機交互系統，包括：
[0087] 包括空間聲生成模塊、位于客戶端的錄入模塊和播放模塊、位于服務器端的聚合豐旲塊。
[0088] 所述錄入模塊用于錄入客戶聲音并將所錄制的語音數據上傳到所述服務器端；
[0089] 所述聚合模塊對所述錄入模塊上傳到服務器端的所述語音數據進行分析和整合；
[0090] 所述空間聲生成模塊用于把聲音放到三維空間中；
[0091] 所述播放模塊負責從負責從服務器下載語音數據，進行播放；
[0092] 所述空間聲生成模塊與所述聚合模塊連接，獲取分析整合后的語音數據，對所述語音數據利用改變聲音的雙耳聲級差和雙耳時間差，生成基于雙耳的空間聲，并將生成的所述空間聲通過所述播放模塊發送給用戶。
[0093] 所述空間生成模塊位于所述客戶端或所述服務器端。
[0094] 所述錄入模塊還包括語音篩選模塊和記錄模塊，所述語音篩選模塊用于屏蔽無效語音;所述記錄模塊用于記錄錄音時的信息，包括:所述語音錄制時間、在錄制時相應視頻內容的時間和當前觀看的視頻視角。
[0095]所述聚合模塊還包括語音評論篩選模塊、評論優先級排序模塊和播放列表生成模塊，所述語音評論篩選模塊用于去除噪聲和還有不雅詞匯的語音;所述評論優先級模塊用于按照一定的規則對評論進行排序，所述規則有多種，例如物理性質適宜播放(長短適中等）、VIP會員、評論內容與視頻內容相關性等;播放列表生成模塊用于生成播放列表，播放列表包括物理性質適宜播放(長短適中等），VIP會員，評論內容與視頻內容相關性。
[0096] 所述空間聲生成模塊利用改變聲音的雙耳聲級差（interaural level difference)和雙耳時間差（interaural time difference)生成基于雙耳的空間聲 (spatial sound)，或三維音頻(3D audio)，實現聲音在三維空間中的定位。
[0097]根據使用場景不同，整體架構也不同。如果播放端不需實時交互，即生成的空間聲是固定的，貝lJ雙耳化過程(binauralization)可以在服務器端或客戶端。
[0098]如果空間聲需要根據播放端用戶的頭部方位做實時調整，則空間聲在播放端生成，如用戶使用虛擬顯示設備(可以是帶頭部跟蹤傳感器的移動設備或耳機），則用戶的頭部旋轉角度可以返回給播放模塊，播放模塊根據角度實時調整或生成對應的空間聲。
[0099] 本實施例提供一種基于空間聲的人機交互系統，在全景視頻模式，尤其是虛擬現實設備中，可以引導用戶更有效地觀看全景視頻。
[0100] 以上所述僅為本發明的實施例，并非因此限制本發明的專利范圍，凡是利用本發明說明書內容所作的等效結構或等效流程變換，或直接或間接運用在其他相關的技術領域，均同理包括在本發明的專利保護范圍內。
【主權項】
1. 一種基于空間聲的人機交互的方法，其特征在于，包括：步驟S1，通過客戶端麥克風錄入客戶聲音，對錄入的所述聲音數據進行初級篩選，獲取聲音數據；步驟S2，將所述聲音數據上傳到服務器端；步驟S3，所述服務器端對接收到的所述語音數據進行分析和整合；步驟S4，對所述語音數據進行空間聲生成渲染；步驟S5，通過所述客戶端的播放端播放所述語音數據，生成空間聲彈幕。2. 根據權利要求1所述的基于空間聲的人機交互的方法，其特征在于，所述步驟1在錄入所述聲音數據的同時記錄如下信息：語音錄制時間：用于后期對語音排序使用；在錄制時相應視頻內容的時間：用于確定語音被回放的時間點；當視頻內容為全景視頻時，還需要記錄所述語音數據錄入時觀看視角。3. 根據權利要求1所述的空間聲的基于空間聲的人機交互的方法，其特征在于，所述步驟3中所述分析和整合包括：對所述語音數據進行篩選，包括使用語音識別、關鍵詞審查、音頻分析技術去除噪音過大和含有不雅詞匯；對所述語音數據進行優先級排序；生成播放列表，包括文件名和相關的元數據，用來表明語音文件的播放時間及空間位置。4. 根據權利要求4所述的基于空間聲的人機交互的方法，其特征在于，所述語音數據優先級排序規則為：所述語音數據物理性質適宜播放； VIP會員；評論內容與視頻內容相關性和評論的新舊程度。5. 根據權利要求2所述的基于空間聲的人機交互的方法，其特征在于，所述步驟S4中所述空間聲生成渲染方法為：根據所述步驟S1中所述聲音數據錄音時記錄下的時間和觀看視角，改變聲音的雙耳聲級差和雙耳時間差，生成基于雙耳的空間聲，實現聲音在三維空間中的定位。6. 根據權利要求5所述的基于空間聲的人機交互的方法，其特征在于，所述聲音數據錄音時記錄下的時間和觀看視角可以在所述服務器端根據需求修改。7. 根據權利要求6所述的基于空間聲的人機交互的方法，其特征在于，在所述空間聲生成渲染方法中使用頭部相關傳遞函數(HRTF)濾波器，獲得對聲音在三維感知空間中更為真實的模擬，所述HRTF濾波器系數可以通過測量或使用數學模型來獲得，分為左耳和右耳的傳遞函數；對于一個音源S，放在空間中Θ角度，所述Θ角度根據所述觀看視角確定，則所述音源S雙耳化過程為：其中，Ηι,θ，Η:,θ為對應角度Θ的左右耳的HRTF; '5V 對于多個音源^，則會把分別的雙耳化結果g=1(i = l，2......N)相加，所述多個音 Sn· -S{ 源^的雙耳化過程用矩陣形式表示為： β'Ν'.8. 根據權利要求7所述的基于空間聲的人機交互的方法，其特征在于，所述步驟S4中所述空間聲生成渲染在所述服務器端或所述客戶端進行進行。9. 根據權利要求1所述的基于空間聲的人機交互的方法，其特征在于，所述步驟S5中生成空間聲彈幕準則如下：同一時刻同一位置只出現一個空間聲；同時呈現的聲音個數不多于用戶設定的個數；音源的擺放的默認位置依據錄制時記錄下的觀看視角，但如果和所述前兩個準則沖突則需調整空間聲位置和播放時間。10. -種基于空間聲的人機交互系統，包括空間聲生成模塊、位于客戶端的錄入模塊和播放模塊、位于服務器端的聚合模塊，其特征在于，所述錄入模塊用于錄入客戶聲音并將所錄制的語音數據上傳到所述服務器端；所述聚合模塊對所述錄入模塊上傳到服務器端的所述語音數據進行分析和整合；所述空間聲生成模塊用于把聲音放到三維空間中；所述播放模塊負責從負責從服務器下載語音數據，進行播放；所述空間聲生成模塊與所述聚合模塊連接，獲取分析整合后的語音數據，對所述語音數據利用改變聲音的雙耳聲級差和雙耳時間差，生成基于雙耳的空間聲，并將生成的所述空間聲通過所述播放模塊發送給用戶；所述空間生成模塊位于所述客戶端或所述服務器端。
【專利摘要】本發明涉及一種基于空間聲的人機交互的方法和系統，人機交互方法包括如下步驟：通過客戶端麥克風錄入客戶聲音，對錄入的所述聲音數據進行初級篩選，獲取聲音數據；將所述聲音數據上傳到服務器端；所述服務器端對接收到的所述語音數據進行分析和整合；對所述語音數據進行空間聲生成渲染；通過所述客戶端的播放端播放所述語音數據，生成空間聲彈幕。本發明可以實現聲音在三維空間中的定位，引導用戶更有效的觀看全景視頻，克服了傳統彈幕用文字方式帶來遮擋視頻內容的弊病，從而提升用戶的興趣。
【IPC分類】G06F3/01, H04S5/02
【公開號】CN105611481
【申請號】CN201511021317
【發明人】孫學京, 劉皓, 劉恩, 張晨
【申請人】北京時代拓靈科技有限公司
【公開日】2016年5月25日
【申請日】2015年12月30日

完整全部詳細技術資料下載

當前第2頁1 2

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！