歌曲搜索中非語義、非詞組的切換方法
【專利摘要】歌曲搜索中非語義、非詞組的切換方法。本發明提供了一種信息處理方法和信息處理裝置,其可以用于對信息進行切詞處理,該信息處理方法是基于一元切詞、二元切詞和詞典切詞融合的一種切詞方法,但又不是機械的疊加,形成一種新的復式切詞方法,特別是對于歌曲信息搜索領域,在該方法的執行過程中,根據具體的情況針對歌曲信息搜索領域的特點以及用戶搜索串的特點進行相應的判斷,并分別根據不同的情況使用不同的切詞和搜索方案,避免采用復雜的語義切詞等切詞方案,從而極大的提高搜索的效率和準確度。
【專利說明】歌曲搜索中非語義、非詞組的切換方法
【技術領域】
[0001] 本申請涉及一種信息處理方法和信息處理裝置,特別是涉及一種在信息搜索領域 中對信息進行復式切詞的切詞處理方法和裝置,尤其是歌曲搜索中非語義、非詞組的切詞 方法和裝置。
【背景技術】
[0002] 在信息搜索領域,影響搜索結果質量的一個非常重要的因素就是切詞技術。也就 是在對搜索素材和用戶的查詢語句進行處理的時候,如何將文本切詞成多個獨立的單詞, 針對每個單詞進行搜索然后做結果歸并,這關系到檢索的效率及準確度。
[0003] 中文進行切詞的時候,由于漢語的詞是由單個字組成,并且在不同的語境下相同 的字會有不同的組合意義,這導致漢語切詞的復雜性很很高。比如:"日本人喜歡和服和櫻 花"和"我們需要食品和服裝"中的"和服"這兩個詞分別是不同含義的,甚至于在后者中都 不是一個詞。
[0004] 中文切詞分為沒有詞典的一元、二元機械切詞和詞典輔助的最大匹配式切詞。在 通用搜索引擎領域,一般都使用基于詞典的切詞方案,同時和一些規則相結合,盡可能地按 照文章原有的語義進行切詞,然而,采用語義切詞,需要綜合考慮多種規則,而且硬件要求 也高,通常需要pc機或較為復雜的系統才能實現。
[0005] 但是在特定信息搜索領域,比如在歌曲搜索領域,需要進行搜索的領域一般只有 歌手、歌曲和專輯等有限的幾個域。歌曲在這幾個域上的信息的語義性并不強。比如歌手領 域,就是人名,沒有什么語義包含在其中。歌曲名和專輯名相對有更多的語義,但是一般都 是短文本,十幾個漢字之內,不會有太豐富的語義。因此按照詞典進行切詞的意義并不大。 甚至于按照詞典切詞會切出錯誤的結果。使用基本的一元切詞或者二元切詞反而有更好的 匹配效果,并且,基于詞典的切詞方式,在實際應用中發現的問題是切詞粒度較高,容錯性 較差,召回率在某些時候會比較低。
[0006] 對于一元切詞,其好處是切詞的粒度小,在容錯匹配的時候有較好的效果,召回率 高。但是一元切詞會導致每個詞的文檔列表過長,在數據歸并的時候開銷非常大。
[0007] 對于二元切詞,二元切詞是在一元切詞的基礎上提出的方案,可以有效地減少詞 的文檔列表長度,提高搜索的效率,但是在容錯處理方面較差一些,召回率低一些。
【發明內容】
[0008] 本發明的目的是提供一種信息處理方法,其可以用于對信息進行切詞處理,該信 息處理方法是基于一元切詞、二元切詞和詞典切詞融合的一種切詞方法,但又不是機械的 疊加,形成一種新的復式切詞方法,在該方法的執行過程中,根據具體的情況針對歌曲信息 搜索領域的特點以及用戶搜索串的特點進行相應的判斷,并分別根據不同的情況使用不同 的切詞和搜索方案,從而極大的提高搜索的效率和準確度。
[0009] 本發明的另一個目的是提供一種信息處理的裝置,采用上述信息處理方法針對不 同的信息執行相應的切詞和搜索功能,并能很快并準確的得到查詢和搜索結果,該裝置是 根據相應的搜索領域的信息特點,定制相應的模塊而得到的,避免了采用復雜的系統,同時 還能大大增強搜索的效率和準確性。
[0010] 本發明的所述信息處理方法所采取的技術方案如下:一種信息處理方法,其用于 信息搜索領域中對信息進行復式切詞處理,包括以下步驟:
[0011] 1)建立屬性詞典,根據需要查詢的信息的屬性,建立相應的屬性詞典,將屬性詞典 存儲到相應的屬性詞典存儲模塊;
[0012] 2)通過查詢信息接收模塊接收輸入的查詢信息,并將查詢信息存儲到相應的查詢 信息存儲模塊,
[0013] 3)對接收到的查詢信息進行首次判斷,即判斷是否屬于最近預定時間段查詢過的 信息,如果是,則直接將最近的查詢結果顯示在顯示模塊上,同時將查詢結果存儲到查詢信 息存儲模塊中;
[0014] 4)對接收到的查詢信息進行第二次判斷,判斷查詢信息是否屬于屬性詞典中的信 息,如果是,則將詞典信息存儲模塊中存儲的結果顯示在顯示模塊上;
[0015] 5)在判斷不屬于屬性詞典中的信息后,對接收到的查詢信息采用復式切詞模塊進 行復式切詞;
[0016] 6)采用搜索模塊進行搜索;
[0017] 7)將搜索到的結果顯示在顯示模塊上。
[0018] 進一步地,本發明上述方法所述的信息為歌曲信息。
[0019] 進一步地,本發明上述方法的步驟1)中的屬性詞典是由歌曲庫中的歌手名、歌曲 名和專輯名建立的歌曲屬性詞典。
[0020] 進一步地,本發明上述方法的步驟5)中的復式切詞為混合切詞,即一元切詞和二 元切詞順次交疊出現,每個二元詞是兩邊的一元詞的組合。
[0021] 進一步地,本發明上述方法的步驟5)中的復式切詞,還可以是根據兩個詞在文檔 庫中的相關度進行切詞,同時根據其各自的TF/IDF得分,進行相應的丟棄處理。
[0022] 進一步地,本發明上述方法的步驟6)中的搜索首先是按照二元詞依次進行搜索 和歸并,如果根據前后的一元詞的文檔列表長度判斷二元詞文檔列表過短,則將針對該二 元詞的搜索和歸并轉換為對前后兩個一元詞的搜索和歸并。
[0023] 本發明的所述信息處理裝置所采取的技術方案如下:一種信息處理裝置,其可以 實現對信息搜索領域中的信息進行復式切詞,并將結果快速準確的顯示,該裝置包括以下 模塊:
[0024] 屬性詞典存儲模塊,用于存儲相應的信息屬性詞典;
[0025] 查詢信息接收模塊,用于接收查詢信息;
[0026] 第一判斷模塊,用于判斷輸入的查詢是否是最近預定時間段查詢過的信息;
[0027] 查詢信息存儲模塊,用于存儲查詢信息及查詢結果;
[0028] 第二判斷模塊,用于判斷查詢信息是否屬于屬性詞典中的信息;
[0029] 復式切詞模塊,用于對接收到的查詢信息進行一元二元混合切詞;
[0030] 搜索模塊,用于對切詞后的查詢信息進行搜索;
[0031] 顯示模塊,用于顯示搜索的結果;
[0032] 打印模塊,用于將搜索的結果進行打印輸出;
[0033] 控制模塊,用于控制上述模塊的工作。
[0034] 進一步地,本發明上述裝置中的上述各模塊可以根據需要增減。
[0035] 該信息處理方法和信息處理裝置采用了復式切詞方法,能夠克服【背景技術】中單一 切詞方法存在的各種問題,解決了效率和召回率之間的矛盾,可以同時滿足信息查詢速度 和準確度的要求,達到最優的搜索效果,該信息處理裝置在實現上述功能的同時,還可以適 應于各種場合,如KTV等,根據不同的需要增減相應的功能模塊,采用相應的硬件器件,制 作成不同規格大小的機器,極大地降低了成本。
【專利附圖】
【附圖說明】
[0036] 附圖1為本發明方法的流程圖;
[0037] 附圖2為本發明裝置的框圖。
【具體實施方式】
[0038] 以下結合附圖和具體實施例對本發明進行詳細的說明。
[0039] 本實施例以歌曲信息搜索為例,參見附圖1,首先是建立屬性詞典,根據需要查詢 的信息的屬性,此處為歌曲相關信息,因此將歌曲庫中的歌手名,歌曲名和專輯名建立一個 詞典,即歌曲屬性詞典,并且將完整的歌曲名、歌手名和專輯名作為切詞出來的一個精準 詞,然后對這三個域按照一元和二元的方式分別進行切詞,得到更多細粒度的詞,并將建立 好的屬性詞典存儲到詞典信息存儲模塊中。具體地,在建立歌曲屬性詞典的時候,會將所有 的歌曲名、歌手名、專輯名、歌手+歌曲、歌曲+專輯這樣的有效詞匯存儲到詞典中,同時在 詞典中存儲的同時還標識出該詞的類型,如歌手,專輯等類型。在存儲入詞典的時候,進行 歸一化處理
[0040] 當接到一個用戶的查詢請求之后,首先判斷是否屬于最近預定時間段查詢過的信 息,如果是,則直接將最近的查詢結果顯示在顯示模塊上,同時將查詢結果存儲到查詢信息 存儲模塊中。如果不是,則進行第二次判斷,即從字典中查詢是否是一個精準的歌曲屬性, 由于用戶一般都是按照歌曲名或歌手名搜索歌曲的,因此直接命中的概率很高。如果是一 個精準詞,那么直接可以得到與之相關聯的歌曲列表,并將其顯示在顯示模塊上。
[0041] 如果第二次判斷不屬于屬性詞典中的歌曲屬性,則進入復試切詞,即進行一元二 元混合切詞。
[0042] 一元二元混合切詞的方式舉例如下,比如"中華人民共和國"被切詞為"中/中華 /華/華人/人/人民/民/民共/共/共和/和/和國",即采取將一元詞和二元詞交疊 出現,每個二元詞是兩邊的一元詞的組合。
[0043] 在進行搜索的時候,首先依次按照二元詞進行搜索和歸并,但是如果根據前后的 一元詞的文檔列表長度判斷二元詞文檔列表過短,若短于預定的閾值,則將針對該二元詞 的搜索和歸并轉換為對前后兩個一元詞的搜索和歸并。
[0044] 在進行搜索切詞的時候,還可以考慮兩個詞在文檔庫中的相關度。根據兩個詞的 關聯度,和它們各自的TF/IDF得分,來進行丟棄處理。
[0045] 參見圖2,是對于該歌曲信息查詢的一種信息處理裝置,其可以實現對信息搜索領 域中的信息進行復式切詞,并將結果快速準確的顯示,該裝置包括以下模塊:屬性詞典存儲 模塊,用于存儲相應的信息屬性詞典;查詢信息接收模塊,用于接收用戶的查詢信息;第一 判斷模塊,用于判斷用戶的輸入信息是否是最近預定時間段查詢過的信息;查詢信息存儲 模塊,用于存儲查詢信息及查詢結果;第二判斷模塊,用于判斷查詢信息是否屬于屬性詞典 中的信息;復式切詞模塊,用于對接收到的查詢信息進行一元二元混合切詞,具體是將一元 詞和二元詞交疊出現,每個二元詞是兩邊的一元詞的組合;搜索模塊,用于對切詞后的查詢 信息進行搜索,依次按照二元詞進行搜索和歸并,但是如果根據前后的一元詞的文檔列表 長度判斷二元詞文檔列表過短,若短于預定的閾值,則將針對該二元詞的搜索和歸并轉換 為對前后兩個一元詞的搜索和歸并;顯示模塊,用于顯示搜索的結果;打印模塊,用于將搜 索的結果進行打印輸出;控制模塊,用于控制各模塊的工作。上述存儲模塊可以根據需要 采取各種存儲器件,如ram、rom等,控制模塊可以根據需要與判斷模塊、搜索模塊集成在一 起,可以是通用的CPU控制處理器,也可以是各種嵌入式控制處理器,如單片機、ARM、FPGA 等。
[0046] 本發明上述裝置中的相應的方法步驟以及上述各相應模塊可以根據需要增減,如 可以根據需要省略相應步驟或模塊,如不進行首次判斷或第二次判斷等。
[0047] 以上對本發明實施例所提供的技術方案進行了詳細介紹,本文中應用了具體個例 對本發明實施例的原理以及實施方式進行了闡述,以上實施例的說明只適用于幫助理解本 發明實施例的原理;同時本領域的一般技術人員,根據本發明的實施例,在【具體實施方式】以 及應用范圍上均會有改變之處,綜上所述,本發明書內容不應理解為對本發明的限制。
【權利要求】
1. 一種信息處理方法,其特征在于包括以下步驟: 1) 建立屬性詞典,根據需要查詢的信息的屬性,建立相應的屬性詞典,將屬性詞典存儲 到相應的屬性詞典存儲模塊; 2) 通過查詢信息接收模塊接收用戶的查詢信息,并將查詢信息存儲到相應的查詢信息 存儲模塊, 3) 對接收到的查詢信息進行首次判斷,即判斷是否屬于最近預定時間段查詢過的信 息,如果是,則直接將最近的查詢結果顯示在顯示模塊上,同時將查詢結果存儲到查詢信息 存儲模塊中; 4) 對接收到的查詢信息進行第二次判斷,判斷查詢信息是否屬于屬性詞典中的信息, 如果是,則將詞典信息存儲模塊中存儲的結果顯示在顯示模塊上; 5) 在判斷不屬于屬性詞典中的信息后,對接收到的查詢信息采用復式切詞模塊進行復 式切詞; 6) 采用搜索模塊進行搜索; 7) 將搜索到的結果顯示在顯示模塊上。
2. 根據權利要求1所述的信息處理方法,其特征是:所述的信息為歌曲信息,歌曲信息 具體為歌手名、歌曲名和專輯名。
3. 根據權利要求2所述的信息處理方法,其特征是:所述步驟5)中的復式切詞為混合 切詞,即一元切詞和二元切詞順次交疊出現,每個二元詞是兩邊的一元詞的組合。
4. 根據權利要求3所述的信息處理方法,其特征是:所述步驟5)中的復式切詞為根據 兩個詞在文檔庫中的相關度進行切詞,同時根據其各自的TF/IDF得分,進行相應的丟棄。
5. 根據權利要求2或3所述的信息處理方法,其特征是:所述步驟6)中搜索首先是按 照二元詞依次進行搜索和歸并,如果根據前后的一元詞的文檔列表長度判斷二元詞文檔列 表過短,則將針對該二元詞的搜索和歸并轉換為對前后兩個一元詞的搜索和歸并。
6. -種信息處理裝置,用于對信息搜索領域中的信息進行復式切詞,并將結果快速準 確的顯示,該裝置包括以下模塊: 屬性詞典存儲模塊,用于存儲相應的信息屬性詞典; 查詢信息接收模塊,用于接收查詢信息; 第一判斷模塊,用于判斷輸入的查詢信息是否是最近預定時間段查詢過的信息; 查詢信息存儲模塊,用于存儲查詢信息及查詢結果; 第二判斷模塊,用于判斷查詢信息是否屬于屬性詞典中的信息; 復式切詞模塊,用于對接收到的查詢信息進行一元二元混合切詞; 搜索模塊,用于對切詞后的查詢信息進行搜索; 顯示模塊,用于顯示搜索的結果; 打印模塊,用于將搜索的結果進行打印輸出。
【文檔編號】G06F17/27GK104216892SQ201310211199
【公開日】2014年12月17日 申請日期:2013年5月31日 優先權日:2013年5月31日
【發明者】王志常 申請人:億覽在線網絡技術(北京)有限公司