<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

優化搜索結果的方法及裝置與流程

文檔序號:11155354閱讀:782來源:國知局
優化搜索結果的方法及裝置與制造工藝

本發明實施例涉及計算機技術,尤其涉及一種優化搜索結果的方法及裝置。



背景技術:

隨著計算機技術的發展,用戶通過計算機進行搜索的場景越來越普遍。例如,在線上購物過程中,用戶可以輸入搜索詞來搜索自己想要的商品。計算機中的搜索系統在接收到用戶輸入的搜索詞后,可以根據內部的算法計算搜索出的文檔的分值,將搜索出的文檔按照分值進行排序,并輸出給用戶。對于用戶來說,最終呈現出的文檔的順序非常重要,其直接影響了用戶的搜索體驗。在計算搜索出的文檔的分值時,是按照文檔的各索引字段及各索引字段的權重值進行計算的。通過設置索引字段的權重值,可以在搜索過程中強調一些字段而弱化另一些字段。因此,在搜索系統中,確定索引字段的合理的權重集非常重要。

目前,企業通常都采用人工的方式確定各索引字段的權重值。例如,在搜索系統上線之前,通常由技術人員根據需求設置各索引字段及各索引字段的初始的權重值,加載數據后進行測試搜索,,再根據搜索結果調整索引字段的權重值,直至最終輸出的目標文檔的順序達到滿意的程度。

但是,上述過程是采用人工方式調整字段的權重值,調整后的搜索效果依賴于個人經驗,效果不可靠。而且,一旦搜索系統上線運行之后,無法持續對搜索結果進行優化,從而,導致用戶的搜索體驗不高。



技術實現要素:

本發明實施例提供一種優化搜索結果的方法及裝置,以提高用戶的搜索體驗。

一方面,本發明實施例提供一種優化搜索結果的方法,應用于對搜索系統進行分析的搜索分析系統。該搜索系統提供不同的索引字段。該方法包括:搜索分析系統獲取搜索系統的搜索日志。其中,搜索日志中包括發生過的搜索中的搜索詞信息、搜索結果信息及用戶的操作信息。搜索分析系統從搜索詞信息中確定出用于測試的搜索詞集合,并根據搜索詞信息、搜索結果信息及用戶的操作信息對搜索詞集合中每個搜索詞的搜索進行有效性分析,得到關于有效性的分析結果。搜索分析系統以搜索詞集合中的搜索詞在索引字段的不同權重集下進行測試搜索,得到各搜索詞在不同權重集下的測試結果。搜索分析系統利用從搜索日志得到的關于有效性的分析結果測算每個權重集下的測試結果的有效值,并確定各測試結果的有效值中滿足預設條件的有效值,將滿足預設條件的有效值對應的權重集作為索引字段的最優權重集。搜索分析系統以最優權重集對搜索系統中的索引字段的權重值進行更新。權重集是由各索引字段的權重值組合而成集合。這里的預設條件可以為各測試結果的有效值中最大的有效值,也可以是各測試結果的有效值中大于預設閾值的有效值。該方法實現了在搜索系統的運行過程中,可以根據搜索日志得到每個搜索詞的有效性的分析結果,再根據該分析結果去測算每個權重集下的測試結果的有效值,進而,根據每個權重集下的測試結果的有效值確定索引字段的最優權重集,對索引字段的權重值進行更新,在搜索系統上線之后,可以根據搜索日志持續實現對搜索結果的優化,相較于無法持續對搜索結果進行優化的方式,可以實現不斷優化搜索結果,從而,提高了用戶的搜索體驗。

在一種可能的設計中,以搜索詞集合中的搜索詞在索引字段的不同權重集下進行測試搜索包括:通過調整索引字段的權重值來得到索引字段的不同權重集;在每次調整后,以搜索詞集合中的搜索詞在調整后的權重集下進行測試搜索,得到不同權重集下的測試結果。在調整過程中,可以是以遍歷索引字段的權重集空間的方法來進行調整。該實現方式可以高效地得到不同權重集下的測試結果。

在一種可能的設計中,有效性分析包括:對每個搜索詞所產生的搜索結果中的文檔的有效性進行分析;相應的,得到關于有效性的分析結果包括:得到每個搜索詞的有效文檔集以及有效文檔集中每個有效文檔的有效值。則利用從搜索日志得到的關于有效性的分析結果測算每個權重集下的測試結果的有效值,具體包括:從各權重集的測試結果中提取用于進行測算的測算文檔集;確定測試搜索中搜索到測算文檔集的搜索詞,從測算文檔集中識別出包括在測算文檔集對應的搜索詞的有效文檔集中的文檔;從關于有效性的分析結果中獲取識別出的測算文檔的有效值;根據每個權重集下識別出的測算文檔的有效值計算權重集下的測試結果的有效值。實現了簡便快捷地進行有效性分析,提高了優化搜索結果的效率。

在一種可能的設計中,對每個搜索詞所產生的搜索結果中的文檔的有效性進行分析,包括:確定每個搜索詞的有效文檔集;根據公式Rix=r*Di*Fi2確定有效文檔集中第x個有效文檔相對第i個搜索詞的有效值,其中,r為預設的參數,Di為第x個有效文檔被用戶選中的次數,Fi為用戶選中第x個有效文檔之前的翻頁次數。

在一種可能的設計中,根據每個權重集下識別出的測算文檔的有效值計算權重集下的測試結果的有效值,具體包括:根據公式確定第i個搜索詞對應的測算文檔集相對第i個搜索詞的測試搜索有效值,其中,z為測算文檔集中測算文檔的總個數,R'ix為測算文檔集中第x個測算文檔相對第i個搜索詞的測試搜索有效值,當第x個測算文檔為識別出的測算文檔時,R'ix=Rix,當第x個測算文檔不是識別出的測算文檔時,R'ix=0;根據公式確定第x個權重集下的測試結果的有效值。

該實現方式限定了具體的對文檔的有效性進行分析以及確定不同的權重集下的測試結果的有效值的公式,實現了定量地進行分析,提高了優化搜索結果的準確率。

在一種可能的設計中,有效性分析還包括:對每個搜索詞的重要性進行分析;相應的,得到關于有效性的分析結果還包括:得到每個搜索詞的重要性權重值;相應地,根據每個權重集下識別出的測算文檔的有效值計算權重集下的測試結果的有效值,具體包括:根據公式確定第i個搜索詞對應的測算文檔集相對第i個搜索詞的測試搜索有效值,其中,Ti為第i個搜索詞的重要性權重值,z為測算文檔集中測算文檔的總個數,R'ix為測算文檔集中第x個測算文檔相對第i個搜索詞的測試搜索有效值,當第x個測算文檔為識別出的測算文檔時,R'ix=Rix,當第x個測算文檔不是識別出的測算文檔時,R'ix=0;根據公式確定第x個權重集下的測試結果的有效值。

在一種可能的設計中,對每個搜索詞的重要性進行分析,具體包括:根據公式確定第i個搜索詞的重要性權重值,其中,n為搜索詞集合中搜索詞的總個數,Ci表示搜索詞集合中第i個搜索詞被搜索的次數。

該實現方式中,在進行有效性分析時,對每個搜索詞的重要性進行了分析,并且,限定了具體的確定搜索詞的重要性權重值的公式,以及,在計算權重集下的測試結果的有效值時考慮到了搜索詞的重要性權重值,進一步提高了優化搜索結果的準確率。

另一方面,本發明實施例提供一種優化搜索結果的裝置,該裝置具有實現上述方法實施例中搜索分析系統的功能。所述功能可以通過硬件實現,也可以通過硬件執行相應的軟件實現。所述硬件或軟件包括一個或多個與上述功能相對應的部件(比如,獲取模塊,有效性分析模塊,測試搜索模塊,測算模塊,確定模塊,更新模塊)。

再一方面,本發明實施例提供一種計算機存儲介質,用于儲存為上述搜索分析系統所用的計算機軟件指令,其包含用于執行上述方面為搜索分析系統所設計的程序。

附圖說明

為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。

圖1為本發明實施例提供的搜索分析系統及搜索系統的架構圖;

圖2為本發明實施例提供的優化搜索結果的方法實施例的流程示意圖;

圖3為本發明實施例提供的優化搜索結果的裝置實施例一的結構示意圖;

圖4為本發明實施例提供的優化搜索結果的裝置實施例二的結構示意圖。

具體實施方式

本發明的說明書和權利要求書及上述附圖中的術語“第一”、“第二”、“第三”及“第四”等(如果存在)是用于區別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數據在適當情況下可以互換,以便這里描述的本發明的實施例例如能夠以除了在這里圖示或描述的那些以外的順序實施。此外,術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。

圖1為本發明實施例提供的搜索分析系統及搜索系統的架構圖。如圖1所示,本發明實施例提供的優化搜索結果的方法,可以應用于對搜索系統11進行分析的搜索分析系統12中。搜索系統11提供不同的索引字段。在搜索系統11中,當用戶輸入搜索詞發起信息搜索時,搜索系統11在索引庫111中根據搜索詞及索引字段檢索目標物品信息,并反饋給用戶。并在搜索日志112中記錄搜索詞、搜索結果及用戶對該搜索結果的操作信息。這里的信息搜索可以是商品搜索或文獻搜索等。在此過程中,各索引字段的權重值會影響最終搜索結果中的商品或文獻的排序,而該排序是影響用戶搜索體驗的重要因素。為方便起見,將搜索結果中的商品和文獻都稱為文檔。因此,在搜索系統11的運行過程中,調整并確定各索引字段的權重集非常重要。搜索分析系統12可以在搜索系統的運行過程中,采用本發明實施例提供的優化搜索結果的方法,對搜索系統中的索引字段的權重值進行更新,從而優化搜索結果,提高用戶體驗。

本發明實施例提供的優化搜索結果的方法可以由搜索分析系統獲取搜索系統的搜索日志,搜索日志中包括發生過的搜索中的搜索詞信息、搜索結果信息及用戶的操作信息,從搜索詞信息中確定出用于測試的搜索詞集合,并根據搜索詞信息、搜索結果信息及用戶的操作信息對搜索詞集合中每個搜索詞的搜索進行有效性分析,得到關于有效性的分析結果,以搜索詞集合中的搜索詞在索引字段的不同權重集下進行測試搜索,得到各搜索詞在不同權重集下的測試結果,權重集是由各索引字段的權重值組合而成的集合,利用從搜索日志得到的關于有效性的分析結果測算每個權重集下的測試結果的有效值,確定各測試結果的有效值中滿足預設條件的有效值,將滿足預設條件的有效值對應的權重集作為索引字段的最優權重集,以最優權重集對搜索系統中的索引字段的權重值進行更新。也就是說,本發明實施例提供的優化搜索結果的方法是由搜索分析系統根據搜索日志對歷史上的搜索進行有效性分析,然后利用該分析結果來評估在索引字段的不同權重集下進行測試搜索的搜索結果,從而找出最優的權重集。由于搜索分析系統是基于歷史的客觀數據來對測試搜索的搜索結果進行評估的,因此,由此找出的最優權重集比人為經驗具有更高的可靠性。另外,該方法可以在搜索系統的運行過程中執行,因此,在搜索系統上線之后,可以根據搜索日志持續實現對搜索結果的優化,相較于無法持續對搜索結果進行優化的方式,可以實現不斷優化搜索結果,從而,提高了用戶的搜索體驗。

下面以具體的實施例對本發明的技術方案進行詳細說明。下面這幾個具體的實施例可以相互結合,對于相同或相似的概念或過程可能在某些實施例不再贅述。

圖2為本發明實施例提供的優化搜索結果的方法實施例的流程示意圖。如圖2所示,本發明實施例提供的優化搜索結果的方法包括如下步驟:

S101:搜索分析系統獲取搜索系統的搜索日志。

其中,搜索日志中包括發生過的搜索中的搜索詞信息、搜索結果信息及用戶的操作信息。

具體地,搜索系統中可以包括索引庫和搜索日志。索引庫中以索引字段的形式存儲有搜索系統中的物品信息。舉例來說,當搜索系統為在線購物網站的搜索系統時,商品的索引字段可以是:商品名稱、商品編碼、商品價格、商品簡介及商品圖片等字段;當搜索系統為科技文獻檢索系統的搜索系統時,文獻的索引字段可以是:文獻名稱、文獻簡介及文獻類型等字段。

搜索系統中的搜索日志可以包括發生過的搜索中的搜索詞信息、搜索結果信息及用戶的操作信息。搜索系統可以將用戶進行搜索時的搜索詞及搜索詞被搜索的次數作為搜索詞信息存儲在搜索日志中。將搜索系統根據搜索詞及索引字段搜索出的搜索結果中的文檔作為搜索結果信息存儲在搜索日志中。將用戶對搜索出的文檔的操作的信息作為操作信息存儲在搜索日志中。可選的,搜索詞信息可以是搜索詞以及每個搜索詞被搜索的次數,搜索結果信息可以是搜索出的文檔集,操作信息可以是用戶選中文檔集中的某個文檔的次數,以及,選中該文檔之前的翻頁次數。

在第一種可能的實現方式中,搜索分析系統可以以預設的頻率獲取搜索系統的搜索日志。該獲取過程可以是搜索分析系統以預設的周期向搜索系統發送搜索日志獲取請求,搜索系統在接收到搜索日志獲取請求之后,向搜索分析系統發送搜索日志。該獲取過程還可以是搜索系統以預設的周期向搜索系統搜索分析系統主動發送搜索日志。示例性的,該預設的周期可以是24小時。

在第二種可能的實現方式中,可以是搜索分析系統在確定搜索系統的搜索的當前有效值小于預設的有效值閾值時,說明此時需要對搜索結果進行優化,則搜索分析系統確定獲取搜索系統的搜索日志以進行搜索結果的優化。對于搜索系統的搜索的當前有效值的確定方式,將在下文進行詳細說明。

S102:搜索分析系統從搜索詞信息中確定出用于測試的搜索詞集合,并根據搜索詞信息、搜索結果信息及用戶的操作信息對搜索詞集合中每個搜索詞的搜索進行有效性分析,得到關于有效性的分析結果。

具體地,在從搜索詞信息中確定出用于測試的搜索詞集合時,可以是按照搜索次數對搜索詞排序,選出搜索次數最高的n個搜索詞(Q1,...,Qn)作為用于測試的搜索詞集合。當然,也可以從搜索日志中隨機選出n個搜索詞作為用于測試的搜索詞集合,本發明實施例對此不做限制。

可選的,對搜索詞集合中每個搜索詞的搜索進行有效性分析,可以包括:對每個搜索詞所產生的搜索結果中的文檔的有效性進行分析,以及,對每個搜索詞的重要性進行分析。相應地,得到關于有效性的分析結果包括:得到每個搜索詞的有效文檔集、有效文檔集中每個有效文檔的有效值,以及,每個搜索詞的重要性權重值。

在一種更具體的實現方式中,對每個搜索詞所產生的搜索結果中的文檔的有效性進行分析,包括:確定每個搜索詞的有效文檔集;根據公式Rix=r*Di*Fi2確定有效文檔集中第x個有效文檔相對第i個搜索詞的有效值,其中,r為預設的參數,Di為第x個有效文檔被用戶選中的次數,Fi為用戶選中第x個有效文檔之前的翻頁次數。

可以根據搜索日志中,用戶對每個搜索詞對應的搜索結果文檔集中每個文檔的點擊次數,確定點擊次數靠前的m份文檔(Wi1,...,Wim)作為搜索詞Qi的有效文檔集。當然,也可以從每個搜索詞的搜索結果文檔集中任意取m份文檔作為每個搜索詞的有效文檔集。在確定出每個搜索詞的有效文檔集之后,針對一個搜索詞Qi,可以根據公式Rix=r*Di*Fi2確定該搜索詞的有效文檔集中第x個有效文檔相對該搜索詞的有效值。需要說明的是,針對每一個搜索詞,都有具有m個有效文檔的有效文檔集,有效文檔集中的每一個有效文檔都具有相對該搜索詞的有效值。

在一種更具體的實現方式中,對每個搜索詞的重要性進行分析,具體包括:根據公式確定第i個搜索詞的重要性權重值,其中,n為搜索詞集合中搜索詞的總個數,Ci表示搜索詞集合中第i個搜索詞被搜索的次數。可以理解的是,這里是用一個搜索詞被搜索的次數與搜索詞集合中所有搜索詞被搜索的總次數的比值來表征該搜索詞的重要性權重值。也即,如果一個搜索詞被搜索的次數越多,表示該搜索詞的重要性權重值越大,即該搜索詞越重要。

需要說明的是,有效文檔的有效值以及搜索詞的重要性權重值的計算公式中的參數中,除預設參數外,其他參數都可以從搜索日志中獲取。

S103:搜索分析系統以搜索詞集合中的搜索詞在索引字段的不同權重集下進行測試搜索,得到各搜索詞在不同權重集下的測試結果。

其中,權重集是由各索引字段的權重值組合而成集合。

具體地,在本發明實施例中,索引字段的不同權重集指的是索引字段的權重集空間中的各個權重集。也即,以搜索詞集合中的搜索詞遍歷索引字段的權重空間中的每個權重集進行測試搜索,以獲取各搜索詞在不同權重集下的測試結果。

可選的,可以通過以下方法進行測試搜索:通過調整索引字段的權重值來得到索引字段的不同權重集;在每次調整后,以搜索詞集合中的搜索詞在調整后的權重集下進行測試搜索,得到不同權重集下的測試結果。這里的測試結果可以包括:在索引字段的不同權重集下,以每一個搜索詞進行測試搜索后得到的由測試文檔組成的測試文檔集。

需要說明的是,在進行測試搜索時,為了不影響搜索系統的正常運行,可以設置一個用于測試搜索的索引庫。該用于測試搜索的索引庫與搜索系統中的索引庫完全一樣,再在該用于測試搜索的索引庫中以搜索詞集合中的搜索詞在不同的權重集進行測試搜索。

S104:搜索分析系統利用從搜索日志得到的關于有效性的分析結果測算每個權重集下的測試結果的有效值。

具體地,在得到各搜索詞在不同權重集下的測試結果后,可以根據S102中得到的有效性的分析結果測算每個權重集下的測試結果的有效值。

可選的,可以采用以下過程測算每個權重集下的測試結果的有效值:從各權重集的測試結果中提取用于進行測算的測算文檔集;確定測試搜索中搜索到測算文檔集的搜索詞,從測算文檔集中識別出包括在測算文檔集對應的搜索詞的有效文檔集中的文檔;從關于有效性的分析結果中獲取識別出的測算文檔的有效值;根據每個權重集下識別出的測算文檔的有效值計算權重集下的測試結果的有效值。

在從各權重集的測試結果中提取用于進行測算的測算文檔集時,可以是從由測試文檔組成的測試文檔集中選取位于前z個的測試文檔作為測算文檔集。再確定該測算文檔集對應的搜索詞。測算文檔集中,有的測算文檔包括在該測算文檔集對應的搜索詞的有效文檔集中,有的測算文檔不包括在該測算文檔集對應的搜索詞的有效文檔集中。識別出包括在測算文檔集對應的搜索詞的有效文檔集中的文檔。

在一種更具體的實現方式中,可以根據公式確定第i個搜索詞對應的測算文檔集相對第i個搜索詞的測試搜索有效值,其中,Ti為第i個搜索詞的重要性權重值,z為測算文檔集中測算文檔的總個數,R'ix為測算文檔集中第x個測算文檔相對第i個搜索詞的測試搜索有效值,當第x個測算文檔為識別出的測算文檔時,R'ix=Rix,當第x個測算文檔不是識別出的測算文檔時,R'ix=0;根據公式確定第x個權重集下的測試結果的有效值。即,在計算每個權重集下的測試結果的有效值時,先確定出在該權重集下,每一個搜索詞的測試搜索有效值,再將n個搜索詞的測試搜索有效值相加,即可得到該權重集下的測試結果的有效值。采用此實現方式可以獲取每個權重集下的測試結果的有效值。

S105:搜索分析系統確定各測試結果的有效值中滿足預設條件的有效值,將滿足預設條件的有效值對應的權重集作為索引字段的最優權重集。

具體地,這里的預設條件可以為各測試結果的有效值中最大的有效值,也可以是各測試結果的有效值中大于預設閾值的有效值。本發明實施例對此不做限制。

當預設條件為各測試結果的有效值中最大的有效值時,首先確定出測試結果的有效值中最大的有效值,再將該最大的有效值對應的權重集作為索引字段的最優權重集。當預設條件為各測試結果的有效值中大于預設閾值的有效值時,首先確定出測試結果的有效值中大于預設閾值的有效值,如果有多個測試結果的有效值大于預設閾值,則從這些多個有效值中隨機選取一個有效值,再將該有效值對應的權重集作為索引字段的最優權重集。

S106:搜索分析系統以最優權重集對搜索系統中的索引字段的權重值進行更新。

具體地,在確定出最優權重集后,用該權重集更新搜索系統中的索引字段的當前的權重值。當更新完成后,用戶在進行搜索時,搜索結果會更滿足用戶的需求。

下面對S101中,確定獲取搜索系統的搜索日志的時機的第二種可能的實現方式中,計算搜索系統的搜索的當前有效值的實現過程作一詳細說明:可以根據已經確定的搜索詞集合,對搜索詞集合中每個搜索詞的搜索進行有效性分析,即,得到每個搜索詞的有效文檔集、有效文檔集中每個有效文檔的有效值以及搜索詞的重要性權重值。需要說明的是,該過程與S102的區別在于,搜索詞集合可能不同,也可能相同。該過程中的搜索詞集合為上一次進行優化搜索結果的方法時根據搜索日志選取的搜索詞集合。而S102中,搜索詞集合為在搜索系統的當前權重集下,根據搜索日志重新選取的搜索詞集合。類似地,根據S102中計算搜索詞有效值的公式確定當前權重集下有效文檔的有效值,以及,搜索詞的重要性權重值。之后,根據S104中計算測算文檔集相對第i個搜索詞的測試搜索有效值的公式計算有效文檔集的測試搜索有效值,再根據計算第x個權重集下的測試結果的有效值的公式計算當前權重集下的當前有效值。在獲取到當前有效值后,比較當前有效值與預設的有效值閾值,在當前有效值小于預設的有效值閾值,確定執行優化搜索結果的方法。即,開始執行S101。

本發明實施例提供的優化搜索結果的方法,通過獲取搜索系統的搜索日志,搜索日志中包括發生過的搜索中的搜索詞信息、搜索結果信息及用戶的操作信息,從搜索詞信息中確定出用于測試的搜索詞集合,并根據搜索詞信息、搜索結果信息及用戶的操作信息對搜索詞集合中每個搜索詞的搜索進行有效性分析,得到關于有效性的分析結果,以搜索詞集合中的搜索詞在索引字段的不同權重集下進行測試搜索,得到各搜索詞在不同權重集下的測試結果,權重集是由各索引字段的權重值組合而成的集合,利用從搜索日志得到的關于有效性的分析結果測算每個權重集下的測試結果的有效值,確定各測試結果的有效值中滿足預設條件的有效值,將滿足預設條件的有效值對應的權重集作為索引字段的最優權重集,以最優權重集對搜索系統中的索引字段的權重值進行更新,實現了在搜索系統的運行過程中,可以根據搜索日志得到每個搜索詞的有效性的分析結果,再根據該分析結果去測算每個權重集下的測試結果的有效值,進而,根據每個權重集下的測試結果的有效值確定索引字段的最優權重集,對索引字段的權重值進行更新,在搜索系統上線之后,可以根據搜索日志持續實現對搜索結果的優化,相較于無法持續對搜索結果進行優化的方式,可以實現不斷優化搜索結果,從而,提高了用戶的搜索體驗。

可選的,在另一種實現方式中,針對上述實施例的S102,進行有效性分析時,還可以是以下過程:搜索分析系統對每個搜索詞所產生的搜索結果中的文檔的有效性進行分析,相應地,得到關于有效性的分析結果包括:得到每個搜索詞的有效文檔集以及有效文檔集中每個有效文檔的有效值。該種實現方式中與上述實施例中S102的區別在于,在進行有效性分析時,不對每個搜索詞的重要性進行分析。

則基于該實現方式,利用從搜索日志得到的關于有效性的分析結果測算每個權重集下的測試結果的有效值中的過程與上述實施例中的S104區別在于,在根據每個權重集下識別出的測算文檔的有效值計算權重集下的測試結果的有效值時,在本實現方式中,是根據公式確定第i個搜索詞對應的測算文檔集相對第i個搜索詞的測試搜索有效值,其中,z為測算文檔集中測算文檔的總個數,R'ix為測算文檔集中第x個測算文檔相對第i個搜索詞的測試搜索有效值,當第x個測算文檔為識別出的測算文檔時,R'ix=Rix,當第x個測算文檔不是識別出的測算文檔時,R'ix=0;根據公式確定第x個權重集下的測試結果的有效值。

該實現過程相較于上述實施例,在進行有效性分析時更加簡便快捷,同時,在確定測試結果的有效值時更加簡便快捷,提高了優化搜索結果的效率。

圖3為本發明實施例提供的優化搜索結果的裝置實施例一的結構示意圖。本發明實施例提供的優化搜索結果的裝置可以是方法實施例中的搜索分析系統,用于對搜索系統進行分析,搜索系統提供不同的索引字段。如圖3所示,本發明實施例提供的優化搜索結果的裝置包括如下模塊:

獲取模塊31,用于獲取搜索系統的搜索日志。

其中,搜索日志中包括發生過的搜索中的搜索詞信息、搜索結果信息及用戶的操作信息。

具體地,獲取模塊31的實現過程和技術原理與圖2所示實施例中的S101的實現過程和技術原理類似,此處不再贅述。

有效性分析模塊32,用于從搜索詞信息中確定出用于測試的搜索詞集合,并根據搜索詞信息、搜索結果信息及用戶的操作信息對搜索詞集合中每個搜索詞的搜索進行有效性分析,得到關于有效性的分析結果。

在第一種可能的實現方式中,有效性分析模塊32可以包括:有效性分析子模塊321和重要性分析子模塊322。其中,有效性分析子模塊321,用于對每個搜索詞所產生的搜索結果中的文檔的有效性進行分析。重要性分析子模塊322,用于對每個搜索詞的重要性進行分析。相應地,得到關于有效性的分析結果包括:得到每個搜索詞的有效文檔集、有效文檔集中每個有效文檔的有效值以及得到每個搜索詞的重要性權重值。

在第二種可能的實現方式中,有效性分析模塊32包括:有效性分析子模塊321。有效性分析子模塊321,用于對每個搜索詞所產生的搜索結果中的文檔的有效性進行分析。相應地,得到關于有效性的分析結果包括:得到每個搜索詞的有效文檔集以及有效文檔集中每個有效文檔的有效值。

可選的,有效性分析子模塊321具體用于:確定每個搜索詞的有效文檔集;根據公式Rix=r*Di*Fi2確定有效文檔集中第x個有效文檔相對第i個搜索詞的有效值,其中,r為預設的參數,Di為第x個有效文檔被用戶選中的次數,Fi為用戶選中第x個有效文檔之前的翻頁次數。

重要性分析子模塊322具體用于:根據公式確定第i個搜索詞的重要性權重值,其中,n為搜索詞集合中搜索詞的總個數,Ci表示搜索詞集合中第i個搜索詞被搜索的次數。

有效性分析模塊32的實現過程和技術原理與圖2所示實施例中的S102的實現過程和技術原理類似,此處不再贅述。

測試搜索模塊33,用于以搜索詞集合中的搜索詞在索引字段的不同權重集下進行測試搜索,得到各搜索詞在不同權重集下的測試結果。

其中,權重集是由各索引字段的權重值組合而成集合。

可選的,測試搜索模塊33具體用于:通過調整索引字段的權重值來得到索引字段的不同權重集;在每次調整后,以搜索詞集合中的搜索詞在調整后的權重集下進行測試搜索,得到不同權重集下的測試結果。

測試搜索模塊33的實現過程和技術原理與圖2所示實施例中的S103的實現過程和技術原理類似,此處不再贅述。

測算模塊34,用于利用從搜索日志得到的關于有效性的分析結果測算每個權重集下的測試結果的有效值。

具體地,測算模塊34包括:提取子模塊341,用于從各權重集的測試結果中提取用于進行測算的測算文檔集;識別子模塊342,用于確定測試搜索中搜索到測算文檔集的搜索詞,從測算文檔集中識別出包括在測算文檔集對應的搜索詞的有效文檔集中的文檔;獲取子模塊343,用于從關于有效性的分析結果中獲取識別出的測算文檔的有效值;計算子模塊344,用于根據每個權重集下識別出的測算文檔的有效值計算權重集下的測試結果的有效值。

針對有效性分析模塊32的第一種可能的實現方式,計算子模塊344具體用于:根據公式確定第i個搜索詞對應的測算文檔集相對第i個搜索詞的測試搜索有效值,其中,Ti為第i個搜索詞的重要性權重值,z為測算文檔集中測算文檔的總個數,R'ix為測算文檔集中第x個測算文檔相對第i個搜索詞的測試搜索有效值,當第x個測算文檔為識別出的測算文檔時,R'ix=Rix,當第x個測算文檔不是識別出的測算文檔時,R'ix=0;根據公式確定第x個權重集下的測試結果的有效值。

針對有效性分析模塊32的第二種可能的實現方式,計算子模塊344具體用于:根據公式確定第i個搜索詞對應的測算文檔集相對第i個搜索詞的測試搜索有效值,其中,z為測算文檔集中測算文檔的總個數,R'ix為測算文檔集中第x個測算文檔相對第i個搜索詞的測試搜索有效值,當第x個測算文檔為識別出的測算文檔時,R'ix=Rix,當第x個測算文檔不是識別出的測算文檔時,R'ix=0;根據公式確定第x個權重集下的測試結果的有效值。

測算模塊34的實現過程和技術原理與圖2所示實施例中的S104的實現過程和技術原理類似,此處不再贅述。

確定模塊35,用于確定各測試結果的有效值中滿足預設條件的有效值,將滿足預設條件的有效值對應的權重集作為索引字段的最優權重集。

確定模塊35的實現過程和技術原理與圖2所示實施例中的S105的實現過程和技術原理類似,此處不再贅述。

更新模塊36,用于以最優權重集對搜索系統中的索引字段的權重值進行更新。

更新模塊36的實現過程和技術原理與圖2所示實施例中的S106的實現過程和技術原理類似,此處不再贅述。

本發明實施例提供的優化搜索結果的裝置,通過設置獲取模塊,用于獲取搜索系統的搜索日志,有效性分析模塊,用于從搜索詞信息中確定出用于測試的搜索詞集合,并根據搜索詞信息、搜索結果信息及用戶的操作信息對搜索詞集合中每個搜索詞的搜索進行有效性分析,得到關于有效性的分析結果,測試搜索模塊,用于以搜索詞集合中的搜索詞在索引字段的不同權重集下進行測試搜索,得到各搜索詞在不同權重集下的測試結果,測算模塊,用于利用從搜索日志得到的關于有效性的分析結果測算每個權重集下的測試結果的有效值,確定模塊,用于確定各測試結果的有效值中滿足預設條件的有效值,將滿足預設條件的有效值對應的權重集作為索引字段的最優權重集,更新模塊,用于以最優權重集對搜索系統中的索引字段的權重值進行更新,實現了在搜索系統的運行過程中,可以根據搜索日志得到每個搜索詞的有效性的分析結果,再根據該分析結果去測算每個權重集下的測試結果的有效值,進而,根據每個權重集下的測試結果的有效值確定索引字段的最優權重集,對索引字段的權重值進行更新,在搜索系統上線之后,可以根據搜索日志持續實現對搜索結果的優化,相較于無法持續對搜索結果進行優化的方式,可以實現不斷優化搜索結果,從而,提高了用戶的搜索體驗。

圖4為本發明實施例提供的優化搜索結果的裝置實施例二的結構示意圖。本發明實施例提供的優化搜索結果的裝置是對搜索分析系統的硬件結構進行介紹。如圖4所示,本發明實施例提供的優化搜索結果的裝置包括:存儲器41和處理器42。存儲器41用于存儲處理器42的可執行指令。

處理器42可以是一個中央處理器(Central Processing Unit,CPU),或者是特定集成電路(Application Specific Integrated Circuit,ASIC),或者是完成實施本發明實施例的一個或多個集成電路。當優化搜索結果的程序運行時,處理器42與存儲器41之間通信,處理器42調用可執行指令,用于執行以下操作:

獲取搜索系統的搜索日志,搜索日志中包括發生過的搜索中的搜索詞信息、搜索結果信息及用戶的操作信息;從搜索詞信息中確定出用于測試的搜索詞集合,并根據搜索詞信息、搜索結果信息及用戶的操作信息對搜索詞集合中每個搜索詞的搜索進行有效性分析,得到關于有效性的分析結果;以搜索詞集合中的搜索詞在索引字段的不同權重集下進行測試搜索,得到各搜索詞在不同權重集下的測試結果;權重集是由各索引字段的權重值組合而成集合;利用從搜索日志得到的關于有效性的分析結果測算每個權重集下的測試結果的有效值;確定各測試結果的有效值中滿足預設條件的有效值,將滿足預設條件的有效值對應的權重集作為索引字段的最優權重集;以最優權重集對搜索系統中的索引字段的權重值進行更新。

具體地,在以搜索詞集合中的搜索詞在索引字段的不同權重集下進行測試搜索的方面,處理器42具體用于:通過調整索引字段的權重值來得到索引字段的不同權重集;在每次調整后,以搜索詞集合中的搜索詞在調整后的權重集下進行測試搜索,得到不同權重集下的測試結果。

在一種可能的實現方式中,在有效性分析的方面,處理器42用于:對每個搜索詞所產生的搜索結果中的文檔的有效性進行分析;相應的,得到關于有效性的分析結果包括:得到每個搜索詞的有效文檔集以及有效文檔集中每個有效文檔的有效值。

在利用從搜索日志得到的關于有效性的分析結果測算每個權重集下的測試結果的有效值的方面,處理器42具體用于:從各權重集的測試結果中提取用于進行測算的測算文檔集;確定測試搜索中搜索到測算文檔集的搜索詞,從測算文檔集中識別出包括在測算文檔集對應的搜索詞的有效文檔集中的文檔;從關于有效性的分析結果中獲取識別出的測算文檔的有效值;根據每個權重集下識別出的測算文檔的有效值計算權重集下的測試結果的有效值。

在對每個搜索詞所產生的搜索結果中的文檔的有效性進行分析的方面,處理器42具體用于:確定每個搜索詞的有效文檔集;根據公式Rix=r*Di*Fi2確定有效文檔集中第x個有效文檔相對第i個搜索詞的有效值,其中,r為預設的參數,Di為第x個有效文檔被用戶選中的次數,Fi為用戶選中第x個有效文檔之前的翻頁次數。

在根據每個權重集下識別出的測算文檔的有效值計算權重集下的測試結果的有效值的方面,處理器42具體用于:根據公式確定第i個搜索詞對應的測算文檔集相對第i個搜索詞的測試搜索有效值,其中,z為測算文檔集中測算文檔的總個數,R'ix為測算文檔集中第x個測算文檔相對第i個搜索詞的測試搜索有效值,當第x個測算文檔為識別出的測算文檔時,R'ix=Rix,當第x個測算文檔不是識別出的測算文檔時,R'ix=0;根據公式確定第x個權重集下的測試結果的有效值。

在另一種可能的實現方式中,在有效性分析的方面,處理器42還用于:對每個搜索詞的重要性進行分析;相應的,得到關于有效性的分析結果還包括:得到每個搜索詞的重要性權重值。相應地,在根據每個權重集下識別出的測算文檔的有效值計算權重集下的測試結果的有效值的方面,處理器42具體用于:根據公式確定第i個搜索詞對應的測算文檔集相對第i個搜索詞的測試搜索有效值,其中,Ti為第i個搜索詞的重要性權重值,z為測算文檔集中測算文檔的總個數,R'ix為測算文檔集中第x個測算文檔相對第i個搜索詞的測試搜索有效值,當第x個測算文檔為識別出的測算文檔時,R'ix=Rix,當第x個測算文檔不是識別出的測算文檔時,R'ix=0;根據公式確定第x個權重集下的測試結果的有效值。

可選的,在對每個搜索詞的重要性進行分析的方面,處理器42具體用于:根據公式確定第i個搜索詞的重要性權重值,其中,n為搜索詞集合中搜索詞的總個數,Ci表示搜索詞集合中第i個搜索詞被搜索的次數。

本發明實施例提供的優化搜索結果的裝置中,處理器42執行的詳細的處理過程可參考方法實施例中圖2所示的S102~S106,此處不再贅述。

本發明實施例提供的優化搜索結果的裝置,實現在搜索系統的運行過程中,可以根據搜索日志得到每個搜索詞的有效性的分析結果,再根據該分析結果去測算每個權重集下的測試結果的有效值,進而,根據每個權重集下的測試結果的有效值確定索引字段的最優權重集,對索引字段的權重值進行更新,在搜索系統上線之后,可以根據搜索日志持續實現對搜索結果的優化,相較于無法持續對搜索結果進行優化的方式,可以實現不斷優化搜索結果,從而,提高了用戶的搜索體驗。

本領域普通技術人員可以理解:實現上述各方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成。前述的程序可以存儲于一計算機可讀取存儲介質中。該程序在執行時,執行包括上述各方法實施例的步驟;而前述的存儲介質包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質。

最后應說明的是:以上各實施例僅用以說明本發明的技術方案,而非對其限制;盡管參照前述各實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發明各實施例技術方案的范圍。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影