<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

一種用于基于地域和行業進行熱點事件挖掘的方法和設備的制作方法

文檔序號:6524161閱讀:241來源:國知局
一種用于基于地域和行業進行熱點事件挖掘的方法和設備的制作方法
【專利摘要】本發明公開了一種用于基于地域和行業進行熱點事件挖掘的方法和設備。該方法包括:從網絡獲取文檔;對每篇文檔進行分詞處理,并確定每篇文檔中各分詞的權重;根據所述權重確定每篇文檔的關鍵詞;對每篇文檔的內容進行地域和行業劃分;對內容屬于同一地域同一行業的各篇文檔的關鍵詞進行關聯,形成關鍵詞組,并確定每個關鍵詞組的權重;以及按照所述關鍵詞組的權重確定該地域該行業下的熱點事件。由于是針對特定地域和特定行業進行挖掘,因此可根據用戶請求,向用戶提供其所關心的地域行業下的熱點事件。并且,還可以減少挖掘時間,降低計算量,節省系統資源。
【專利說明】一種用于基于地域和行業進行熱點事件挖掘的方法和設備
【技術領域】
[0001]本發明涉及信息搜索領域,具體地,涉及一種用于基于地域和行業進行熱點事件挖掘的方法和設備。
【背景技術】
[0002]隨著互聯網的發展,越來越多的用戶通過論壇、微博、博客等平臺來發布各類新聞和發表自己的意見。這就導致在網絡中,每天都有成千上萬的話題產生。如何從網絡的海量信息中挖掘出熱點事件,將對用戶了解社會發展形勢、掌握輿論動態起指導性作用。
[0003]現有的熱點事件挖掘方法是通過從網絡中獲取海量信息,然后從這些海量信息中挖掘出熱點事件。然而,由于缺乏對地域和行業的針對性,因此,通過這種方法挖掘出的熱點事件有時并不是用戶所關心的。此外,針對所有信息進行熱點挖掘會消耗更多的時間,并且計算量非常大,耗費較多的系統資源。

【發明內容】

[0004]本發明的目的是提供一種用于基于地域和行業進行熱點事件挖掘的方法和設備,以向用戶提供其所關心的地域行業下的熱點事件,并且可以減少挖掘時間,降低計算量。
[0005]為了實現上述目的,本發明提供一種用于基于地域和行業進行熱點事件挖掘的方法。該方法包括:從網絡獲取文檔;對每篇文檔進行分詞處理,并確定每篇文檔中各分詞的權重;根據所述權重確定每篇文檔的關鍵詞;對每篇文檔的內容進行地域和行業劃分;對內容屬于同一地域同一行業的各篇文檔的關鍵詞進行關聯,形成關鍵詞組,并確定每個關鍵詞組的權重;以及按照所述關鍵詞組的權重確定該地域該行業下的熱點事件。
[0006]本發明還提供一種用于基于地域和行業進行熱點事件挖掘的設備。該設備包括:用于從網絡獲取文檔的裝置;用于對每篇文檔進行分詞處理,并確定每篇文檔中各分詞的權重的裝置;用于根據所述權重確定每篇文檔的關鍵詞的裝置;用于對每篇文檔的內容進行地域和行業劃分的裝置;用于對內容屬于同一地域同一行業的各篇文檔的關鍵詞進行關聯,形成關鍵詞組,并確定每個關鍵詞組的權重的裝置;以及用于按照所述關鍵詞組的權重確定該地域該行業下的熱點事件的裝置。
[0007]在上述技術方案中,通過對所獲取的文檔的內容進行地域和行業劃分,可以對屬于同一地域同一行業下的文檔信息進行熱點挖掘,以得出當前該地域該行業下的熱點事件。由于是針對特定地域和特定行業進行挖掘,因此可根據用戶請求,向用戶提供其所關心的地域行業下的熱點事件。并且,通過此方法,還可以減少挖掘時間,降低計算量,從而節省系統資源。
[0008]本發明的其他特征和優點將在隨后的【具體實施方式】部分予以詳細說明。
【專利附圖】

【附圖說明】
[0009]附圖是用來提供對本發明的進一步理解,并且構成說明書的一部分,與下面的【具體實施方式】一起用于解釋本發明,但并不構成對本發明的限制。在附圖中:
[0010]圖1是根據本發明的實施方式的用于基于地域和行業進行熱點事件挖掘的方法的流程圖。
【具體實施方式】
[0011]以下結合附圖對本發明的【具體實施方式】進行詳細說明。應當理解的是,此處所描述的【具體實施方式】僅用于說明和解釋本發明,并不用于限制本發明。
[0012]圖1示出了根據本發明的實施方式的用于基于地域和行業進行熱點事件挖掘的方法的流程圖。如圖1所示,該方法可以包括:步驟101,從網絡獲取文檔;步驟102,對每篇文檔進行分詞處理,并確定每篇文檔中各分詞的權重;步驟103,根據所述權重確定每篇文檔的關鍵詞;步驟104,對每篇文檔的內容進行地域和行業劃分;步驟105,對內容屬于同一地域同一行業的各篇文檔的關鍵詞進行關聯,形成關鍵詞組,并確定每個關鍵詞組的權重;以及步驟106,按照所述關鍵詞組的權重確定該地域該行業下的熱點事件。
[0013]具體地,首先,可例如采用開放應用程序編程接口(API)和網絡爬蟲等技術來從網絡獲取文檔信息。例如,可以從微博、論壇、博客等網絡平臺來獲取文檔信息。之后,對所獲取的每篇文檔進行分詞處理。例如,可通過調用系統自身的擴展詞庫來將一篇文檔切分成單獨的詞語。在分詞之后,還可以對每個分詞進行索引,以便進行后續的搜索和統計操作。可以定期更新擴展詞庫中的詞語,以避免新的流行詞語被拆成獨立的字,失去本來的意義,從而使得分詞更加準確。
[0014]優選地,在從網絡獲取文檔之后、并在對每篇文檔進行分詞處理之前,可以先對所獲取到的文檔進行預處理,過濾掉每篇文檔中的無用詞語。所謂“無用詞語”是指通常不屬于熱點事件,但可能對熱點挖掘造成干擾的沒有實際意義的信息。所述“無用詞語”可以例如情感傾向中立、微博發個人牢騷或論壇里純灌水等類似的內容:“我今天去理了個發,吃了飯”;或者亂發廣告類信息:招嫖、考證等。為此,在對文檔進行分詞處理之前,首先過濾掉這些無用詞語,這樣可以減少分詞數量,降低計算量,并且提高關鍵詞提取的準確度。
[0015]此外,根據中文的表達習慣,一些常用詞往往在文中出現很多次數,例如:“的”、“地”、“得”、“是”等等。然而,這些詞通常不起關鍵作用,如果它們被提取出作為分詞,那會對之后的關鍵詞確定造成干擾。因此,本發明將這些詞語也作為無用詞語過濾掉。
[0016]本發明所采用的一種無用詞語過濾方法是預先建立好一個無用詞庫,該無用詞庫里存儲有各種無用詞語。當對文檔進行預處理時,將文檔信息與無用詞庫中預先存儲的無用詞語進行比對。當文檔中出現無用詞庫中存儲的無用詞語時,將該無用詞語去除。用這種方法過濾掉所有無用詞語之后,再對過濾后的文檔進行分詞處理。應當注意的是,雖然本發明采用如上方法來過濾掉文檔中的無用詞語,但本發明不限于此,其余無用詞語或垃圾詞語過濾方法均適用于本發明。
[0017]此外,還可以通過對所獲取的文檔進行過濾來進一步減少計算量。即,所述方法還可以包括在從網絡獲取文檔之后、并在對每篇文檔進行分詞處理之前,基于所獲取的每篇文檔的轉發程度和/或回復程度來對所獲取的文檔進行過濾。例如,若文檔的轉發程度和/或回復程度小于特定閾值,則表明該篇文檔的熱度較低,可以被過濾掉。
[0018]在對文檔進行分詞處理之后,需要確定每篇文檔中各分詞的權重,從而根據所述權重確定出每篇文檔的關鍵詞。分詞權重與分詞在文檔中出現的次數、文檔的轉發程度和回復程度、以及預設的文檔來源(例如,網站)的權重系數(該權重系數的高低能夠反映出文檔來源自身的可信度)中的至少一者有關。
[0019]現有的權重計算方法中大都沒有考慮文檔的轉發量和回復量,以及文檔來源自身的可信度。這樣計算出的分詞權重往往不能全面地反映出該分詞的關鍵程度。為此,優選地,在本發明中,在計算每篇文檔中各分詞的權重時,綜合考慮了各分詞在文檔中出現的次數、文檔的轉發程度和回復程度、以及預設的文檔來源的權重系數,以使得計算出的分詞權重能夠更加全面、真實地體現出該詞的關鍵程度,為后面的關鍵詞確定提供正確的數據支持。
[0020]優選地,上面所述的文檔轉發程度和回復程度是通過對所述文檔的實際轉發量和回復量進行規格化而確定的。所謂規格化是將文檔的各個屬性值按比例映射到相同的取值區間,這樣可以減小文檔之間的差距。所述文檔之間的差距是指文檔的同一屬性的屬性值之間的差距。例如,表1示出了五篇文檔的實際轉發量和回復量。
[0021]表1
[0022]
【權利要求】
1.一種用于基于地域和行業進行熱點事件挖掘的方法,其特征在于,該方法包括: 從網絡獲取文檔; 對每篇文檔進行分詞處理,并確定每篇文檔中各分詞的權重; 根據所述權重確定每篇文檔的關鍵詞; 對每篇文檔的內容進行地域和行業劃分; 對內容屬于同一地域同一行業的各篇文檔的關鍵詞進行關聯,形成關鍵詞組,并確定每個關鍵詞組的權重;以及 按照所述關鍵詞組的權重確定該地域該行業下的熱點事件。
2.根據權利要求1所述的方法,其特征在于,通過以下方式來對每篇文檔的內容進行地域和行業劃分: 從每篇文檔中的分詞中選取表示地域的分詞和表示行業的分詞; 對所述表示地域的分詞和所述表示行業的分詞進行詞頻統計,選出詞頻最高的三個表示地域的分詞和三個表示行業的分詞; 通過比對所述三個表示地域的分詞與地域詞庫中記載的詞語、以及比對所述三個表示行業的分詞與行業詞庫中記載的詞語,來對每篇文檔的內容進行地域和行業劃分。
3.根據權利要求1所述的方法,其特征在于,該方法還包括: 在從網絡獲取文檔之后、并 在對每篇文檔進行分詞處理之前,過濾掉每篇文檔中的無用詞語。
4.根據權利要求1所述的方法,其特征在于,該方法還包括: 在從網絡獲取文檔之后、并在對每篇文檔進行分詞處理之前,基于所獲取的每篇文檔的轉發程度和/或回復程度來對所獲取的文檔進行過濾。
5.根據權利要求1所述的方法,其特征在于,所述每篇文檔中各分詞的權重與各分詞在文檔中出現的次數、文檔的轉發程度和回復程度、以及預設的文檔來源的權重系數中的至少一者有關。
6.根據權利要求4或5所述的方法,其特征在于,所述轉發程度和回復程度是通過對所述文檔的實際轉發量和回復量進行規格化而確定的。
7.根據權利要求6所述的方法,其特征在于,所述每篇文檔中各分詞的權重是通過以下方式確定的:
M

F-- TF ----
,J MAY{~|/c = (l,2,.",7')}
Wij = TFijXFi 其中,Fu表示第i個分詞在第j篇文檔出現的次數; Rij表示針對包括第i個分詞的第j篇文檔的轉發程度; Cij表示針對包括第i個分詞的第j篇文檔的回復程度; Wij表示包括第i個分詞的第j篇文檔的來源的權重系數; Fi表示第i個分詞在所有文檔中的詞頻數;Fkj表示第j篇文檔中的第k個分詞在該第j篇文檔中出現的次數; TFij表示第i個分詞在第j篇文檔中的詞頻數; Wij表示第i個分詞在第j篇文檔中所占的權重; T表示第j篇文檔中的分詞總數;以及 η表示文檔總數。
8.根據權利要求1所述的方法,其特征在于,所述關鍵詞組的權重是通過以下方式確定的: 確定形成關鍵詞組的每個關鍵詞在內容屬于同一地域同一行業的每篇文檔中的詞頻-逆文檔頻率值(TF-1DF); 根據所確定出的TF-1DF值來確定該關鍵詞組在內容屬于同一地域同一行業的每篇文檔中的權重;以及 根據所確定出的該關鍵詞組在內容屬于同一地域同一行業的每篇文檔中的權重來確定該關鍵詞組在內容屬于同一地域同一行業的所有文檔中的權重,并將該權重作為該關鍵詞組的權重。
9.根據權利要求8所述的方法,其特征在于,通過以下方式確定所述TF-1DF值:
10.一種用于基于地域和行業進行熱點事件挖掘的設備,其特征在于,該設備包括: 用于從網絡獲取文檔的裝置; 用于對每篇文檔進行分詞處理,并確定每篇文檔中各分詞的權重的裝置; 用于根據所述權重確定每篇文檔的關鍵詞的裝置; 用于對每篇文檔的內容進行地域和行業劃分的裝置; 用于對內容屬于同一地域同一行業的各篇文檔的關鍵詞進行關聯,形成關鍵詞組,并確定每個關鍵詞組的權重的裝置;以及 用于按照所述關鍵詞組的權重確定該地域該行業下的熱點事件的裝置。
11.根據權利要求10所述的設備,其特征在于,通過以下方式來對每篇文檔的內容進行地域和行業劃分: 從每篇文檔中的分詞中選取表示地域的分詞和表示行業的分詞; 對所述表示地域的分詞和所述表示行業的分詞進行詞頻統計,選出詞頻最高的三個表示地域的分詞和三個表示行業的分詞; 通過比對所述三個表示地域的分詞與地域詞庫中記載的詞語、以及比對所述三個表示行業的分詞與行業詞庫中記載的詞語,來對每篇文檔的內容進行地域和行業劃分。
12.根據權利要求10所述的設備,其特征在于,該設備還包括: 用于在從網絡獲取文檔之后、并在對每篇文檔進行分詞處理之前,過濾掉每篇文檔中的無用詞語的裝置。
13.根據權利要求10所述的設備,其特征在于,該設備還包括: 用于在從網絡獲取文檔之后、并在對每篇文檔進行分詞處理之前,基于所獲取的每篇文檔的轉發程度和/或回復程度來對所獲取的文檔進行過濾的裝置。
14.根據權利要求10所述的設備,其特征在于,所述每篇文檔中各分詞的權重與各分詞在文檔中出現的次數、文檔的轉發程度和回復程度、以及預設的文檔來源的權重系數中的至少一者有關。
15.根據權利要求13或14所述的設備,其特征在于,所述轉發程度和回復程度是通過對所述文檔的實際轉發量和回復量進行規格化而確定的。
16.根據權利要求15所述的設備,其特征在于,所述每篇文檔中各分詞的權重是通過以下方式確定的:
17.根據權利要求10所述的設備,其特征在于,所述關鍵詞組的權重是通過以下方式確定的: 確定形成關鍵詞組的每個關鍵詞在內容屬于同一地域同一行業的每篇文檔中的詞頻-逆文檔頻率值(TF-1DF); 根據所確定出的TF-1DF值來確定該關鍵詞組在內容屬于同一地域同一行業的每篇文檔中的權重;以及 根據所確定出的該關鍵詞組在內容屬于同一地域同一行業的每篇文檔中的權重來確定該關鍵詞組在內容屬于同一地域同一行業的所有文檔中的權重,并將該權重作為該關鍵詞組的權重。
18.根據權利要求17所述的設備,其特征在于,通過以下方式確定所述TF-1DF值:
【文檔編號】G06F17/27GK103714132SQ201310693571
【公開日】2014年4月9日 申請日期:2013年12月17日 優先權日:2013年12月17日
【發明者】劉雪平 申請人:北京本果信息技術有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影