<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

文本樣本條目組制定的制作方法

文檔序號:9916591閱讀:439來源:國知局
文本樣本條目組制定的制作方法
【專利說明】文本樣本條目組制定
[0001 ] 背景
[0002]計算機和計算系統已經影響了現代生活的近乎每一個方面。計算系統正提供越來 越復雜且精致的功能。這樣的功能通常主要由底層軟件驅動,該底層軟件自身正變得越來 越復雜。更精致的功能中的某些涉及使用網絡相互通信的計算系統。例如,互聯網是構成計 算網絡的世界范圍的聯盟,其允許計算系統完成世界范圍的通信。
[0003]通信中的這一提高的能力已經允許信息被更容易地共享,并且是當代經常被稱為 "信息時代"的一大原因。提高的通信便利度有助于開發數據中心,即包含大量數據處理和 存儲能力的建筑物。由此對計算系統上的用戶可用的信息量不再受限于計算系統的本地存 儲,而是擴展到該計算系統可以從全世界的其它計算系統和數據中心訪問的幾乎無限多種 類的信息。
[0004] 然而,人只對一些信息感興趣,并且人的興趣因人而異且隨時間變化。因此,存在 用于對大量信息進行分類并向用戶提供更感興趣的信息的機制。用于這樣做的常規機制包 括web瀏覽器、搜索引擎、社交網絡等。
[0005] 此處要求保護的主題不限于解決任何缺點或僅在諸如上述環境這樣的環境中操 作的各實施例。相反,提供該背景僅用于例示其中可實現所述一些實施例的一個示例性技 術領域。
[0006] 簡要概述
[0007] 本文描述的至少一些實施例涉及以可以快速搜索文本樣本的方式對文本樣本進 行存儲。文本樣本被分配文本樣本標識符并且各自被解析以由此從文本樣本中提取文本分 量。具有相同內容的文本分量被分配相同的文本分量標識符。對于所解析的每一文本分量, 創建文本分量條目,該文本分量條目包括所分配的文本分量標識符以及從中解析出該文本 分量的文本樣本的文本樣本標識符。為每一文本樣本創建文本樣本條目組,該文本樣本條 目組按序包含對應于文本樣本內發現的文本分量的文本分量條目。存儲文本樣本條目組以 使得可以在將來搜索期間掃描。
[0008] 在搜索時,可只在單次掃描中掃描所存儲的文本樣本條目組。對文本分量序列的 搜索可通過掃描文本分量條目來執行,并且在每一次遇到對應于序列中的第一文本分量的 文本分量標識符時,驗證后續文本分量標識符是否完成該序列。搜尋包括或排除特定文本 分量的文本樣本可通過掃描文本分量條目以尋找這些文本分量中的任一個來進行。
[0009] 在一個實施例中,可為正由于被包括在文本樣本中或被排除在文本樣本外而被搜 索的每一文本分量提供位圖。在該情形中,該位圖中的每一位或許對應于特定文本樣本,并 且用于記錄是否在相應的文本樣本中找到相應的文本分量。一旦遇到文本序列或文本分 量,就評估對應的文本分量條目中所包括的文本樣本標識符以確定文本樣本并且標記對應 位。可以對位圖執行逐位邏輯操作以找到包括和/或排除特定文本分量的文本樣本。
[0010] 提供本概述以便以簡化的形式介紹將在以下的詳細描述中進一步描述的一些概 念。本概述并非旨在標識出要求保護的主題的關鍵特征或必要特征,亦非旨在用作輔助確 定要求保護的主題的范圍。
[0011] 附圖簡述
[0012] 為了描述可獲得本發明的上述和其它優點和特征的方式,將通過參考附圖中示出 的本發明的具體實施例來呈現以上簡要描述的本發明的更具體描述。可以理解,這些附圖 只描繪了本發明的各典型實施例,并且因此不被認為是對其范圍的限制,將通過使用附圖 并利用附加特征和細節來描述和解釋本發明,在附圖中:
[0013] 圖1示出了其中可采用本文中所描述的原理的示例計算系統;
[0014] 圖2示出了存儲系統,該存儲系統包括用于制定文本分量條目并將其提供給存儲 的存儲機制以及本文描述的原理可以在其中操作的搜索機制;
[0015] 圖3示出了根據本文描述的原理的用于存儲文本樣本的方法的流程圖;
[0016] 圖4示出了用于通過創建文本樣本條目組來使文本樣本準備好存儲的方法的流程 圖;
[0017] 圖5示出了用于創建文本分量條目的方法的流程圖,該方法可被執行多次以完成 圖4的方法;
[0018] 圖6示出了與圖4和5的方法相關聯地執行的示例數據流;以及
[0019] 圖7示出了用于對圖2的存儲系統執行序列搜索的方法的流程圖;以及
[0020] 圖8示出了用于對圖2的存儲系統執行包括/排除搜索的方法的流程圖。
[0021 ] 詳細描述
[0022] 本文描述的至少一些實施例涉及以可以快速搜索文本樣本的方式對文本樣本進 行存儲。文本樣本被分配文本樣本標識符并且各自被解析以由此從文本樣本中提取文本分 量。具有相同內容的文本分量被分配相同的文本分量標識符。對于所解析的每一文本分量, 創建文本分量條目,該文本分量條目包括所分配的文本分量標識符以及從中解析出該文本 分量的文本樣本的文本樣本標識符。為每一文本樣本創建文本樣本條目組,該文本樣本條 目組按序包含對應于文本樣本內發現的文本分量的文本分量條目。存儲文本樣本條目組以 使得可以在將來搜索期間掃描。
[0023] 在搜索時,可只在單次掃描中掃描所存儲的文本樣本條目組。對文本分量序列的 搜索可通過掃描文本分量條目來執行,并且在每一次遇到對應于序列中的第一文本分量的 文本分量標識符時,驗證后續文本分量標識符是否完成該序列。搜尋包括或排除特定文本 分量的文本樣本可通過掃描文本分量條目以尋找這些文本分量中的任一個來進行。
[0024] 在一個實施例中,可為正由于被包括在文本樣本中或被排除在文本樣本外而被搜 索的每一文本分量提供位圖。在該情形中,該位圖中的每一位對應于特定文本樣本,并且用 于記錄是否在相應的文本樣本中找到相應的文本分量。一旦遇到文本序列或文本分量,就 評估對應的文本分量條目中所包括的文本樣本標識符以確定文本樣本并且標記對應位。可 以對位圖執行逐位邏輯操作以找到包括和/或排除特定文本分量的文本樣本。
[0025] 盡管用結構特征和/或方法動作專用的語言描述了本主題,但可以理解,所附權利 要求書中定義的主題不必限于上述特征或動作或上述動作的次序。相反,上述特征和動作 是作為實現權利要求的示例形式而公開的。
[0026] 計算系統現在越來越多地采取多種多樣的形式。例如,計算系統可以是手持式設 備、電器、膝上型計算機、臺式計算機、大型機、分布式計算系統或甚至常規上不被認為是計 算系統的設備。在本說明書以及權利要求書中,術語"計算系統"被廣義地定義為包括任何 設備或系統(或其組合),該設備或系統包含至少一個物理且有形的處理器以及其上能具有 可由處理器執行的計算機可執行指令的物理且有形的存儲器。計算系統可以分布在網絡環 境中,并可包括多個組分計算系統。
[0027] 如圖1所例示,在其最基本的配置中,計算系統100通常包括至少一個處理單元102 和存儲器104。存儲器104可以是物理系統存儲器,該物理系統存儲器可以是易失性的、非易 失性的、或兩者的某種組合。術語"存儲器"也可在此用來指示諸如物理存儲介質這樣的非 易失性大容量存儲器。如果計算系統是分布式的,則處理、存儲器和/或存儲能力也可以是 分布式的。
[0028] 如本文中所使用的,術語"可執行模塊"或"可執行組件"可以指可以在計算系統上 執行的軟件對象、例程或方法。此處所描述的不同組件、模塊、引擎以及服務可以實現為在 計算系統上執行的對象或進程(例如,作為分開的線程)。
[0029]在隨后的描述中,參考由一個或多個計算系統執行的動作描述了各實施例。如果 這樣的動作是以軟件實現的,則執行動作的相關聯計算系統的一個或多個處理器響應于已 經執行了計算機可執行指令來引導計算系統的操作。例如,這樣的計算機可執行指令可以 在形成計算機程序產品的一個或多個計算機可讀介質上實現。這樣的操作的示例涉及對數 據的操縱。計算機可執行指令(以及被操縱的數據)可以存儲在計算系統100的存儲器104 中。計算系統100還可包含允許計算系統100例如通過網絡110與其他消息處理器通信的通 信信道108。
[0030] 在此描述的各實施例可包括或利用專用或通用計算機系統,該專用或通用計算機 系統包括諸如例如一個或多個處理器和系統存儲器等計算機硬件,如以下更詳細討論的。 系統存儲器可被包括在整體存儲器104內。系統存儲器還可被稱為"主存儲器",并且包括可 被至少一個處理單元1
當前第1頁1 2 3 4 5 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影