文本資料庫包括最龐大的收集檔。他們從幾個來源,如新聞文章,書籍,數字圖書館,電子郵件和網頁等。由於增加的資訊量收集這些資訊,文本資料庫正在迅速增長。在許多文本資料庫的數據結構半。
例如,一個文檔可能包含一些結構化的字段,如標題,作者,publishing_date等,但隨著結構數據的文檔也包含非結構化的文本成分,如摘要和內容。不知道什麼可能是在文檔中,因此很難制定有效的查詢,用於從數據分析和提取有用的資訊。要比較的檔和排名的文檔的用戶需要的工具的重要性和相關性。因此,文本挖掘已經成為流行和重要的主題,在數據挖掘。
資訊檢索
資訊檢索處理的資訊從大量的基於文本的文檔檢索。一些資料庫系統通常不存在於資訊檢索系統中,因為兩個處理不同類型的數據。以下是資訊檢索系統中的示例:
-
線上圖書目錄系統
-
線上檔管理系統
-
站內搜索系統等。
注: 在資訊檢索系統的主要問題是要根據用戶的查詢在一個文檔集合查找相關文檔。這種用戶的查詢是由一些關鍵字的描述資訊需要。
在這種類型的搜索問題的用戶採取主動從集合拉的相關資訊了。這是適當的時候用戶有臨時需要的資訊即短期需要。但如果用戶有長期需要的資訊,然後在檢索系統也可以主動採取任何新到達的資訊項推給用戶。
這種獲取資訊的被稱為資訊過濾。和相應的系統被稱為過濾系統或推薦系統。
用於文本檢索的基本措施
我們需要檢查系統如何準確或正確的是當系統檢索了一些檔的用戶的輸入的基礎上。讓該組與查詢相關的文檔被表示為{Relevant}和集合中檢索文檔的定義為{}檢索。該組是相關和檢索的文檔可以被表示為 {Relevant} ∩ {Retrieved}這可以被顯示在維恩圖中,如下所示:

有評估文本檢索的品質三項基本措施:
-
Precision
-
Recall
-
F-score
精密
精度是檢索到的文檔的相關的查詢是實際上的百分比。精度可以被定義為:
Precision= |{Relevant} ∩ {Retrieved}| / |{Retrieved}|
召回
召回的文檔是相關的查詢,並在事實上檢索到的百分比。召回的定義為:
Recall = |{Relevant} ∩ {Retrieved}| / |{Relevant}|
F-SCORE
F值是常用的權衡。資訊檢索系統往往需要權衡精度或反之亦然。 F值被定義為召回或精密的調和平均數如下:
F-score = recall x precision / (recall + precision) / 2