本章將指導完成設置Apache Tika在Windows和Linux的配置過程。用戶管理是必要的,同時安裝了Apache Tika。
系統要求
JDK | Java SE 2 JDK 1.6 或以上 |
記憶體 | 1 GB RAM (推薦) |
硬碟空間 | 無最小要求 |
操作系統版本 | Windows XP 或以上, Linux |
第1步:驗證安裝Java
為了驗證Java安裝,打開控制臺並執行下麵的Java命令。
OS | 任務 | 命令 |
---|---|---|
Windows | 打開命令控制臺 | \>java –version |
Linux | 打開命令終端 | $java –version |
如果Java已經正確地在您的系統已經安裝,那麼應該得到以下輸出之一,具體取決於您所使用的平臺上。
OS | 輸出 |
---|---|
Windows |
Java version "1.7.0_60" Java (TM) SE Run Time Environment (build 1.7.0_60-b19) Java Hotspot (TM) 64-bit Server VM (build 24.60-b09, mixed mode) |
Lunix |
java version "1.7.0_25" Open JDK Runtime Environment (rhel-2.3.10.4.el6_4-x86_64) Open JDK 64-Bit Server VM (build 23.7-b01, mixed mode) |
-
假設本教程的讀者都在繼續本教學之前把Java1.7.0_60安裝在他們的系統中。
-
如果沒有安裝Java SDK,從下載其最新版本 http://www.oracle.com/technetwork/java/javase/downloads/index.htmll and have it installed.
第2步:設置Java環境
設置JAVA_HOME環境變數指向到安裝在機器上的Java基本目錄的位置。例如,
OS | 輸出 |
---|---|
Windows | 設置環境變數 JAVA_HOME to C:\ProgramFiles\java\jdk1.7.0_60 |
Linux | export JAVA_HOME=/usr/local/java-current |
附加Java編譯器的位置到系統路徑的完整路徑。
OS | 輸出 |
---|---|
Windows | Append the String; C:\Program Files\Java\jdk1.7.0_60\bin to the end of the system variable PATH. |
Linux | export PATH=$PATH:$JAVA_HOME/bin/ |
驗證命令java版本,命令提示符如上所述。
第3步:設置Apache Tika環境
可以在自己的環境中通過使用集成Apache Tika :
- 命令行,
- Tika API,
- Tika(CLI)的命令行介面,
- Tika的圖形用戶介面(GUI),或
- 源代碼
對於任何一種方法,首先,必須下載的Tika源代碼。
Tika的源代碼在 http://Tika.apache.org/download.htmll,在那裏找到兩個鏈接:
apache-tika-1.6-src.zip: 它包含的Tika的源代碼以及 Tika -app-1.6.jar: 它是一個包含Tika應用程式的JAR檔。
下載這兩個檔。Tika的官方網站的快照如下所示。

下載檔後,設置類路徑的JAR檔 tika-app-1.6.jar。添加 jar 檔的完整路徑,如圖表所示。
OS | Output |
---|---|
Windows | 添加字串 “C:\jars\Tika-app-1.6.jar” 到用戶環境變數 CLASSPATH |
Linux |
Export CLASSPATH=$CLASSPATH: /usr/share/jars/Tika-app-1.6.tar: |
Apache提供Tika應用程式,使用Eclipse的圖形用戶介面(GUI)應用程式。
使用Eclipse構建Tika-Maven
-
打開Eclipse,並創建一個新的專案。
-
如果在Eclipse中沒有Maven,按照給定的步驟進行設置。
-
打開 link http://wiki.eclipse.org/M2E_updatesite_and_gittags. 在那裏,會發現m2e插件版本以表格格式
-

-
挑選的最新版本,並保存在URL網址的p2列的路徑。
-
現在重新訪問eclipse,在菜單欄中,單擊幫助,然後從下拉菜單中選擇安裝新軟體

-
單擊 Add 按鈕,輸入任何想要的名稱,因為它是可選的。現在貼在位置字段中保存的 URL。
-
一個新的插件選擇在上一步中添加的名字,選中複選框在它前面,然後單擊下一步 Next。

-
繼續安裝。完成後,重新啟動Eclipse。
-
現在,右鍵單擊該專案,並在配置選項,選擇Convert to Maven專案。
-
將出現創建一個新的POM新的嚮導。輸入組ID為org.apache.tika,進入Tika的最新版本,選擇jar 包,然後單擊Finish。
Maven專案已成功安裝,並且專案轉化成Maven。現在,必須配置pom.xml檔。
配置XML檔
可以通過Tika Maven的依賴 http://mvnrepository.com/artifact/org.apache.tika
下麵顯示的是Apache Tika完整的Maven依賴。
<dependency> <groupId>org.apache.Tika</groupId> <artifactId>Tika-core</artifactId> <version>1.6</version> <groupId>org.apache.Tika</groupId> <artifactId> Tika-parsers</artifactId> <version> 1.6</version> <groupId> org.apache.Tika</groupId> <artifactId>Tika</artifactId> <version>1.6</version> <groupId>org.apache.Tika</groupId> < artifactId>Tika-serialization</artifactId> < version>1.6< /version> < groupId>org.apache.Tika< /groupId> < artifactId>Tika-app< /artifactId> < version>1.6< /version> <groupId>org.apache.Tika</groupId> <artifactId>Tika-bundle</artifactId> <version>1.6</version> </dependency>