傳統的應用管理系統,也就是與關係型資料庫的使用RDBMS應用程式的交互,是產生大數據的來源之一。這樣大的數據,由關係資料庫生成的,存儲在關係資料庫結構關係資料庫伺服器。
當大數據記憶體和分析器,如MapReduce, Hive, HBase, Cassandra, Pig等,Hadoop的生態系統等應運而生圖片,它們需要一個工具來用的導入和導出的大數據駐留在其中的關係型資料庫伺服器進行交互。在這裏,Sqoop佔據著Hadoop生態系統提供關係資料庫伺服器和Hadoop HDFS之間的可行的互動。
Sqoop:“SQL 到 Hadoop 和 Hadoop 到SQL”
Sqoop是Hadoop和關係資料庫伺服器之間傳送數據的一種工具。它是用來從關係資料庫如MySQL,Oracle到Hadoop的HDFS從Hadoop檔系統導出數據到關係資料庫。它是由Apache軟體基金會提供。
Sqoop是怎麼樣工作的?
下圖描述了Sqoop的工作流程。

Sqoop導入
導入工具從RDBMS到HDFS導入單個表。表中的每一行被視為HDFS的記錄。所有記錄被存儲在文本檔的文本數據或者在Avro和序列檔的二進位數據。
Sqoop導出
導出工具從HDFS導出一組檔到一個RDBMS。作為輸入到Sqoop檔包含記錄,這被稱為在表中的行。那些被讀取並解析成一組記錄和分隔使用用戶指定的分隔符號。
開始學習 >> :Sqoop安裝