Hadoop介紹快速入門

Apache Hadoop 是用於開發在分佈式計算環境中執行的數據處理應用程式的框架。類似於在個人電腦系統的本地檔系統的數據，在 Hadoop 數據保存在被稱為作為Hadoop分佈式檔系統的分佈式檔系統。處理模型是基於“數據局部性”的概念，其中的計算邏輯被發送到包含數據的集群節點(伺服器)。這個計算邏輯不過是寫在編譯的高級語言程式，例如 Java. 這樣的程式來處理Hadoop 存儲的 HDFS 數據。

Hadoop是一個開源軟體框架。使用Hadoop構建的應用程式都分佈在集群電腦商業大型數據集上運行。商業電腦便宜並廣泛使用。這些主要是在低成本計算上實現更大的計算能力非常有用。你造嗎? 電腦集群由一組多個處理單元(存儲磁片+處理器)，其被連接到彼此，並作為一個單一的系統。

Hadoop的組件

下圖顯示了 Hadoop 生態系統的各種組件

Apache Hadoop 由兩個子專案組成 -

Hadoop MapReduce : MapReduce 是一種計算模型及軟體架構，編寫在Hadoop上運行的應用程式。這些MapReduce程式能夠對大型集群計算節點並行處理大量的數據。
HDFS (Hadoop Distributed File System): HDFS 處理 Hadoop 應用程式的存儲部分。 MapReduce應用使用來自HDFS的數據。 HDFS創建數據塊的多個副本，並集群分發它們到計算節點。這種分配使得應用可靠和極其迅速的計算。

雖然 Hadoop 是因為 MapReduce 和分佈式檔系統 - HDFS 而最出名的，該術語也是在分佈式計算和大規模數據處理的框架下的相關專案。 Apache Hadoop 的其他相關的專案包括有：Hive, HBase, Mahout, Sqoop , Flume 和 ZooKeeper.

Hadoop 功能

• 適用於大數據分析

作為大數據在自然界中趨於分佈和非結構化，Hadoop 集群最適合於大數據的分析。因為，它處理邏輯(未實際數據)流向計算節點，更少的網路帶寬消耗。這個概念被稱為數據區域性概念，它可以幫助提高基於 Hadoop 應用程式的效率。

• 可擴展性

HADOOP集群通過增加附加群集節點可以容易地擴展到任何程度，並允許大數據的增長。另外，標度不要求修改到應用程式邏輯。

• 容錯

HADOOP生態系統有一個規定，來複製輸入數據到其他群集節點。這樣一來，在集群某一節點有故障的情況下，數據處理仍然可以繼續，通過使用存儲另一個群集節點上的數據。

網路拓撲中的Hadoop

網路拓撲結構(佈局)，當 Hadoop 集群的大小增長會影響到 Hadoop 集群的性能。除了性能，人們還需要關心故障的高可用性和處理。為了實現這個Hadoop集群構造，利用了網路拓撲。

通常情況下，網路帶寬是任何網路要考慮的一個重要因素。然而，測量帶寬可能是比較困難的，在 Hadoop 中，網路被表示為樹，在 Hadoop 集群節點之間樹(跳數)的距離是一個重要因素。在這裏，兩個節點之間的距離等於自己最近的公共祖先總距離。

Hadoop集群包括數據中心，機架和其實際執行作業的節點。這裏，數據中心包括機架，機架是由節點組成。可用網路帶寬進程的變化取決於進程的位置。也就是說，可用帶寬變得更小，因為 -

在同一個節點上的進程
同一機架上的不同節點
在相同的數據中心的不同的機架節點
在不同的數據中心節點

上一篇： Hadoop多節點集群下一篇： Hadoop安裝

Hadoop的組件

Hadoop 功能

網路拓撲中的Hadoop

HTML / CSS

腳本語言

高級語言

Java技術

XML技術

大數據

開發工具

框架

軟體測試

前端技術

資料庫

其他技術