Hadoop HDFS

Hadoop檔系統使用分佈式檔系統設計開發。它是運行在普通硬體。不像其他的分佈式系統,HDFS是高度容錯以及使用低成本的硬體設計。

HDFS擁有超大型的數據量,並提供更輕鬆地訪問。為了存儲這些龐大的數據,這些檔都存儲在多臺機器。這些檔都存儲以冗餘的方式來拯救系統免受可能的數據損失,在發生故障時。 HDFS也使得可用於並行處理的應用程式。

HDFS的特點

  • 它適用於在分佈式存儲和處理。
  • Hadoop提供的命令介面與HDFS進行交互。
  • 名稱節點和數據節點的幫助用戶內置的伺服器能夠輕鬆地檢查集群的狀態。
  • 流式訪問檔系統數據。
  • HDFS提供了檔的許可權和驗證。

HDFS架構

下麵給出是Hadoop的檔系統的體系結構。

HDFS Architecture

HDFS遵循主從架構,它具有以下元素。

名稱節點 - Namenode

名稱節點是包含GNU/Linux操作系統和軟體名稱節點的普通硬體。它是一個可以在商品硬體上運行的軟體。具有名稱節點系統作為主伺服器,它執行以下任務:

  • 管理檔系統命名空間。
  • 規範客戶端對檔的訪問。
  • 它也執行檔系統操作,如重命名,關閉和打開的檔和目錄。

數據節點 - Datanode

Datanode具有GNU/Linux操作系統和軟體Datanode的普通硬體。對於集群中的每個節點(普通硬體/系統),有一個數據節點。這些節點管理數據存儲在它們的系統。

  • 數據節點上的檔系統執行的讀寫操作,根據客戶的請求。
  • 還根據名稱節點的指令執行操作,如塊的創建,刪除和複製。

一般用戶數據存儲在HDFS檔。在一個檔系統中的檔將被劃分為一個或多個段和/或存儲在個人數據的節點。這些檔段被稱為塊。換句話說,數據的HDFS可以讀取或寫入的最小量被稱為一個塊。缺省的塊大小為64MB,但它可以增加按需要在HDFS配置來改變。

HDFS的目標

  • 故障檢測和恢復:由於HDFS包括大量的普通硬體,部件故障頻繁。因此HDFS應該具有快速和自動故障檢測和恢復機制。

  • 巨大的數據集:HDFS有數百個集群節點來管理其龐大的數據集的應用程式。

  • 數據硬體:請求的任務,當計算發生不久的數據可以高效地完成。涉及巨大的數據集特別是它減少了網路通信量,並增加了吞吐量。


上一篇: Hadoop環境安裝設置 下一篇: Hadoop HDFS操作