Spark架構 - Spark教學

Spark遵循主從架構。它的集群由一個主伺服器和多個從伺服器組成。

Spark架構依賴於兩個抽象：

彈性分佈式數據集(RDD)

彈性分佈式數據集是可以存儲在工作節點上的記憶體中的資料項目組。

稍後將詳細瞭解RDD。

有向無環圖是一種有限的直接圖，它對數據執行一系列計算。每個節點都是RDD分區，邊緣是數據頂部的轉換。

下麵來瞭解Spark架構。

Spark架構

驅動程式是一個運行應用程式，由main()函數並創建SparkContext對象的進程。SparkContext的目的是協調spark應用程式，作為集群上的獨立進程集運行。

要在群集上運行，SparkContext將連接到不同類型的群集管理器，然後執行以下任務：

集群管理器的作用是跨應用程式分配資源。Spark能夠在大量集群上運行。
它由各種類型的集群管理器組成，例如：Hadoop YARN，Apache Mesos和Standalone Scheduler。
這裏，獨立調度程式是一個獨立的Spark集群管理器，便於在一組空機器上安裝Spark。

上一篇： Spark安裝下一篇： Spark組件