MongoDB 高級教學

MongoDB 關係

MongoDB 資料庫引用

MongoDB 覆蓋索引查詢

MongoDB 查詢分析

MongoDB 原子操作

MongoDB 高級索引

MongoDB 索引限制

MongoDB ObjectId

MongoDB Map Reduce

MongoDB 全文檢索

MongoDB 正則運算式

MongoDB 管理工具

MongoDB GridFS

MongoDB 固定集合

MongoDB 自動增長

MongoDB Map Reduce

Map-Reduce是一種計算模型，簡單的說就是將大批量的工作（數據）分解（MAP）執行，然後再將結果合併成最終結果（REDUCE）。

MongoDB提供的Map-Reduce非常靈活，對於大規模數據分析也相當實用。

MapReduce 命令

以下是MapReduce的基本語法：

>db.collection.mapReduce(
   function() {emit(key,value);},  //map 函數
   function(key,values) {return reduceFunction},   //reduce 函數
   {
      out: collection,
      query: document,
      sort: document,
      limit: number
   }
)

使用 MapReduce 要實現兩個函數 Map 函數和 Reduce 函數,Map 函數調用 emit(key, value), 遍曆 collection 中所有的記錄, 將 key 與 value 傳遞給 Reduce 函數進行處理。

Map 函數必須調用 emit(key, value) 返回鍵值對。

參數說明:

map ：映射函數 (生成鍵值對序列,作為 reduce 函數參數)。
reduce 統計函數，reduce函數的任務就是將key-values變成key-value，也就是把values數組變成一個單一的值value。。
out 統計結果存放集合 (不指定則使用臨時集合,在客戶端斷開後自動刪除)。
query 一個篩選條件，只有滿足條件的文檔才會調用map函數。（query。limit，sort可以隨意組合）
sort 和limit結合的sort排序參數（也是在發往map函數前給文檔排序），可以優化分組機制
limit 發往map函數的文檔數量的上限（要是沒有limit，單獨使用sort的用處不大）

以下實例在集合 orders 中查找 status:"A" 的數據，並根據 cust_id 來分組，並計算 amount 的總和。

使用 MapReduce

考慮以下文檔結構存儲用戶的文章，文檔存儲了用戶的 user_name 和文章的 status 字段：

>db.posts.insert({
   "post_text": "IT研修，最全的技術文檔。",
   "user_name": "mark",
   "status":"active"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "IT研修，最全的技術文檔。",
   "user_name": "mark",
   "status":"active"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "IT研修，最全的技術文檔。",
   "user_name": "mark",
   "status":"active"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "IT研修，最全的技術文檔。",
   "user_name": "mark",
   "status":"active"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "IT研修，最全的技術文檔。",
   "user_name": "mark",
   "status":"disabled"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "IT研修，最全的技術文檔。",
   "user_name": "zaixian",
   "status":"disabled"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "IT研修，最全的技術文檔。",
   "user_name": "zaixian",
   "status":"disabled"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "IT研修，最全的技術文檔。",
   "user_name": "zaixian",
   "status":"active"
})
WriteResult({ "nInserted" : 1 })

現在，我們將在 posts 集合中使用 mapReduce 函數來選取已發佈的文章(status:"active")，並通過user_name分組，計算每個用戶的文章數：

>db.posts.mapReduce(
   function() { emit(this.user_name,1); },
   function(key, values) {return Array.sum(values)},
      {
         query:{status:"active"},
         out:"post_total"
      }
)

以上 mapReduce 輸出結果為：

{
        "result" : "post_total",
        "timeMillis" : 23,
        "counts" : {
                "input" : 5,
                "emit" : 5,
                "reduce" : 1,
                "output" : 2
        },
        "ok" : 1
}

結果表明，共有 5 個符合查詢條件（status:"active"）的文檔，在map函數中生成了 5 個鍵值對文檔，最後使用reduce函數將相同的鍵值分為 2 組。

具體參數說明：

result：儲存結果的collection的名字,這是個臨時集合，MapReduce的連接關閉後自動就被刪除了。
timeMillis：執行花費的時間，毫秒為單位
input：滿足條件被發送到map函數的文檔個數
emit：在map函數中emit被調用的次數，也就是所有集合中的數據總量
ouput：結果集合中的文檔個數（count對調試非常有幫助）
ok：是否成功，成功為1
err：如果失敗，這裏可以有失敗原因，不過從經驗上來看，原因比較模糊，作用不大

使用 find 操作符來查看 mapReduce 的查詢結果：

>db.posts.mapReduce(
   function() { emit(this.user_name,1); },
   function(key, values) {return Array.sum(values)},
      {
         query:{status:"active"},
         out:"post_total"
      }
).find()

以上查詢顯示如下結果:

{ "_id" : "mark", "value" : 4 }
{ "_id" : "zaixian", "value" : 1 }

用類似的方式，MapReduce可以被用來構建大型複雜的聚合查詢。

Map函數和Reduce函數可以使用 JavaScript 來實現，使得MapReduce的使用非常靈活和強大。

MongoDB 高級教學

MongoDB Map Reduce

MapReduce 命令

使用 MapReduce

HTML / CSS

腳本語言

高級語言

Java技術

XML技術

大數據

開發工具

框架

軟體測試

前端技術

資料庫

其他技術