MongoDB 概念解析

不管我們學習什麼資料庫都應該學習其中的基礎概念,在mongodb中基本的概念是文檔、集合、資料庫,下麵我們挨個介紹。

下表將幫助您更容易理解Mongo中的一些概念:

SQL術語/概念 MongoDB術語/概念 解釋/說明
database database 資料庫
table collection 資料庫表/集合
row document 數據記錄行/文檔
column field 數據字段/域
index index 索引
table joins   表連接,MongoDB不支持
primary key primary key 主鍵,MongoDB自動將_id字段設置為主鍵

通過下圖實例,我們也可以更直觀的瞭解Mongo中的一些概念:


資料庫

一個mongodb中可以建立多個數據庫。

MongoDB的默認資料庫為"db",該資料庫存儲在data目錄中。

MongoDB的單個實例可以容納多個獨立的資料庫,每一個都有自己的集合和許可權,不同的資料庫也放置在不同的檔中。

"show dbs" 命令可以顯示所有數據的列表。

$ ./mongo
MongoDB shell version: 3.0.6
connecting to: test
> show dbs
local  0.078GB
test   0.078GB
>

執行 "db" 命令可以顯示當前資料庫對象或集合。

$ ./mongo
MongoDB shell version: 3.0.6
connecting to: test
> db
test
>

運行"use"命令,可以連接到一個指定的資料庫。

> use local
switched to db local
> db
local
>

以上實例命令中,"local" 是你要鏈接的資料庫。

在下一個章節我們將詳細講解MongoDB中命令的使用。

資料庫也通過名字來標識。資料庫名可以是滿足以下條件的任意UTF-8字串。

  • 不能是空字元串("")。
  • 不得含有' '(空格)、.、$、/、\和\0 (空字元)。
  • 應全部小寫。
  • 最多64位元組。

有一些資料庫名是保留的,可以直接訪問這些有特殊作用的資料庫。

  • admin: 從權限的角度來看,這是"root"資料庫。要是將一個用戶添加到這個資料庫,這個用戶自動繼承所有資料庫的許可權。一些特定的伺服器端命令也只能從這個資料庫運行,比如列出所有的資料庫或者關閉伺服器。
  • local: 這個數據永遠不會被複製,可以用來存儲限於本地單臺伺服器的任意集合
  • config: 當Mongo用於分片設置時,config資料庫在內部使用,用於保存分片的相關資訊。

文檔(Document)

文檔是一組鍵值(key-value)對(即 BSON)。MongoDB 的文檔不需要設置相同的字段,並且相同的字段不需要相同的數據類型,這與關係型資料庫有很大的區別,也是 MongoDB 非常突出的特點。

一個簡單的文檔例子如下:

{"site":"www.xuhuhu.com", "name":"IT研修"}

下表列出了 RDBMS 與 MongoDB 對應的術語:

RDBMS MongoDB
資料庫 資料庫
表格 集合
文檔
字段
表聯合 嵌入文檔
主鍵 主鍵 (MongoDB 提供了 key 為 _id )
資料庫服務和客戶端
Mysqld/Oracle mongod
mysql/sqlplus mongo

需要注意的是:

  1. 文檔中的鍵/值對是有序的。
  2. 文檔中的值不僅可以是在雙引號裏面的字串,還可以是其他幾種數據類型(甚至可以是整個嵌入的文檔)。
  3. MongoDB區分類型和大小寫。
  4. MongoDB的文檔不能有重複的鍵。
  5. 文檔的鍵是字串。除了少數例外情況,鍵可以使用任意UTF-8字元。

文檔鍵命名規範:

  • 鍵不能含有\0 (空字元)。這個字元用來表示鍵的結尾。
  • .和$有特別的意義,只有在特定環境下才能使用。
  • 以下劃線"_"開頭的鍵是保留的(不是嚴格要求的)。

集合

集合就是 MongoDB 文檔組,類似於 RDBMS (關係資料庫管理系統:Relational Database Management System)中的表格。

集合存在於資料庫中,集合沒有固定的結構,這意味著你在對集合可以插入不同格式和類型的數據,但通常情況下我們插入集合的數據都會有一定的關聯性。

比如,我們可以將以下不同數據結構的文檔插入到集合中:

{"site":"www.baidu.com"}
{"site":"www.google.com","name":"Google"}
{"site":"www.xuhuhu.com","name":"IT研修","num":5}

當第一個文檔插入時,集合就會被創建。

合法的集合名

  • 集合名不能是空字元串""。
  • 集合名不能含有\0字元(空字元),這個字元表示集合名的結尾。
  • 集合名不能以"system."開頭,這是為系統集合保留的首碼。
  • 用戶創建的集合名字不能含有保留字元。有些驅動程式的確支持在集合名裏面包含,這是因為某些系統生成的集合中包含該字元。除非你要訪問這種系統創建的集合,否則千萬不要在名字裏出現$。 

如下實例:

db.col.findOne()

capped collections

Capped collections 就是固定大小的collection。

它有很高的性能以及佇列過期的特性(過期按照插入的順序). 有點和 "RRD" 概念類似。

Capped collections 是高性能自動的維護對象的插入順序。它非常適合類似記錄日誌的功能和標準的 collection 不同,你必須要顯式的創建一個capped collection,指定一個 collection 的大小,單位是位元組。collection 的數據存儲空間值提前分配的。

Capped collections 可以按照文檔的插入順序保存到集合中,而且這些文檔在磁片上存放位置也是按照插入順序來保存的,所以當我們更新Capped collections 中文檔的時候,更新後的文檔不可以超過之前文檔的大小,這樣話就可以確保所有文檔在磁片上的位置一直保持不變。

由於 Capped collection 是按照文檔的插入順序而不是使用索引確定插入位置,這樣的話可以提高增添數據的效率。MongoDB 的操作日誌檔 oplog.rs 就是利用 Capped Collection 來實現的。

要注意的是指定的存儲大小包含了資料庫的頭資訊。

db.createCollection("mycoll", {capped:true, size:100000})
  • 在 capped collection 中,你能添加新的對象。
  • 能進行更新,然而,對象不會增加存儲空間。如果增加,更新就會失敗 。
  • 使用 Capped Collection 不能刪除一個文檔,可以使用 drop() 方法刪除 collection 所有的行。
  • 刪除之後,你必須顯式的重新創建這個 collection。
  • 在32bit機器中,capped collection 最大存儲為 1e9( 1X109)個位元組。

元數據

資料庫的資訊是存儲在集合中。它們使用了系統的命名空間:

dbname.system.*

在MongoDB資料庫中名字空間 <dbname>.system.* 是包含多種系統資訊的特殊集合(Collection),如下:

集合命名空間 描述
dbname.system.namespaces 列出所有名字空間。
dbname.system.indexes 列出所有索引。
dbname.system.profile 包含資料庫概要(profile)資訊。
dbname.system.users 列出所有可訪問資料庫的用戶。
dbname.local.sources 包含複製對端(slave)的伺服器資訊和狀態。

對於修改系統集合中的對象有如下限制。

在{{system.indexes}}插入數據,可以創建索引。但除此之外該表資訊是不可變的(特殊的drop index命令將自動更新相關資訊)。

{{system.users}}是可修改的。 {{system.profile}}是可刪除的。


MongoDB 數據類型

下表為MongoDB中常用的幾種數據類型。

數據類型 描述
String字串。存儲數據常用的數據類型。在 MongoDB 中,UTF-8 編碼的字串才是合法的。
Integer整型數值。用於存儲數值。根據你所採用的伺服器,可分為 32 位或 64 位。
Boolean布爾值。用於存儲布爾值(真/假)。
Double雙精度浮點值。用於存儲浮點值。
Min/Max keys將一個值與 BSON(二進位的 JSON)元素的最低值和最高值相對比。
Array用於將數組或列表或多個值存儲為一個鍵。
Timestamp時間戳。記錄文檔修改或添加的具體時間。
Object用於內嵌文檔。
Null用於創建空值。
Symbol符號。該數據類型基本上等同於字串類型,但不同的是,它一般用於採用特殊符號類型的語言。
Date日期時間。用 UNIX 時間格式來存儲當前日期或時間。你可以指定自己的日期時間:創建 Date 對象,傳入年月日資訊。
Object ID對象 ID。用於創建文檔的 ID。
Binary Data二進位數據。用於存儲二進位數據。
Code代碼類型。用於在文檔中存儲 JavaScript 代碼。
Regular expression正則運算式類型。用於存儲正則運算式。

下麵說明下幾種重要的數據類型。

ObjectId

ObjectId 類似唯一主鍵,可以很快的去生成和排序,包含 12 bytes,含義是:

  • 前 4 個位元組表示創建 unix 時間戳,格林尼治時間 UTC 時間,比北京時間晚了 8 個小時
  • 接下來的 3 個位元組是機器標識碼
  • 緊接的兩個位元組由進程 id 組成 PID
  • 最後三個位元組是亂數

MongoDB 中存儲的文檔必須有一個 _id 鍵。這個鍵的值可以是任何類型的,默認是個 ObjectId 對象

由於 ObjectId 中保存了創建的時間戳,所以你不需要為你的文檔保存時間戳字段,你可以通過 getTimestamp 函數來獲取文檔的創建時間:

> var newObject = ObjectId()
> newObject.getTimestamp()
ISODate("2017-11-25T07:21:10Z")

ObjectId 轉為字串

> newObject.str
5a1919e63df83ce79df8b38f

字串

BSON 字串都是 UTF-8 編碼。

時間戳

BSON 有一個特殊的時間戳類型用於 MongoDB 內部使用,與普通的 日期 類型不相關。 時間戳值是一個 64 位的值。其中:

  • 前32位是一個 time_t 值(與Unix新紀元相差的秒數)
  • 後32位是在某秒中操作的一個遞增的序數

在單個 mongod 實例中,時間戳值通常是唯一的。

在複製集中, oplog 有一個 ts 字段。這個字段中的值使用BSON時間戳表示了操作時間。

BSON 時間戳類型主要用於 MongoDB 內部使用。在大多數情況下的應用開發中,你可以使用 BSON 日期類型。

日期

表示當前距離 Unix新紀元(1970年1月1日)的毫秒數。日期類型是有符號的, 負數表示 1970 年之前的日期。

> var mydate1 = new Date()     //格林尼治時間
> mydate1
ISODate("2018-03-04T14:58:51.233Z")
> typeof mydate1
object
> var mydate2 = ISODate() //格林尼治時間
> mydate2
ISODate("2018-03-04T15:00:45.479Z")
> typeof mydate2
object

這樣創建的時間是日期類型,可以使用 JS 中的 Date 類型的方法。

返回一個時間類型的字串:

> var mydate1str = mydate1.toString()
> mydate1str
Sun Mar 04 2018 14:58:51 GMT+0000 (UTC)
> typeof mydate1str
string

或者

> Date()
Sun Mar 04 2018 15:02:59 GMT+0000 (UTC)