PostgreSQL 數據類型

本章節，我們將討論 PostgreSQL 的數據類型，數據類型是我們再創建表的時候為每個字段設置的。

設置數據類型的好處：

PostgreSQL提供了豐富的數據類型。用戶可以使用 CREATE TYPE 命令在資料庫中創建新的數據類型。PostgreSQL 的數據類型有很多種，下麵我們具體來說明。

數值類型

數值類型由 2 位元組、4 位元組或 8 位元組的整數以及 4 位元組或 8 位元組的浮點數和可選精度的十進位數組成。

下表列出了可用的數值類型。

名字	存儲長度	描述	範圍
smallint	2 位元組	小範圍整數	-32768 到 +32767
integer	4 位元組	常用的整數	-2147483648 到 +2147483647
bigint	8 位元組	大範圍整數	-9223372036854775808 到 +9223372036854775807
decimal	可變長	用戶指定的精度，精確	小數點前 131072 位；小數點後 16383 位
numeric	可變長	用戶指定的精度，精確	小數點前 131072 位；小數點後 16383 位
real	4 位元組	可變精度，不精確	6 位十進位數字精度
double precision	8 位元組	可變精度，不精確	15 位十進位數字精度
smallserial	2 位元組	自增的小範圍整數	1 到 32767
serial	4 位元組	自增整數	1 到 2147483647
bigserial	8 位元組	自增的大範圍整數	1 到 9223372036854775807

貨幣類型

money 類型存儲帶有固定小數精度的貨幣金額。

numeric、int 和 bigint 類型的值可以轉換為 money，不建議使用浮點數來處理處理貨幣類型，因為存在舍入錯誤的可能性。

名字	存儲容量	描述	範圍
money	8 位元組	貨幣金額	-92233720368547758.08 到 +92233720368547758.07

字元類型

下表列出了 PostgreSQL 所支持的字元類型：

序號	名字 & 描述
1	character varying(n), varchar(n) 變長，有長度限制
2	character(n), char(n) f定長,不足補空白
3	text 變長，無長度限制

序號

名字 & 描述

character varying(n), varchar(n)

變長，有長度限制

character(n), char(n)

f定長,不足補空白

text

變長，無長度限制

日期/時間類型

下表列出了 PostgreSQL 支持的日期和時間類型。

名字	存儲空間	描述	最低值	最高值	解析度
timestamp [ (p) ] [ without time zone ]	8 位元組	日期和時間(無時區)	4713 BC	294276 AD	1 毫秒 / 14 位
timestamp [ (p) ] with time zone	8 位元組	日期和時間，有時區	4713 BC	294276 AD	1 毫秒 / 14 位
date	4 位元組	只用於日期	4713 BC	5874897 AD	1 天
time [ (p) ] [ without time zone ]	8 位元組	只用於一日內時間	00:00:00	24:00:00	1 毫秒 / 14 位
time [ (p) ] with time zone	12 位元組	只用於一日內時間，帶時區	00:00:00+1459	24:00:00-1459	1 毫秒 / 14 位
interval [ fields ] [ (p) ]	12 位元組	時間間隔	-178000000 年	178000000 年	1 毫秒 / 14 位

布爾類型

PostgreSQL 支持標準的 boolean 數據類型。

boolean 有"true"(真)或"false"(假)兩個狀態，第三種"unknown"(未知)狀態，用 NULL 表示。

名稱	存儲格式	描述
boolean	1 位元組	true/false

枚舉類型

枚舉類型是一個包含靜態和值的有序集合的數據類型。

PostgtesSQL中的枚舉類型類似於 C 語言中的 enum 類型。

與其他類型不同的是枚舉類型需要使用 CREATE TYPE 命令創建。

CREATE TYPE mood AS ENUM ('sad', 'ok', 'happy');

創建一周中的幾天，如下所示:

CREATE TYPE week AS ENUM ('Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun');

就像其他類型一樣，一旦創建，枚舉類型可以用於表和函數定義。

CREATE TYPE mood AS ENUM ('sad', 'ok', 'happy');
CREATE TABLE person (
    name text,
    current_mood mood
);
INSERT INTO person VALUES ('Moe', 'happy');
SELECT * FROM person WHERE current_mood = 'happy';
 name | current_mood
------+--------------
 Moe  | happy
(1 row)

幾何類型

幾何數據類型表示二維的平面物體。

下表列出了 PostgreSQL 支持的幾何類型。

最基本的類型：點。它是其他類型的基礎。

名字	存儲空間	說明	表現形式
point	16 位元組	平面中的點	(x,y)
line	32 位元組	(無窮)直線(未完全實現)	((x1,y1),(x2,y2))
lseg	32 位元組	(有限)線段	((x1,y1),(x2,y2))
box	32 位元組	矩形	((x1,y1),(x2,y2))
path	16+16n 位元組	閉合路徑(與多邊形類似)	((x1,y1),...)
path	16+16n 位元組	開放路徑	[(x1,y1),...]
polygon	40+16n 位元組	多邊形(與閉合路徑相似)	((x1,y1),...)
circle	24 位元組	圓	<(x,y),r> (圓心和半徑)

網路地址類型

PostgreSQL 提供用於存儲 IPv4 、IPv6 、MAC 地址的數據類型。

用這些數據類型存儲網路地址比用純文本類型好，因為這些類型提供輸入錯誤檢查和特殊的操作和功能。

名字	存儲空間	描述
cidr	7 或 19 位元組	IPv4 或 IPv6 網路
inet	7 或 19 位元組	IPv4 或 IPv6 主機和網路
macaddr	6 位元組	MAC 地址

在對 inet 或 cidr 數據類型進行排序的時候， IPv4 地址總是排在 IPv6 地址前面，包括那些封裝或者是映射在 IPv6 地址裏的 IPv4 地址，比如 ::10.2.3.4 或 ::ffff:10.4.3.2。

位串類型

位串就是一串 1 和 0 的字串。它們可以用於存儲和直觀化位掩碼。我們有兩種 SQL 位類型：bit(n) 和bit varying(n)，這裏的n是一個正整數。

bit 類型的數據必須準確匹配長度 n，試圖存儲短些或者長一些的數據都是錯誤的。bit varying 類型數據是最長 n 的變長類型；更長的串會被拒絕。寫一個沒有長度的bit 等效於 bit(1)，沒有長度的 bit varying 意思是沒有長度限制。

文本搜索類型

全文檢索即通過自然語言文檔的集合來找到那些匹配一個查詢的檢索。

PostgreSQL 提供了兩種數據類型用於支持全文檢索：

序號	名字 & 描述
1	tsvector tsvector 的值是一個無重複值的 lexemes 排序列表，即一些同一個詞的不同變種的標準化。
2	tsquery tsquery 存儲用於檢索的辭彙，並且使用布爾操作符 &(AND)，\|(OR)和!(NOT) 來組合它們，括弧用來強調操作符的分組。

序號

名字 & 描述

tsvector

tsvector 的值是一個無重複值的 lexemes 排序列表，即一些同一個詞的不同變種的標準化。

tsquery

tsquery 存儲用於檢索的辭彙，並且使用布爾操作符 &(AND)，|(OR)和!(NOT) 來組合它們，括弧用來強調操作符的分組。

UUID 類型

uuid 數據類型用來存儲 RFC 4122，ISO/IEF 9834-8:2005 以及相關標準定義的通用唯一識別字（UUID）。（一些系統認為這個數據類型為全球唯一識別字，或GUID。）這個識別字是一個由演算法產生的 128 位識別字，使它不可能在已知使用相同演算法的模組中和其他方式產生的識別字相同。因此，對分佈式系統而言，這種識別字比序列能更好的提供唯一性保證，因為序列只能在單一資料庫中保證唯一。

UUID 被寫成一個小寫十六進制數字的序列，由分字元分成幾組，特別是一組8位數字+3組4位數字+一組12位數字，總共 32 個數字代表 128 位，一個這種標準的 UUID 例子如下：

a0eebc99-9c0b-4ef8-bb6d-6bb9bd380a11

XML 類型

xml 數據類型可以用於存儲XML數據。將 XML 數據存到 text 類型中的優勢在於它能夠為結構良好性來檢查輸入值，並且還支持函數對其進行類型安全性檢查。要使用這個數據類型，編譯時必須使用 configure --with-libxml。

xml 可以存儲由XML標準定義的格式良好的"文檔"，以及由 XML 標準中的 XMLDecl? content 定義的"內容"片段，大致上，這意味著內容片段可以有多個頂級元素或字元節點。 xmlvalue IS DOCUMENT 運算式可以用來判斷一個特定的 xml 值是一個完整的檔還是內容片段。

創建XML值

使用函數 xmlparse: 來從字元數據產生 xml 類型的值：

XMLPARSE (DOCUMENT '<?xml version="1.0"?><book><title>Manual</title><chapter>...</chapter></book>')
XMLPARSE (CONTENT 'abc<foo>bar</foo><bar>foo</bar>')

JSON 類型

json 數據類型可以用來存儲 JSON（JavaScript Object Notation）數據，這樣的數據也可以存儲為 text，但是 json 數據類型更有利於檢查每個存儲的數值是可用的 JSON 值。

此外還有相關的函數來處理 json 數據：

實例	實例結果
array_to_json('{{1,5},{99,100}}'::int[])	[[1,5],[99,100]]
row_to_json(row(1,'foo'))	{"f1":1,"f2":"foo"}

數組類型

PostgreSQL 允許將字段定義成變長的多維數組。

數組類型可以是任何基本類型或用戶定義類型，枚舉類型或複合類型。

聲明數組

創建表的時候，我們可以聲明數組，方式如下：

CREATE TABLE sal_emp (
    name            text,
    pay_by_quarter  integer[],
    schedule        text[][]
);

pay_by_quarter 為一位整型數組、schedule 為二維文本類型數組。

我們也可以使用 "ARRAY" 關鍵字，如下所示：

CREATE TABLE sal_emp (
   name text,
   pay_by_quarter integer ARRAY[4],
   schedule text[][]
);

插入值

插入值使用花括弧 {}，元素在 {} 使用逗號隔開：

INSERT INTO sal_emp
    VALUES ('Bill',
    '{10000, 10000, 10000, 10000}',
    '{{"meeting", "lunch"}, {"training", "presentation"}}');

INSERT INTO sal_emp
    VALUES ('Carol',
    '{20000, 25000, 25000, 25000}',
    '{{"breakfast", "consulting"}, {"meeting", "lunch"}}');

訪問數組

現在我們可以在這個表上運行一些查詢。

首先，我們演示如何訪問數組的一個元素。這個查詢檢索在第二季度薪水變化的雇員名：

SELECT name FROM sal_emp WHERE pay_by_quarter[1] <> pay_by_quarter[2];

 name
-------
 Carol
(1 row)

數組的下標數字是寫在方括弧內的。

修改數組

我們可以對數組的值進行修改：

UPDATE sal_emp SET pay_by_quarter = '{25000,25000,27000,27000}'
    WHERE name = 'Carol';

或者使用 ARRAY 構造器語法：

UPDATE sal_emp SET pay_by_quarter = ARRAY[25000,25000,27000,27000]
    WHERE name = 'Carol';

數組中檢索

要搜索一個數組中的數值，你必須檢查該數組的每一個值。

比如：

SELECT * FROM sal_emp WHERE pay_by_quarter[1] = 10000 OR
                            pay_by_quarter[2] = 10000 OR
                            pay_by_quarter[3] = 10000 OR
                            pay_by_quarter[4] = 10000;

另外，你可以用下麵的語句找出數組中所有元素值都等於 10000 的行：

SELECT * FROM sal_emp WHERE 10000 = ALL (pay_by_quarter);

或者，可以使用 generate_subscripts 函數。例如：

SELECT * FROM
   (SELECT pay_by_quarter,
           generate_subscripts(pay_by_quarter, 1) AS s
      FROM sal_emp) AS foo
 WHERE pay_by_quarter[s] = 10000;

複合類型

複合類型表示一行或者一條記錄的結構；它實際上只是一個字段名和它們的數據類型的列表。PostgreSQL 允許像簡單數據類型那樣使用複合類型。比如，一個表的某個字段可以聲明為一個複合類型。

聲明複合類型

下麵是兩個定義複合類型的簡單例子：

CREATE TYPE complex AS (
    r       double precision,
    i       double precision
);

CREATE TYPE inventory_item AS (
    name            text,
    supplier_id     integer,
    price           numeric
);

語法類似於 CREATE TABLE，只是這裏只可以聲明字段名字和類型。

定義了類型，我們就可以用它創建表：

CREATE TABLE on_hand (
    item      inventory_item,
    count     integer
);

INSERT INTO on_hand VALUES (ROW('fuzzy dice', 42, 1.99), 1000);

複合類型值輸入

要以文本常量書寫複合類型值，在圓括弧裏包圍字段值並且用逗號分隔他們。你可以在任何字段值周圍放上雙引號，如果值本身包含逗號或者圓括弧，你必須用雙引號括起。

複合類型常量的一般格式如下：

'( val1 , val2 , ... )'

一個例子是:

'("fuzzy dice",42,1.99)'

訪問複合類型

要訪問複合類型字段的一個域，我們寫出一個點以及域的名字，非常類似從一個表名字裏選出一個字段。實際上，因為實在太像從表名字中選取字段，所以我們經常需要用圓括弧來避免分析器混淆。比如，你可能需要從on_hand 例子表中選取一些子域，像下麵這樣：

SELECT item.name FROM on_hand WHERE item.price > 9.99;

這樣將不能工作，因為根據 SQL 語法，item是從一個表名字選取的，而不是一個字段名字。你必須像下麵這樣寫：

SELECT (item).name FROM on_hand WHERE (item).price > 9.99;

或者如果你也需要使用表名字(比如，在一個多表查詢裏)，那麼這麼寫：

SELECT (on_hand.item).name FROM on_hand WHERE (on_hand.item).price > 9.99;

現在圓括弧對象正確地解析為一個指向item字段的引用，然後就可以從中選取子域。

範圍類型

範圍數據類型代表著某一元素類型在一定範圍內的值。

例如，timestamp 範圍可能被用於代表一間會議室被預定的時間範圍。

PostgreSQL 內置的範圍類型有：

int4range — integer的範圍
int8range —bigint的範圍
numrange —numeric的範圍
tsrange —timestamp without time zone的範圍
tstzrange —timestamp with time zone的範圍
daterange —date的範圍

此外，你可以定義你自己的範圍類型。

CREATE TABLE reservation (room int, during tsrange);
INSERT INTO reservation VALUES
    (1108, '[2010-01-01 14:30, 2010-01-01 15:30)');

-- 包含
SELECT int4range(10, 20) @> 3;

-- 重疊
SELECT numrange(11.1, 22.2) && numrange(20.0, 30.0);

-- 提取上邊界

SELECT upper(int8range(15, 25));

-- 計算交叉
SELECT int4range(10, 20) * int4range(15, 25);

-- 範圍是否為空
SELECT isempty(numrange(1, 5));

範圍值的輸入必須遵循下麵的格式：

(下邊界,上邊界)
(下邊界,上邊界]
[下邊界,上邊界)
[下邊界,上邊界]
空

圓括號或者方括號顯示下邊界和上邊界是不包含的還是包含的。注意最後的格式是空，代表著一個空的範圍（一個不含有值的範圍）。

-- 包括3，不包括7，並且包括二者之間的所有點
SELECT '[3,7)'::int4range;

-- 不包括3和7，但是包括二者之間所有點
SELECT '(3,7)'::int4range;

-- 只包括單一值4
SELECT '[4,4]'::int4range;

-- 不包括點（被標準化為‘空’）

SELECT '[4,4)'::int4range;

對象識別字類型

PostgreSQL 在內部使用對象識別字(OID)作為各種系統表的主鍵。

同時，系統不會給用戶創建的表增加一個 OID 系統字段(除非在建表時聲明了WITH OIDS 或者配置參數default_with_oids設置為開啟)。oid 類型代表一個對象識別字。除此以外 oid 還有幾個別名：regproc, regprocedure, regoper, regoperator, regclass, regtype, regconfig, 和regdictionary。

名字	引用	描述	數值例子
oid	任意	數位化的對象識別字	564182
regproc	pg_proc	函數名字	sum
regprocedure	pg_proc	帶參數類型的函數	sum(int4)
regoper	pg_operator	操作符名	+
regoperator	pg_operator	帶參數類型的操作符	*(integer,integer) 或 -(NONE,integer)
regclass	pg_class	關係名	pg_type
regtype	pg_type	數據類型名	integer
regconfig	pg_ts_config	文本搜索配置	english
regdictionary	pg_ts_dict	文本搜索字典	simple

偽類型

PostgreSQL類型系統包含一系列特殊用途的條目，它們按照類別來說叫做偽類型。偽類型不能作為字段的數據類型，但是它可以用於聲明一個函數的參數或者結果類型。偽類型在一個函數不只是簡單地接受並返回某種SQL 數據類型的情況下很有用。

下表列出了所有的偽類型：

名字	描述
any	表示一個函數接受任何輸入數據類型。
anyelement	表示一個函數接受任何數據類型。
anyarray	表示一個函數接受任意數組數據類型。
anynonarray	表示一個函數接受任意非數組數據類型。
anyenum	表示一個函數接受任意枚舉數據類型。
anyrange	表示一個函數接受任意範圍數據類型。
cstring	表示一個函數接受或者返回一個空結尾的 C 字串。
internal	表示一個函數接受或者返回一種伺服器內部的數據類型。
language_handler	一個過程語言調用處理器聲明為返回language_handler。
fdw_handler	一個外部數據封裝器聲明為返回fdw_handler。
record	標識一個函數返回一個未聲明的行類型。
trigger	一個觸發器函數聲明為返回trigger。
void	表示一個函數不返回數值。
opaque	一個已經過時的類型，以前用於所有上面這些用途。

更多內容參考：PostgreSQL 數據類型