數據挖掘的理論基礎
各種理論的數據挖掘的基礎包括以下內容:
-
Data Reduction - 這一理論的基本思想是,以減少該交易的準確性,速度回應於需要獲得快速的近似的查詢答案在非常大的資料庫中的數據表示。一些數據減少技術如下:
-
奇異值分解
-
小波分析
-
回歸
-
對數線性模型
-
直方圖
-
聚類
-
採樣
-
索引樹的構建
-
-
數據壓縮 - 這一理論的基本思想是通過編碼在下面的術語來壓縮數據給出:
-
比特
-
關聯規則
-
決策樹
-
集群
-
-
模式發現 - 這一理論的基本思想是要發現在資料庫中出現的圖案。以下是有助於這一理論的領域:
-
機器學習
-
神經網路
-
關聯挖掘
-
序列模式匹配
-
聚類
-
-
概率論 - 這個理論是基於統計理論。這一理論的基本思想是要發現隨機變數的聯合概率分佈。
-
概率論 - 根據這一理論數據挖掘是找到有趣僅對它們可以在一些企業的決策過程中可以使用的程度的圖案。
-
微觀查看 - 按照這一理論的感知,資料庫架構包括存儲在資料庫中的數據和圖案。因此,根據這一理論的數據挖掘是對數據庫進行感應的任務。
-
電感資料庫 - 除了在資料庫導向技術,也有可用於數據分析的統計學方法。這些技術可以應用到經濟和社會科學以及科學數據和資料。
統計數據挖掘
一些統計數據挖掘技術如下:
-
回歸 - 回歸方法用於從一個或多個預測值變數,其中變數是數值預測回應的變數的值。以下是幾種形式回歸:
-
線性
-
多種
-
權重
-
多項式
-
非參數
-
健壯
-
-
廣義線性模型 - 廣義線性模型包括:
-
邏輯回歸
-
Poisson回歸模型
該模型的泛化允許一個明確的回應變數可能與在地類似於數字回應變數的使用線性回歸模型設定預測變數。
-
-
方差分析 - 這種技術分析:
-
實驗數據由一個數字回應變數描述的兩個或兩個以上的人群。
-
一個或多個分類變數(因素)。
-
-
混合效應模型 - 這些模型被用於分析的分組的數據。這些模型描述了根據一個或多個因素中的分組數據的回應變數和一些協變數之間的關係。
-
因數分析 - 因數分析法是用來預測一個明確的回應變數。此方法假定引數服從多元正態分佈。
-
時間序列分析 - 以下是一種方法,用於分析時間序列數據:
-
自我回歸方法
-
單變數ARIMA(自回歸移動平均)模型
-
長記憶時間序列建模
-
可視化數據挖掘
可視化數據挖掘使用的數據和/或知識可視化技術從大型數據集發現隱含的知識。可視化數據挖掘可以看作是以下學科的整合:
-
數據可視化
-
數據挖掘
可視化數據挖掘是密切相關的以下內容:
-
電腦圖形學
-
多媒體系統
-
人機交互
-
模式識別
-
高性能計算
一般的數據可視化和數據挖掘可以集成在以下方面:
-
數據可視化 - 在資料庫或數據倉庫中的數據可以在下面列出了一些可視化的形式進行查看:
-
盒形圖
-
3-D 多維數據集
-
數據分佈圖
-
曲線
-
表面
-
鏈接圖表等。
-
-
數據挖掘結果可視化 - 數據挖掘結果的可視化是數據挖掘的結果,在視覺形式呈現。這些視覺形式可能是散點圖和箱線圖等。
-
數據挖掘過程可視化 - 數據挖掘過程可視化呈現數據挖掘的幾個過程。這允許用戶查看數據如何被提取。這也讓用戶能夠看到從資料庫或數據倉庫中的數據進行清洗,集成,預處理和挖掘。
音頻數據挖掘
指示數據或數據挖掘結果的特徵的圖案,音頻數據挖掘利用的音頻信號。通過將模式轉換成聲音和沉思,而不是看圖片,我們可以聽球場,曲調,以確定什麼有趣的事。
數據挖掘和協同過濾
當今的消費者面臨著種類繁多的商品和服務,而購物。在現場客戶交易時,推薦系統通過使產品推薦幫助消費者。在協同過濾方法通常用於產品推薦給客戶。這些建議是根據其他客戶的意見。