概要
定义:从现有的大量数据中,撷取不明显、之前未知、可能有用的信息
目标:
- 建立起决策模型
- 根据过去的行动来预测未来的行为
数据挖掘—从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。
模型(Model) vs 模式(Pattern)
- 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去
- 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析
- 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析
算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出
描述型挖掘(Descriptive) vs 预测型挖掘(Predictive)
- 描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征
- 预测型挖掘:根据观察到的对象特征值来预测它的其他特征值
- 描述型挖掘可以是目的,也可以是手段
数据挖掘 = 模型 + 算法
- 分类预测
- Logistic Regression
- 决策树
- 神经网络
- 关联规则
- Apriori
- FP-Growth
- 聚类
- K-Means
- K-Mode
- SOM(自组织图)
- 孤立点检测
- 基于统计
- 基于距离
- 基于偏差
关联规则的量度
- 支持度:Support(A=>B)=#AB/#N,表示A和B同时出现的概率 P(X∩Y)
- 期望可信度:Support(A)=#A/#N,表示A出现的概率 P(Y)
- 置信度:Confidence(A=>B)=Support(A=>B)/Support(B) P(Y|X)
- 改善度:Lift(A=>B)=Confidence(A=>B)/Support(B) P(Y|X)/P(Y)
数据挖掘的主要方法:
- 分类(Classification)
- 聚类(Clustering)
- 相关规则(Association Rule)
- 回归(Regression)
- 其他
数据仓库
定义:数据仓库是为支持管理决策建立的,面向主题的、集成的、随时间变化的、不可修改的数据集合
主要内容:
- ETL工具
- 数据仓库建模
- 联机分析
数据对象
数据集
数据集由数据对象组成。一个数据对象代表一个实体(entity)。数据对象又称为样本、实例、数据点、或对象。数据对象用属性(attribute)描述。数据行对应数据对象,列对应属性。
属性
属性(attribute)是一个数据字段,表示数据对象的一个特征。如:customer _ID, name,address
类型:
- 标称属性(nominal):其值是一些符号或者事物的名称。头发颜色= {黑色,棕色,灰色,白色}
- 二元属性(binary):是一种标称属性,只有两个状态:0或1。又根据两种状态具有同等价值,携带相同权重分为对称和非对称属性。
- 序数属性(ordinal):其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。成绩={优,良,中,差}
- 数值属性(numeric)
- 区间标度属性(interval-scaled):使用相等的单位尺度度量。值有序,可以评估值之间的差,不能评估倍数。没有绝对的零点。例如:摄氏温度,华氏温度
- 比率标度属性(ratio-scaled):具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。例如:开式温温标(K),重量,高度,速度
- 离散属性(discrete Attribute):具有有限或者无限可数个值。如: 邮编、省份数目具有有限个值,customer_Id是无限可数的。可以用或者不用整数表示。
- 连续属性(Continuous Attribute):属性值为实数。一般用浮点变量表示。
注意:标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。
数据的基本统计描述
- 目的
- 更好地识别数据的性质,把握数据全貌: 中心趋势度量,数据散布
- 中心趋势度量(measures of central tendency)
- 均值、中位数、众数、中列数
- 对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数度量中心趋势
mean − mode = 3(mean − median)
- 数据的散布(dispersion of the data)
- 极差、四分位数极差、五数概括、盒图
- 数据可视化(graphic displays of basic statistical descriptions)
- 分位数图、分位数-分位数图、直方图、散点图
度量的分类
度量可以分为三类:
- 分布式度量(distributive measure):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样
- 比如:count(),sum(),min(),max()等
- 代数度量(algebraic):可以通过在一个或多个分布式度量上应用一个代数函数而得到
- 比如:平均值函数avg() (avg() =sum()/count())
- 整体度量(holistic):必须对整个数据集计算的度量
- 比如:median(),mode(),rank()度
度量数据的离散度
最常用度量:极差、五数概括(基于四分位数)、中间四分位数极差和标准差
- 极差(range):数据集的最大值和最小值之差
- 百分位数(percentile):第k个百分位数是具有如下性质的值x:k%的数据项位于或低于x
- 中位数就是第50个百分位数
- 四分位数:Q1(25th percentile), Q3(75th percentile)
- 中间四分位数极差(IQR): IQR = Q3 – Q1
- 孤立点:通常我们认为:挑出落在至少高于第三个四分位数或低于第一个四分位数 1.5×IQR处的值
- 五数概括: min, Q1, Median, Q3, max
- 盒图:数据分布的一种直观表示,端点在四分位数上,使得盒图的长度是IQR,中位数M用盒内的线标记,胡须延伸到最大最小观测值
- 方差和标准差
- 离群点 Outlier: 第三个四分位数之上或者第一个四分位数之下至少1.5 x IQR的值
数据预处理
度量数据的质量:
- 精确度
- 完整度
- 一致性
- 合乎时机
- 可信度
- 附加价值
- 可解释性
数据清理
- 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性
- 数据集成
- 集成多个数据库、数据立方体或文件
- 数据变换
- 规范化和聚集
- 数据归约
- 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果
- 数据离散化
- 数据归约的一部分,通过概念分层和数据的离散化来规约数据, 对数字型数据特别重要