数据挖掘 | XUranus

定义：从现有的大量数据中，撷取不明显、之前未知、可能有用的信息

目标：

数据挖掘—从大量数据中寻找其规律的技术，是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构；数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。

模型（Model） vs 模式（Pattern）

算法（Algorithm）：一个定义完备（well-defined）的过程，它以数据作为输入并产生模型或模式形式的输出

描述型挖掘（Descriptive） vs 预测型挖掘（Predictive）

数据挖掘 = 模型 + 算法

关联规则的量度

数据挖掘的主要方法：

数据仓库

定义：数据仓库是为支持管理决策建立的，面向主题的、集成的、随时间变化的、不可修改的数据集合

主要内容：

数据对象

数据集由数据对象组成。一个数据对象代表一个实体(entity)。数据对象又称为样本、实例、数据点、或对象。数据对象用属性(attribute)描述。数据行对应数据对象，列对应属性。

属性(attribute)是一个数据字段，表示数据对象的一个特征。如：customer _ID, name,address
类型:

标称属性(nominal)：其值是一些符号或者事物的名称。头发颜色= {黑色，棕色，灰色，白色}
二元属性(binary)：是一种标称属性，只有两个状态：0或1。又根据两种状态具有同等价值，携带相同权重分为对称和非对称属性。
序数属性(ordinal)：其可能的值之间具有有意义的序或者秩评定(ranking)，但是相继值之间的差是未知的。成绩={优，良，中，差}
数值属性(numeric)
- 区间标度属性(interval-scaled)：使用相等的单位尺度度量。值有序，可以评估值之间的差，不能评估倍数。没有绝对的零点。例如:摄氏温度，华氏温度
- 比率标度属性(ratio-scaled)：具有固定零点的数值属性。值有序，可以评估值之间的差，也可以说一个值是另一个的倍数。例如：开式温温标(K)，重量，高度，速度
离散属性(discrete Attribute)：具有有限或者无限可数个值。如：邮编、省份数目具有有限个值，customer_Id是无限可数的。可以用或者不用整数表示。
连续属性(Continuous Attribute)：属性值为实数。一般用浮点变量表示。

注意：标称、二元和序数属性都是定性的，即只描述对象的特征，不给出实际的大小。

目的
- 更好地识别数据的性质，把握数据全貌: 中心趋势度量，数据散布
中心趋势度量(measures of central tendency)
- 均值、中位数、众数、中列数
- 对于适度倾斜（非对称的）的单峰频率曲线，可以使用以下经验公式计算众数度量中心趋势mean − mode = 3(mean − median)
数据的散布(dispersion of the data)
- 极差、四分位数极差、五数概括、盒图
数据可视化(graphic displays of basic statistical descriptions)
- 分位数图、分位数-分位数图、直方图、散点图

度量可以分为三类：

分布式度量(distributive measure)：将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样
- 比如：count()，sum()，min()，max()等
代数度量(algebraic)：可以通过在一个或多个分布式度量上应用一个代数函数而得到
- 比如：平均值函数avg() (avg() =sum()/count())
整体度量(holistic)：必须对整个数据集计算的度量
- 比如：median()，mode()，rank()度

最常用度量：极差、五数概括（基于四分位数）、中间四分位数极差和标准差

度量数据的质量：

数据清理