0%

数据挖掘

概要

定义:从现有的大量数据中,撷取不明显、之前未知、可能有用的信息

目标:

  • 建立起决策模型
  • 根据过去的行动来预测未来的行为

数据挖掘—从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。

模型(Model) vs 模式(Pattern)

  • 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去
  • 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析
  • 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析

算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出

描述型挖掘(Descriptive) vs 预测型挖掘(Predictive)

  • 描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征
  • 预测型挖掘:根据观察到的对象特征值来预测它的其他特征值
  • 描述型挖掘可以是目的,也可以是手段

数据挖掘 = 模型 + 算法

  • 分类预测
    • Logistic Regression
    • 决策树
    • 神经网络
  • 关联规则
    • Apriori
    • FP-Growth
  • 聚类
    • K-Means
    • K-Mode
    • SOM(自组织图)
  • 孤立点检测
    • 基于统计
    • 基于距离
    • 基于偏差

关联规则的量度

  • 支持度:Support(A=>B)=#AB/#N,表示A和B同时出现的概率 P(X∩Y)
  • 期望可信度:Support(A)=#A/#N,表示A出现的概率 P(Y)
  • 置信度:Confidence(A=>B)=Support(A=>B)/Support(B) P(Y|X)
  • 改善度:Lift(A=>B)=Confidence(A=>B)/Support(B) P(Y|X)/P(Y)

数据挖掘的主要方法:

  • 分类(Classification)
  • 聚类(Clustering)
  • 相关规则(Association Rule)
  • 回归(Regression)
  • 其他

数据仓库

定义:数据仓库是为支持管理决策建立的,面向主题的、集成的、随时间变化的、不可修改的数据集合

主要内容:

  • ETL工具
  • 数据仓库建模
  • 联机分析

数据对象

数据集

数据集由数据对象组成。一个数据对象代表一个实体(entity)。数据对象又称为样本、实例、数据点、或对象。数据对象用属性(attribute)描述。数据行对应数据对象,列对应属性。

属性

属性(attribute)是一个数据字段,表示数据对象的一个特征。如:customer _ID, name,address
类型:

  • 标称属性(nominal):其值是一些符号或者事物的名称。头发颜色= {黑色,棕色,灰色,白色}
  • 二元属性(binary):是一种标称属性,只有两个状态:0或1。又根据两种状态具有同等价值,携带相同权重分为对称和非对称属性。
  • 序数属性(ordinal):其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。成绩={优,良,中,差}
  • 数值属性(numeric)
    • 区间标度属性(interval-scaled):使用相等的单位尺度度量。值有序,可以评估值之间的差,不能评估倍数。没有绝对的零点。例如:摄氏温度,华氏温度
    • 比率标度属性(ratio-scaled):具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。例如:开式温温标(K),重量,高度,速度
  • 离散属性(discrete Attribute):具有有限或者无限可数个值。如: 邮编、省份数目具有有限个值,customer_Id是无限可数的。可以用或者不用整数表示。
  • 连续属性(Continuous Attribute):属性值为实数。一般用浮点变量表示。

注意:标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。

数据的基本统计描述

  • 目的
    • 更好地识别数据的性质,把握数据全貌: 中心趋势度量,数据散布
  • 中心趋势度量(measures of central tendency)
    • 均值、中位数、众数、中列数
    • 对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数度量中心趋势mean − mode = 3(mean − median)
  • 数据的散布(dispersion of the data)
    • 极差、四分位数极差、五数概括、盒图
  • 数据可视化(graphic displays of basic statistical descriptions)
    • 分位数图、分位数-分位数图、直方图、散点图

度量的分类

度量可以分为三类:

  • 分布式度量(distributive measure):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样
    • 比如:count(),sum(),min(),max()等
  • 代数度量(algebraic):可以通过在一个或多个分布式度量上应用一个代数函数而得到
    • 比如:平均值函数avg() (avg() =sum()/count())
  • 整体度量(holistic):必须对整个数据集计算的度量
    • 比如:median(),mode(),rank()度

度量数据的离散度

最常用度量:极差、五数概括(基于四分位数)、中间四分位数极差和标准差

  • 极差(range):数据集的最大值和最小值之差
  • 百分位数(percentile):第k个百分位数是具有如下性质的值x:k%的数据项位于或低于x
  • 中位数就是第50个百分位数
  • 四分位数:Q1(25th percentile), Q3(75th percentile)
  • 中间四分位数极差(IQR): IQR = Q3 – Q1
  • 孤立点:通常我们认为:挑出落在至少高于第三个四分位数或低于第一个四分位数 1.5×IQR处的值
  • 五数概括: min, Q1, Median, Q3, max
  • 盒图:数据分布的一种直观表示,端点在四分位数上,使得盒图的长度是IQR,中位数M用盒内的线标记,胡须延伸到最大最小观测值
  • 方差和标准差
  • 离群点 Outlier: 第三个四分位数之上或者第一个四分位数之下至少1.5 x IQR的值

数据预处理

度量数据的质量:

  • 精确度
  • 完整度
  • 一致性
  • 合乎时机
  • 可信度
  • 附加价值
  • 可解释性

数据清理

  • 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性
  • 数据集成
  • 集成多个数据库、数据立方体或文件
  • 数据变换
  • 规范化和聚集
  • 数据归约
  • 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果
  • 数据离散化
  • 数据归约的一部分,通过概念分层和数据的离散化来规约数据, 对数字型数据特别重要
Disqus评论区没有正常加载,请使用科学上网