概要
定义:从现有的大量数据中,撷取不明显、之前未知、可能有用的信息
目标:
- 建立起决策模型
- 根据过去的行动来预测未来的行为
数据挖掘—从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。
模型(Model) vs 模式(Pattern)
- 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去
- 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析
- 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析
算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出