空间数据挖掘与知识发现 worldview2数据 三维建模
空间数据挖掘与知识发现
KDD和DM技术的产生与发展是基于这样一个事实:方面, 数据和数据库急剧膨胀;另一方面,现今数据库的应用仍然停留在查询、检索阶段,数据库中隐藏着的丰富知识远远没有得到充分的发掘和利用。数据库的海量增加与人们对数据库处理和理解困难之间形成了强烈的反差。KDD这个术语首先出现在1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上,1991 年、1993 年和1994年又接着继续举行KDD专题讨论会。随着参加会议人数的增多,从1995年开始,每年都要举办一次KDD国际会议。除了理论研究外,也出现了相当数量的KDD产品和应用系统,并在实际应用中获得了一定的成功。
按照Fayad等的定义,KDD 是“从数 据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。KDD的一般过程包括数据准备( datapreparation)、数据挖掘( data mining),以及结果的解释评估(interpretation and evaluation)。
数据准备包括数据选取(data slectio)、数据预处理(data prpressing)和数据变换( data transformation)。数据选取的目的是确定发现任务的操作对象,即目标数据(target da-ta),它是根据用户的需要从原始数据库中抽取的一组数据。 数据预处理的目的是去除噪声等。当数据挖掘的对象是数据仓库时,一般来说,数据选取和数据预处理已在生成数据仓库时完成。数据变换的主要目的是消减数据维数或降维(dimension rduction),即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。
数据挖掘阶段首先要确定挖掘的任务或目的是什么,考虑决定使用什么样的挖掘算法。同样的任务可以用不同的算法来实现,选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求,如准确性与可理解性之间的偏好等。