数据挖掘
我们的编辑器将检查你提交并决定是否修改这篇文章。
读这一主题的简要总结
数据挖掘,也叫在数据库知识发现,在计算机科学,发现有趣的过程,在大量的有用的模式和关系数据。结合工具统计数据和人工智能(如神经网络和机学习)数据库管理分析大型数字集合,称为数据集。数据挖掘是广泛应用于业务(保险、银行、零售),科学研究(天文学、医学),和政府安全(犯罪分子与恐怖分子的检测)。
许多大的扩散,有时连接,导致政府和私人数据库规定,以确保个人记录准确和安全的从未经授权的浏览或篡改。大多数类型的数据挖掘是面向确定一般知识,讲述了一群,而不是具体的个人的知识超市不关心卖一个项目一个人比卖许多物品通过展示模式分析也可用于辨别异常等个人行为欺诈或其他犯罪活动。
起源和早期应用程序
随着计算机存储容量的增加在1980年代,许多公司开始储存更多的事务数据。由此产生的记录集合,通常被称为数据仓库,太大,与传统统计方法进行分析。一些计算机科学会议和研讨会,考虑如何领域的最新进展人工智能(AI)——比如发现专家系统、遗传算法,机器学习的,和神经网络都可适用于知识发现(在计算机科学界的首选项)。过程,导致了在1995年第一届国际会议上知识发现和数据挖掘,在蒙特利尔举行,《华尔街日报》在1997年发射数据挖掘和知识发现。这也是早期时期许多数据挖掘公司成立和产品介绍。
数据挖掘的应用最早的成功,也许仅次于营销研究,信用卡- - - - - -欺诈检测。通过研究消费者的购买行为,一个典型的模式通常变得明显;外购买了此模式可以标记为以后调查或拒绝一个事务。然而,各种各样的正常行为使这具有挑战性;没有一个适合每个人的区分正常和欺诈行为或所有的时间。每个人可能会做出一些购买不同类型之前,那么依靠什么是正常的一个人可能会给太多的假警报。提高可靠性的一个方法是第一组个人有类似的采购模式,自组织模型不太敏感的小异常。例如,一个“商务常旅客”集团将可能有一个模式,包括前所未有的购买多样化的位置,但这一组的成员可能标记为其他事务,如目录购买,不符合集团的形象。
建模和数据挖掘方法
模型创建
完整的数据挖掘过程包括多个步骤,从理解项目的目标,哪些数据是可用的实现根据最终的分析过程变化。三个关键计算步骤是模仿学习的过程中,模型的评估模型,并使用。这个部门是最清晰的分类的数据。学习发生在一个模型算法应用于数据的组(或类)属性是为了产生一个分类器,或一个吗算法从数据。然后测试分类器与一组独立评估,包含数据与已知的属性。模型的分类在多大程度上同意的已知类目标属性可以用来确定预期模型的准确性。如果模型是足够准确的,它可用于分类数据的目标属性是未知的。
数据挖掘技术
有许多类型的数据挖掘,通常除以已知信息(属性)和寻求知识的类型从数据挖掘模型。
预测建模
预测建模时使用特定的目标是估计价值目标属性和存在样本训练数据的该属性的值是已知的。一个例子是分类,将一组数据已经分为预定义组和搜索模式的数据区分这些团体。这些发现模式可用于其他数据进行分类,对集团指定对目标属性是未知的(尽管其他属性可能是已知的)。例如,制造商可以开发一个预测模型,区分部分失败在酷热下,极端寒冷,根据他们的制造业或其他条件环境,这个模型可以被用来确定每个部分适当的应用程序。另一种方法用于预测建模回归分析时可以使用目标属性是一个数值,我们的目标是为新数据预测价值。
描述性建模
描述性建模、或集群,也将数据分成组。使用集群,然而,适当的组事先是未知的;模式发现的分析数据是用来确定组。例如,广告客户可以分析一般人群以潜在客户划分为不同的集群然后每组开发单独的广告活动的目标。欺诈检测也利用聚类识别组患者类似的采购模式。