模式挖掘

模式挖掘专注于识别规则,描述数据中的特定模式。市场购物篮分析,识别项目,通常发生在购买交易,是第一个数据挖掘的应用。例如,超市购物篮分析用来确定项目通常是购买协同实例,一个商店有出售鱼也会囤积一种调味酱。虽然测试协会一直以来可行的和通常是简单的在小数据集,数据挖掘使得少明显关联的发现巨大的数据集。最感兴趣的是意外发现的关联,这可能为市场营销或研究开辟了新途径。的另一个重要用途模式挖掘序列模式的发现;例如,序列错误或警告之前一个设备故障可用于安排预防性维护或可能提供洞察设计缺陷。

异常检测

异常检测可以视为clustering-that的另一面是,发现不寻常的数据实例和不符合任何既定的模式。欺诈检测是一个异常检测的例子。虽然欺诈检测可能被视为预测建模的问题,相对罕见的欺诈交易和罪犯的速度开发新类型的欺诈行为意味着任何预测模型可能的低精度和很快成为过时。因此,异常检测,而不是专注于什么是正常行为建模,以确定不同寻常的交易。异常检测也使用各种监控系统、入侵检测等。

许多其他数据矿业技术开发,包括模式的发现时间序列数据(例如,股票价格),流数据(例如,传感器网络)和关系学习(例如,社交网络)。

隐私问题和未来的发展方向

使用数据挖掘潜在的侵犯隐私一直是很多人关心的问题。商业数据库可能包含详细记录人们的病史,购买交易,和电话的使用,在他们生活的其他方面。公民自由主义者考虑一些数据库由企业和政府是一个未经授权的入侵和滥用的邀请。例如,美国公民自由联盟起诉美国国家安全局(NSA)涉嫌不正当监视美国公民通过收购一些美国电信公司的通话记录。这个项目始于2001年,直到2006年才被公众发现,当开始泄露出来的信息。通常风险不是从数据挖掘本身(通常旨在生产一般知识,而不是学习的信息具体问题)但从滥用或不适当的信息披露在这些数据库。

美国,许多联邦机构现在需要产生年度报告,具体地址隐私影响他们的数据挖掘项目。美国法律要求隐私报告联邦机构将数据挖掘相当限制性地定义为“…分析发现或找到一个预测模式或异常表明恐怖分子或犯罪活动的任何个人或个体。“不同地方、国家和国际执法机构已经开始分享或集成他们的数据库,潜在的滥用或安全违反迫使政府与产业合作开发更安全的计算机和网络。特别是,有保护隐私的数据挖掘技术研究操作扭曲,或者转换加密的数据减少的风险披露任何个人数据。

数据挖掘是不断变化的,一个司机正在比赛的挑战问题。一个商业Netflix大奖的例子是100万美元。网飞公司一家美国公司,提供电影租赁传送邮件或通过互联网,2006年开始比赛,看看其推荐系统,任何人都可以提高10%算法预测一个人的电影偏好基于以前的租金数据。2009年,该奖项的获得者9月21日,BellKor务实的乱是团队的七个数学家,计算机科学家和工程师们来自美国、加拿大、奥地利、和以色列曾达到10%的目标6月26日,2009年,和一种改进的最终胜利算法30天后。三年的开放竞争已经促使许多聪明的数据挖掘创新从选手。例如,2007年和2008年的会议知识发现和数据挖掘在Netflix奖举行研讨会,研究论文的主题提出了从新的协同过滤技术更快的矩阵分解(很多推荐系统的重要组成部分)。担忧隐私这样的数据也导致进步在理解隐私和匿名性。

数据挖掘并不是一个灵丹妙药然而,和结果必须被用同样的心思与任何统计分析。数据挖掘的优点之一是能够分析大量的数据手动分析,这将是不切实际的和发现的模式可能是人类理解复杂和困难;这种复杂性需要护理评估模式。然而,统计评估技术可能导致知识是免费的从人类偏见,和大量的数据可以减少偏见固有的在较小的样本。使用得当,数据挖掘提供了有价值的见解大型数据集,否则不会实际的或可能的获得。

克里斯托弗·克利夫顿