您的浏览历史

数据挖掘原理   [绝版]

  • 定价 : ¥48.00
  • 会员价 : ¥96.00
促销活动

基本信息

内容简介回到顶部↑

很多学科都面临着一个普遍问题:如何存储、访问异常庞大的数据集,并用模型来描述和理解它们?这些问题使得人们对数据挖掘技术的兴趣不断增强。长期以来,很多相互独立的不同学科分别致力于数据挖掘的各个方面。本书把信息科学、计算科学和统计学在数据挖掘方面的应用融合在一起,是第一本真正和跨学科教材。
本书由三部分构成。第一部分是基础,介绍了数据挖掘算法及其应用所依赖的基本原理。讲座方法直观易懂,深入浅出。第二部分是数据挖掘算法,系统讲座了如何构建求解特定问题的不同算法。讲座的内容包括用于分类和回归的树及规则、关联规则、信念网络、传统统计模型,以及各种非线性模型,比如神经网络和“基于记忆”的局部模型。第三部分介绍了如何应用前面讲座的算法和原理来解决现实世界中的数据挖掘问题。谈到的问题包括元数据的作用,如何处理残缺数据,以及数据预处理。



作译者回到顶部↑

本书提供作译者介绍

David Hand是伦敦帝国大学数学系统计学教授。Heikki Mannila是赫尔辛基工业大学计算科学与工程系的教授,诺基亚研究中心的研究员。Padhraic Smyth是加州大学Irvine分校信息与计算科学系的副教授。
.. << 查看详细

目录回到顶部↑

第1章 给论
1.l 数据挖掘简介
1.2 数据集属性
1.3 结构类型:模型和模式
l.4 数据挖掘任务
1.5 数据挖掘算法的组件
1.5.l 评分函数
1.5.2 优化和搜索方法
1.5.3 数据管理策略
1.6 统计和数据挖掘的相互关系
1.7 数据挖掘:打捞、探查还是垂钓
1.8 本章归纳
1.9 补充读物
第2章 测量和数据
2.l 简介
2.2 测量类型
2.3 距离尺度
2.4 数据转化
2.5 数据形式
2.6 单个测量的数据质量

译者序回到顶部↑

网络和存储技术的迅猛发展,使数据的传播和积累速度不断提高,但当我们为拥有极其详尽的数据而欣喜的同时,也发现新的数据处理和提炼技术非常匾乏。面对日益庞大的数据资源,人们迫切需要更强有力的工具来“挖掘”其中有用的信息。数据挖掘就是针对这一需求而发展起来的一门新兴学科。
本书是数据挖掘领域的三位专家的一本最新力作。全书共14章,从内容上可以分为三大部分。第一部分是基础,介绍了数据挖掘算法及其应用所依赖的基本原理。第二部分是数据挖掘算法,系统讨论了如何构建求解特定问题的不同算法。第三部分介绍了如何应用前面讨论的算法和原理来求解现实世界中的数据挖掘问题。该书虽然出版时间不长,但已经得到很多好评,被很多大学选为教材。该书的特色在于:
第一,以统计学家的视角系统解析了数据挖掘技术所依赖的统计原理。因为数据挖掘所针对的是不完整和存在“噪声”的庞大数据集,所以统计学中的概率分析和检验技术在数据挖掘中有着极其重要的作用。本书系统讨论了各种数据挖掘算法之中所蕴含的统计原理,为读者深入学习奠定了坚实的理论基础。
第二,应用面向组件的思想,把数据挖掘算法分解为既相互联系,又相对独立的几大组件,即模型结构、评分函数、搜索方法和数据管理技术。这样便可以把成熟的组件和分布式处理技术(如COM、DCOM和CORBA等)应用到数据挖掘领域之中,把各种数据挖掘算法封装为灵活的组件,从而可以加快数据挖掘算法的开发、重组、交流和工程化、商业化速度。
第三,全书既具有极强的理论性,又不脱离实践。既深入浅出地讲授了很多非常基本的理论,如数据、测量、概率分布、统计检验、算法的定义和复杂度等,又系统全面地介绍了各种模型(参数模型、非参数模型和混合模型)、模式和评分函数,同时,所有的理论介绍都与实践应用保持着密切的关系。既不空泛,也不僵化。书中还穿插了很多实例和图形,这进一步增强了理论的说服力。
第四,内容精练,分析独到。数据挖掘具有典型的多学科性,涉及的内容极其广泛。本书有的放矢,集中讨论基本的理论和各种算法中所蕴含的思想精华,可谓是授读者以“渔”。而且全书视角新颖,分析独到,可以说是一部用心良苦的作品。
根据以上特征,适合阅读本书的读者包括:应用数学、计算机科学等专业高年级本科学生和研究生,致力于数据挖掘方向的研究和上作人员,对数学建模、分类和回归算法、模式识别、图像和内容检索等感兴趣的其他读者。
本书是三位作者多年研究成果和教学实践的结晶。David Hand是伦敦帝国大学数学系的统计学教授和消费者信誉研究组(Consumer Credit Research Group)的主席,他是统计和智能计算领域的一位资深专家,迄今已发表了大量著作,2002年他被授予英国统计学会银质奖章。HeiMii Mannila是赫尔辛基工业大学计算科学与上程系的教授、HIIT(Heninki Institutefor Information Technology)基础研究部的主任、诺基亚研究中。0的研究员。 Padhraic Smyth是加利福尼亚大学Iryine分校信息与计算科学系的副教授。
这个译本来自多人的共同努力,参加本书翻译的有张银奎(第l、2、8~14章及附录)、宋俊(第3章)、廖丽(第5章)、闫绍松(第6章人张猛、郑靓(序言和第7章)和龙欣(中文版序),全书由张银奎统稿和审校。另外,曾华军对本书一些术语的译法提出了宝贵意见,并阅读了部分译稿;龙晓华、徐峰等人也对部分内容的翻译提出了很多宝贵建议。翻译一本书绝不像批评一本书译得不好那么容易,特别是这本书专业性很强,我们的水平也很有限,因此,错误和不当之处敬请各位读者批评指正。
译者
2002年12月15日



前言回到顶部↑

我们把从庞大的数据集或数据库中提炼有用信息的科学称为数据挖掘。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉学科。这些学科都致力于数据分析的某一个方面,因此它们有很多共性——但是每一学科又有其独有的特色,分别针对不同的问题和求解的不同方式。
由于数据挖掘涵盖了计算机科学和统计学中的很多主题,所以要在一本书中覆盖所有的相关材料是个可能的。因此,我们把焦点集中在那些我们认为特别重要的主题上。
从教学的角度来讲,本书主要适合于希望学习数据挖掘基本原理的较高年级(最后一年)大学生,或者是一、二:年级的研究生;本书对于那些旨在更好地了解数据挖掘方法和技术的研究者和实践者也是有价值的。本书假定读者已经熟悉了概率论、微积分、线性代数和优化等学科中的基本概念——也就是说,诸如工.程学、计算机科学、数学和经济学等专业的大学学历背景会为阅读和理解本书提供一个很好的基础。
目前,已经出版了许多关于数据挖掘的书籍,但其中大多数都是直接面向商业应用的,着重于特定的方法和算法(例如决策树分类),而不是一般性原理(例如参数估计和计算复杂性)。这些书对于一般了解和实例研究是很有价值的,但对于课堂教学来说有很多不足,因为底层的基本原理经常被忽略掉了。也有一些数据挖掘方面的书具有很强的专业性,但迄今为止这些书绝大部分是从计算机科学的角度出发的,特别是从数据库角度( Han and Kamber,2000,该书中译本《数据挖掘:概念与技术》已由机械工业出版社出版。)或从机器学习的角度(Witten and Franke,2000,该书中译本即将由机械工业出版社出版)。
本书的侧重点有所不同。我们的目标是分析数据挖掘的最基本特征。我们没有用很长的篇幅来讨论特定的数据挖掘应用,比如协同过滤(collallorative fliterillg)、信用评分(creditscoring)以及欺诈探查(fraud detection)等,而是把焦点集中在这些应用所依赖的基本原理和算法上。但这并不是说本书忽视了应用,因为从根本上讲数据挖掘就是一门应用性学科。我们始终记着这一点,在探讨基本理论的同时,也介绍了非常多的可以运用(或者已经运用了)该理论的具体应用和研究实例。
我们认为,要精通数据挖掘既需要理解统计学又要理解计算科学。要掌握这两个不同的专业领域,不论对学生还是对老师来说都是一个比较大的挑战。对于一般的计算机科学家来说,统计学著作是相当难以理解的:冗长而枯燥的专业术语、隐含的假定、渐近性的证明,而且缺乏这些理论和数学概念究竟是如何在实际数据分析算法中真正实现的细节。对统计学家来说情况恰好相反:关于机器学习和数据挖掘的计算机科学文献中充满了对算法、伪代码、计算效率等的讨论,但往往却很少提到潜在的模型或推理过程。尽管如此,这两个学科对于处理庞大数据集来说都是至关重要的。既可以从“数学模型”角度,又可以从“计算算法”角度理解数据挖掘是正确把握其复杂性的关键。
在本书中,我们试图架起一座沟通这两个世界的桥梁,目的是把统计建模的思想和“现实世界”中的实际计算方法和算法联系起来。
本着这一宗旨,我们以一种有些与众不同的方式组织了本书的结构。首先我们讨论了建模和推理的基本原理,然后介绍了数据挖掘算法的系统框架——一通过各种计算方法和算法把模型与数据联系起来,最后结合诸如分类和回归这样的具体技术例释了这些思想。因此,本书可分为三大部分:
1.基础第1章到第4章着重讨论数据和数据分析的基本原理。介绍了数据挖掘(第1章)、测量(第2章)、可视化数据(第3章)、不确定性和推理(第4章)的基本原理。
2,数据挖掘组件第5章到第8章着重讨论用以系统地创建和分析数据挖掘算法的各个标准部件,即我们所称的数据挖掘算法“组件”。第5章主要讨论分析算法的系统方法,我们认为这种“分组件”的方法为那些刚刚接触数据挖掘这一学科的初学者提供了一种非常有用的视角,可以系统地透视数据分析算法中那些非常容易令人困惑的地方。而后在这一框架下,我们对每个组件进行了广泛深入的讨论,第6章讨论模型表示方法,第7
章讨论用来拟合模型和数据的评分函数,第8章讨论优化和搜索技术(数据管理在第12章讨论)。
3.数据挖掘任务和算法本书的前8章已经对数据挖掘的基本原理和组件进行了讨论,余下的章节(第9章到第14章)则致力于特定的数据挖掘任务以及针对这些任务的算法。我们将某本的数据挖掘任务组织成以下几类:密度估计和聚类(第9章)、分类(第10章)。回归(第11章)、模式发现(第13章)以及根据内容检索(第14章)。在这些章节中我们使用了第一二部分所建立的框架结构,讨论了针对每一项任务的具体算法。例如,在对分类的讨论中,我们回答了这些问题:哪些模型和表示是值得考虑和有价值的?我们可以使用或者
应该用哪些评分函数来训练分类器?哪些优化和搜索技术是必要的?一旦我们使用了某种方法来实际实现算法时,这个算法的复杂度如何?我们希望这种通用的方法使读者认识到,数据挖掘算法是建立在一些非常通用的系统原理之上的,而不是简单地将一些看起来并不相关的牛僻算法堆积在一起。
如果将本书用于教学的话,那么正如在前面所提到的,本书的目标读者是具有以下专业背景的大学生:计算机科学、工程学、数学、自然科学以及像经济学这样的面向商业的很多专业。从教师的角度来说,在课程中应该如何覆盖本书的内容主要依赖于课时长度(例如1O周还是15周)和学生对统计学和机器学习等基本概念的熟悉程度。举例来说,如果是为具有统计学基本概念的一年级研究生开设的10周长度的课程,那么教师可以简单地讲述前面的章节,提纲挈领地讨论第3章、第4章、第5章和第7章;并将第1章、第2章、第6章和第8章作为背景/补充读物要求学生阅读;然后把10周中的大部分时间放在第9章到第14章的内容上,对这些内容进行深入的讨论。
然而,许多同学和读者可能只有很少的或根本没有正式的统计学背景。令人遗憾的是许多理工科专业(例如计算机科学)的本科生或研究生只有非常有限的统计学知识,他们对许多现代程序中的统计思想知之甚少。由于本书很大程度上是从统计学的角度来讨论数据挖掘的,所以我们在计算机系学生中使用本书草稿的经验告诉我们:对于许多学生来说,在10周或15周的课程时间中掌握本书是一个不小的挑战,因为要完全吸收所有内容,他们必须掌握第2章到第8章中提到的相当大范围的统计学、数学和算法概念。因此,在教学或第一遍阅读时,可以跳过本书的一些章节,以降低难度。例如,本书第11章中的回归可能是最具数学挑战件的章节,而跳过这一内容也不会影响对其他内容的理解。同样,第9章中的某些内容(比如说有关混合模型的内容)也可以跳过;第4章中的贝叶斯估计框架也如此。那么哪些内容是阅读的关键呢?我们认为第1章到第5章和第7章、第8章和第12章中的绝大多数内容对学生来说是必须掌握的,这些内容是掌握后续章节中的模型和算法思想(第6
章包含了很多关于一般建模概念的有价值的内容,但是篇幅相当长,所以可以跳过以缩短时间)的关键。第9章、第10章、第11章、第13章和第14章是“针对各种任务”的,这些章的内容是彼此相对独立的,所以可以任意选择其中的一些章节(但是前提是已经相当好地掌握了第l章到第8章中的内容)。
建议那些仅具有很少统计学知识的学生,在学习本书第4章(关于不确定性)之前,应该复习一下概率论和统计学中的一些基本概念。如果连诸如条件概率和期望这样的基本概念都还没有熟练掌握的话,那么就会在第4章及以后章节的学习中遇到相当大的困难。本书附录中简要介绍了常见分布的定义和基本的概率知识,不过许多学生可能喜欢在学习新东西之前再复习他们大学期间的概率论和统计学教材。
另一方面,对于那些具有坚实统计学背景的读者(例如统计专业学生或是对数据挖掘有兴趣的统计学家)来说,本书的绝大部分内容看起来相当熟悉,甚罕有的统计学读者可能会倾向于说:“咳,这本数据挖掘的材料在很多方面与应用统计学的内容非常相似啊!”这句话确实多少有些道理,因为数据挖掘技术(在我们看来)在相当大的程度上依赖于统计模型和方法。然而,统计学者在本书的很多地方都会很容易地发现相当多的新内容:第1章的总括部分。第5章的算法观点、第7章的评分函数观点、从第12章到第14章的数据库原理、模
式发现以及根据内容检索等。另外,我们还从数据挖掘的角度展示了许多传统的统计学概念 (例如分类、聚类和回归等),以及在普通统计学教材中通常不包括的有关算法和计算复杂度的十富内容。包括如何将各种技术运用到不同的数据挖掘应用中。虽然如此,统计学者还是会介本书中发现许多熟悉的材料。如果要从计算和数据管理的角度讨论数据挖掘,那么可以参阅参考文献中列出的Han and Kamber(2000);如果需要侧重于商业应用的材料,那么可以参阅参考文献中列出的Beny and Linoff(2000)。这些教材可以作为课堂教学的补充读物。
总而产之,本书讨论了用于数据挖掘的各种上具,并将它们分解为不同的组成部分,以便看到各个组成部分问的相互关系和结构。本书不仅给出了如何设计这些工具的内幕,而且力图使读者介血临特定的问题时,能够独立设计出合适的数据挖掘工具。本书也阐释了为什说数据挖掘是一个过程——不是那些一蹴而就的任务,而是一种“发现——表示——再调查”的持续过程。本书也包含了大量针对现实数据的应用,其中很多是从作者本人所从事的科研和应用研究中选摘的。为了教学的方便,所有讨论的数据集合并非都是很大,因为这样解释起来更加简单。而且一旦领会了其中的思想,就可以很容易地把这些思想应用到现实大小的数据集中。
评论交流

共有27人开贴评论  40人参与评论  27人参与打分 查看

15人
 55%
用户平均打分
我要写评论 help如何参与评论和打分
4人
 14%
5人
 18%
1人
 3%
2人
 7%

raullew

二级评论员
评价等级:  
发表于:2008-4-19 19:12:00
赞同gqnmgsp的观点,这本书在amazon上褒贬不一也是因为这个原因,过于高屋建瓴,很多具体的算法仅仅是点到即止。我认为初学者应该看linoff的那本,这本应该用来提高对数据挖掘框架的认识,是为最大亮点。
您觉得呢? 送鲜花 (得0支)  扔鸡蛋 (得0个)

chinakdd
三级评论员
评价等级:  
发表于:2008-1-18 1:09:00
到 www.chinakdd.com 上就可以下载电子版
您觉得呢? 送鲜花 (得0支)  扔鸡蛋 (得1个)

gqnmgsp

二级评论员
评价等级:  
发表于:2005-6-5 12:25:00
个人认为明确数据挖掘的理论基础是非常重要的,尽管现在没有哪个学科能够独挑此大梁,然而统计学、最优化理论、机器学习、模式识别等学科为数据挖掘的发展提供了很多值得借鉴的方法、技术。我觉得这本书最闪光的地方在于作者将数据挖掘任务划分为组件的思想(尽管有时候不一定能够明确的划分出每个部分),这为高效的开发数据挖掘算法以及重用挖掘算法组件提供了一个很好的框架。总的感觉这本书是偏重于统计的,也就是挖掘算法组件中的模型和评价函数两部分,不过也仅仅给了读者一个概述、引导,毕竟,要真正深入还是要看大量相关论文的。
这本书中曾提到数据挖掘和统计的主要区别在于数据挖掘所要处理的数据量相当大,所以数据挖掘要解决的任务是使原本在少量数据上运行的算法在海量数据上可以scalable,要实现这样的目标要依靠数据库技术(韩家炜的那本侧重于数据管理组件)。
每本书都有其侧重点和特色,我们要做的是博览群书发现每本书中的金子,同时,我们在给出书评的时候应该更全面的评论,更多的把它的闪光点告诉其他人。
个人浅见,不当处请批评指正。
回复 ( 2条评论-- 点击查看讨论 )
您觉得呢? 送鲜花 (得1支)  扔鸡蛋 (得1个)

wjx
二级评论员
评价等级:  
发表于:2006-12-12 22:03:00
我有一本,10元出掉,有意请联系 MSN : wjxchina@hotmail.com QQ : 14899841 广州地区
您觉得呢? 送鲜花 (得0支)  扔鸡蛋 (得0个)

jordanvshe
一级评论员
该会员在china-pub购买过此书
评价等级:  
发表于:2006-4-27 13:08:00
作者将数据挖掘任务划分为组件的思想,不错,这为高效的开发数据挖掘算法以及重用挖掘算法组件提供了一个很好的框架。但数学要求较高,我数学系毕业的,看着也很费劲,还是先看han的那本,才肯这本和 实验机器学习那本, 如果这三本都啃完了,DM理论水平应该有一定基础了
您觉得呢? 送鲜花 (得0支)  扔鸡蛋 (得0个)
我要写评论
查看所有评论交流(共27条)