您好,欢迎来到二三娱乐。
搜索
您的当前位置:首页正文

数据挖掘与预测分析:第2版

来源:二三娱乐


1章

数据挖掘与预测分析概述

1.1 什么是数据挖掘和预测分析

最近,计算机制造商Dell对提高其销售人员的工作效率非常感兴趣。为此,公司利用数据挖掘和预测分析方法分析其潜在客户数据库,以发现那些最有可能真正成为其客户的人群。通过利用LinkedIn及其他能够提供大量丰富潜在客户信息的类似网站,研究潜在客户的社会网络行为,Dell就能为其客户开发出更具个性化的销售方式。以上案例是通过挖掘客户数据,帮助识别潜在客户市场行为类型的实例,它基于客户的个人档案记录。这一工作能获得什么样的效益呢?可以将需要联系的预期人群数量减少50%,只与那些最有可能成为客户的人群联系,销售人员的效率和效益提高一倍左右,同时Dell的营业额也获得了类似的增长1。

美国麻省州政府以预测分析为工具,大大减少了全州的医疗福利诈骗案件。当医疗索赔发生时,州政府立即将相关信息实时发送到预测分析模型,执行异常检测。据麻省州医疗福利欺诈中心负责人Joan Senatore透露,在投入使用的前6个月期间,该系统“发现了涉及大约两百万美元的不应支付的款项,避免了大量欺诈索赔金额的支付”。2

1 How Dell Predicts Which Customers Are Most Likely to Buy, by Rachael King, CIO Journal, Wall Street Journal, December 5, 2012.

2 How MassHealth cut Medicaid fraud with predictive analytics, by Rutrell Yasin, GCN, February 24, 2014.

4 第Ⅰ部分 数 据 准 备

麦肯锡全球研究所(MGI)报告3称大多数雇员超过1000人的美国公司平均有至少200 TB的数据存储。麦肯锡全球研究所认为在世界范围内,数据产生的总量将以每年40%的速度增长,对公司来说,这将带来有利可图的机会,它们可以利用其数据减少开销并增加利润。例如,按照MGI的报告,能够最大限度地利用这些“大数据”的零售商可使其营业额毛利增长60%以上。

《福布斯》杂志报告4表明,利用数据挖掘和预测分析,可发现那些具有最严重危险的充血性心脏衰竭病人。IBM收集了涉及350 000位病人的3年数据,包括超过200个参数的数据度量值,如血压、体重以及处方药等。利用预测分析,IBM发现可能会死于充血性心脏衰竭的风险最大的8500位病人。

《MIT(麻省理工学院)技术导报》报告5声称,正是由于奥巴马竞选团队有效利用了数据挖掘技术,帮助奥巴马于2012年赢得了与对手罗姆尼的总统竞选。首先,竞选团队使用数据挖掘模型确定出潜在的奥巴马支持者,然后确定这些支持者将会参与投票。竞选团队还使用了单独的数据挖掘模型,按照不同选区预测投票结果。在著名的摇摆选区,即俄亥俄州汉密尔顿选区,该模型预测奥巴马将获得56.4%的选票;实际情况是,奥巴马总统在该选区获得56.6%的选票,预测值与实际值仅相差0.2%。这样准确的预测能力使得竞选团队成员能在分配紧缺资源时获得更高的效率。

数据挖掘是从大型数据集中发现有用的模式和趋势的过程。

预测分析是从大型数据集中获取信息以便对未来结果进行预测和估计的过程。 那么,数据挖掘是什么?预测分析是什么?

当你在大型超市排队等待结账时,是否曾经闭上眼睛倾听?你可能会听到收款台上的读卡器在扫描读取食品杂货条形码时所发出的嘟嘟声,此时读取的数据都存放到公司的服务器上。每一次嘟嘟声都意味着向数据库中插入了一条新记录,表明收集到包含新“观察值”的信息,这些信息涉及你的家庭以及其他通过收款台的家庭所具有的购买习惯。

显然,可以收集到大量的数据。然而,我们能够从所有这些数据中学习到什么呢?将会从所有这些数据中得到何种新知识呢?现实情况是,可能没有你想象的那样多,原因在于有经验的数据分析人员严重短缺。 3 Big data: The next frontier for innovation, competition, and productivity, by James Manyika et al., Mckinsey Global Institute, www.mckinsey.com, May, 2011. Last accessed March 16, 2014.

4 IBM and Epic Apply Predictive Analytics to Electronic Health Records, by Zina Moukheiber, Forbes magazine, February 19, 2014.

5 How President Obama’s campaign used big data to rally individual voters, by Sasha Issenberg, MIT Technology Review, December 19, 2012.

第1章 数据挖掘与预测分析概述 5

1.2 需求:数据挖掘技术人员

早在1984年,在《大趋势》一书6中,约翰·奈斯比特注意到“我们被大量信息淹没,但却缺乏知识”。当前,这一问题不在于我们没有足够的数据或信息流。事实上,目前多数领域都存在大量的数据。问题在于,我们缺乏擅长于将所有这些数据转换为知识的足够分析人员,他们能够将分类树转为智慧。

数据挖掘和知识发现领域的持续显著成长是源于多种因素幸运交汇的结果: ● 收集到的数据呈爆炸性增长,正如前述超市扫码器的案例所示;

● 将数据存储到数据仓库中,从而整个企业能够访问可靠的、最新的数据库; ● 越来越多的人能够通过网页浏览和内联网访问数据; ● 在经济全球化进程中为增加市场份额所遇到的竞争压力; ● 可用的商业数据挖掘套件的开发; ● 计算能力和存储能力的不断增大。 遗憾的是,McKinsey报告7认为:

企业需要的能够利用大数据的人才存在短缺。因此,想要获取大数据中蕴含的价值将严重受制于人才的短缺,特别是具有统计和机器学习方面专门知识的专家型人才,以及熟知如何利用从大数据中获得的知识来运营公司的管理人员和分析师。我们认为对大数据领域需要的、能够进行深入分析的职位呈现供不应求的状况,短缺将达到140 000~190 000个职位。此外,我们认为在美国大约需要额外的150万管理人员和分析师,他们能够提出正确的问题并有效地使用大数据分析的结果,开展管理和分析工作。

本书试图帮助缓解数据分析人员严重短缺的现状。

1.3 数据挖掘离不开人的参与

自动化无法替代人的监督,数据挖掘过程的每个阶段都需要人的积极参与。与其寻找人员适合在数据挖掘中处理什么工作,不如询问我们如何能够将数据挖掘设计成为人性化的问题求解过程。

此外,当前可用的强大数据挖掘算法嵌入在黑盒软件中,这会导致大量的误用,从而产生更大的危险。与其他新的信息技术一样,数据挖掘技术也容易产生不良的效果。例如, 6 Megatrends, John Naisbitt, Warner Books, 1984.

7 Big data: The next frontier for innovation, competition, and productivity, by James Manyika et al., Mckinsey Global Institute, www.mckinsey.com, May, 2011. Last accessed March 16, 2014.

6 第Ⅰ部分 数 据 准 备

研究人员可能应用不适当的、与正确途径完全不同的方法分析数据集,或者得出的模型建立在完全似是而非的假设的基础上。因此,需要理解作为软件底层的统计和数学模型的结构。

1.4 跨行业数据挖掘标准过程:CRISP-DM

在一些公司中,由于部门习惯和组织划分,存在着混乱地处理数据挖掘的情况,从而浪费大量资源,开展重复劳动。因此明显需要建立一种跨行业的标准,该标准应与行业、工具和应用无关。跨行业数据挖掘标准过程(CRISP-DM8)由来自戴姆勒-克莱斯勒、SPSS和NCR的分析人员共同开发。CRISP提供了一种开放的、可自由使用的数据挖掘标准过程,使数据挖掘适合于商业或研究单位的问题求解策略。

按照CRISP-DM标准,一个数据挖掘项目的生命周期包含6个阶段,如图1.1所示。注意阶段顺序是自适应的。这意味着,后一阶段通常依赖于与之相关的前一个阶段的结果。阶段之间最显著的依赖关系用箭头表示。例如,假设我们目前处于建模阶段。根据模型的行为和特征,在进入模型评估阶段前,我们可能需要返回到数据准备阶段做进一步的完善工作。

8 Peter Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinart, Colin Shearer, Rudiger Wirth, CRISP-DM Step-by-Step Data Mining Guide, 2000.

第1章 数据挖掘与预测分析概述 7

业务/研究 理解阶段 数据理解 阶段

部署阶段

数据准备阶段

评估阶段建模阶段

图1.1 CRISP-DM是一个迭代的、自适应的过程

CRISP的迭代特性如图1.1中的外圈所示。通常,针对特定业务或研究问题的解决方案将会产生更为深入的有趣问题,这些问题往往可以使用与之前类似的通用过程加以解决。从过去的项目中学到的经验教训始终应该作为新项目的输入。以下是对各个阶段的简略描述(在评估阶段遇到的问题可以由分析人员返回前面的任一阶段开展完善工作)。

CRISP-DM:六阶段概述

1. 业务/研究理解阶段

a. 首先,根据业务或研究单元,从总体上清楚地阐明项目目标和需求。 b. 然后,将这些目标和约束转换为数据挖掘问题定义的公式。 c. 最后,准备实现这些目标的初步策略。 2. 数据理解阶段 a. 首先,收集数据。

b. 然后,通过探索性数据分析熟悉数据,发现浅层见解。 c. 评估数据质量。

d. 最后,如果需要的话,选择可能包含可执行模式的感兴趣数据子集。 3. 数据准备阶段

a. 该阶段需要投入大量的精力,涵盖准备最终数据集的方方面面,这些数据将用于后续阶段,涉及初始数据、原始数据和脏数据。

8 第Ⅰ部分 数 据 准 备

b. 选择要分析的案例和变量,为分析做好准备工作。 c. 如果需要的话,对确定的变量进行转换。

d. 对原始数据展开清理工作,为使用建模工具建模打下基础。 4. 建模阶段

a. 选择并应用适当的建模技术。 b. 校准模型设置以优化结果。

c. 通常,对同一个数据挖掘问题可能要应用多种不同的技术。

d. 可能需要返回数据准备阶段,以便使数据形式能够符合特定数据挖掘技术对数据的特定需求。 5. 评估阶段

a. 建模阶段将发布一个或多个模型。在将这些模型部署到现场进行使用前,必须对模型质量和效果开展评估工作。

b. 同时要确认模型是否能完成阶段1设定的目标集。 c. 确认业务或研究问题的重要组成部分是否未被清楚地解释。 d. 最后,做出有关是否使用数据挖掘结果的决定。 6. 部署阶段

a. 建立了模型并不意味着项目已经完成。需要应用已建立的模型。 b. 简单部署实例:建立报表。

c. 复杂一些的部署实例:在其他部门实现并行数据挖掘过程。 d. 对商业应用来说,客户通常会基于建立的模型开展部署工作。

本书广泛采纳CRISP-DM,当然有些方面进行了修改。例如,在执行探索性数据分析(第3章)前,我们趋向于先清理数据(第2章)。

1.5 数据挖掘的谬误

在美国众议院技术、信息政策、政府间关系和人口普查小组委员会以前的发言中,鹦鹉螺系统公司总裁Jen Que Louie描述了对数据挖掘的4种常见谬误,其中两种与我们前述的警告相同:

● 谬误1:数据挖掘工具可以方便地连接到我们的数据仓库并得出问题的答案。

实际情况是,不存在能够机械式地自动解决你的问题并且你什么都不需要做的自动化数据挖掘工具。数据挖掘是一个过程,而CRISP-DM是一种将数据挖掘过程融合到整个业务和研究活动中的方法。

● 谬误2:数据挖掘过程是自动化的过程,几乎不需要人为的监督。

实际情况是,数据挖掘不是魔术。没有训练有素的人员的监督,盲目使用数据挖

第1章 数据挖掘与预测分析概述 9

掘软件将会带给你错误问题的错误解答,并且运用到错误的数据类型。此外,错误的分析比不做分析更糟,因为错误分析所产生的策略建议将带给你代价昂贵的失败。即使部署模型之后,新数据的引入通常也需要对模型进行更新。必须由分析人员不断地开展质量监督和其他的评估度量工作。 ● 谬误3:数据挖掘很快就会收回投资。

实际情况是,回报率差别很大,这依赖于初始开销、分析人员开销、数据仓库准备的开销等。

● 谬误4:数据挖掘软件包直观易用。

实际情况是,易用性也是千差万别的。然而,不要听信一些软件开发商广告的宣传,你不能仅仅购买数据挖掘软件,安装并袖手旁观,等着它为你解决所有的问题。例如,算法需要特定的数据格式,这可能需要大量的预处理工作。数据分析人员必须同时具备分析问题的学科知识,并且熟悉整个业务和研究模型。

除了以上所列的谬误外,我们增加了其他3种常见的谬误。 ● 谬误5:数据挖掘将确定我们的业务或研究问题的原因。

实际情况是,知识发现过程将帮助你揭示行为模式。再次强调,确定原因是由人完成的工作。

● 谬误6:数据挖掘将自动清理混乱的数据库。

实际情况是,当然不是自动的。作为数据挖掘过程的最初阶段,数据准备阶段通常用于处理多年来未检验和使用的数据。因此,开始新的数据挖掘操作的组织通常将面对多年未使用的数据问题。由于多年未被使用,需要对这些数据进行大量的更新工作。

● 谬误7:数据挖掘总是会提供正面的结果。

实际情况是,当对数据进行挖掘工作以获得可用知识时,并不能保证获得正面的结果。数据挖掘不是解决商业问题的灵丹妙药。通过由理解所涉及的模型、数据需求和项目总体目标的人员适当地使用,数据挖掘的确能够提供有价值的、高效益的结果。

以上讨论也可称为数据挖掘不能做什么工作。以下内容将转入讨论数据挖掘能做什么工作。

1.6 数据挖掘能够完成的任务

以下列表展示最常见的数据挖掘任务: 数据挖掘任务

10 第Ⅰ部分 数 据 准 备

1 描述 2 评估 3 预测 4 分类 5 聚类 6 关联

1.6.1 描述

有时,研究人员和分析人员试图发现隐藏在数据中的模式和趋势描述方法。例如,民意调查员可能会发现失业人员不大可能在总统选举中支持现任总统的证据。对此类模式和趋势的描述通常会得出可能的解释。例如,失业人员的财务状况通常比现任总统就任前要差得多,因此趋向于投票给新的总统候选人。

数据挖掘模型应该尽可能透明。也就是说,数据挖掘模型的结果应该描述清晰的模式,这些模式服从直觉解释。一些数据挖掘方法比其他数据挖掘方法更适合透明解释。例如,决策树提供直观的、便于人们理解的解释结果。然而,神经元网络由于模型的非线性和复杂性,对非专业人士来说其解释相对要模糊得多。

高质量的描述通常能够以探索性数据分析实现,这是一种图形化的方法,对数据进行探索以搜索模式和趋势。我们将在第3章中考察探索性数据分析方法。

1.6.2 评估

对评估来说,我们用一组数字和/或分类预测变量近似估计数字目标变量的值。建立的模型使用“完整”的记录,这些记录提供了目标变量的值以及预测值。然后,对于新的观测结果,估计目标变量与预测变量之间值的差异。

例如,我们对评估医院病人的收缩期血压读数感兴趣,该评估基于病人的年龄、性别、身体质量指数、血钠水平等。收缩期血压与训练集中的预测变量之间的关系将给我们提供一个评估模型。然后我们可以将该模型应用于新病例中。

业务和研究中涉及的评估任务包括:

● 评估一个随机选择的四口之家在秋季返校前的购物开销情况;

● 评估橄榄球联赛中进攻后卫在膝盖受伤后导致的折返跑动作下降的百分比; ● 评估勒布朗·詹姆斯在加时赛中面对包夹战术时每场比赛的得分情况; ● 基于本科生的GPA,评估研究生的GPA。

如图1.2所示,散点图表示1000名研究生的GPA与本科生的GPA的情况。按照最小二乘准则的简单线性回归让我们能够发现这两个变量之间的近似关系。在已知学生本科GPA的情况下,图1.2所示的回归线用于评估研究生的GPA。

第1章 数据挖掘与预测分析概述 11

研究生的GPA 本科生的GPA

图1.2 基于回归线的回归评估

回归线的表达式(由统计软件包Minitab产生,图1.2也是由该软件包生成的)为ˆ=1.24+0.67x。该公式表明,评估毕业生年级平均成绩等于1.24加上0.67倍本科生年y

级平均成绩。例如,假定你的本科年级平均成绩为3.0,则毕业生年级平均成绩为ˆ=1.24+0.67(3)=3.25。注意点(x=3.0,yˆ=3.25)精确地出现在回归线上,与线性回归预测y

的结果完全一致。

统计分析领域提供了几种广泛使用的经典评估方法,包括点评估以及置信区间评估、简单线性回归和关联、多元回归等。我们将在第5、6、8、9等章中介绍这些方法。第12章也可用于评估分析。

1.6.3 预测

预测与分类和评估类似,但预测主要是针对未来的情况。商业和研究领域的预测任务包括:

● 预测未来3个月的股票价格;

● 在限速提高后,预测下一年交通死亡人数增加的百分比;

● 根据每个球队的统计结果比较,预测今年秋季世界杯系列赛的冠军; ● 预测药物研发中的某个特定分子是否会给制药公司带来有利可图的新药。 在适当的环境下,所有分类和评估技术使用的方法和技术也可以用于预测。这些方法包括传统的点评估和置信区间评估、简单线性回归和关联、多元回归等统计方法,将在第5章、第6章、第8章和第9章中探讨。还包括数据挖掘和知识发现方法,如k-最近邻方法(第10章)、决策树(第11章)和神经元网络(第12章)等。

12 第Ⅰ部分 数 据 准 备

1.6.4 分类

分类方法与评估方法类似,区别是分类方法的目标变量是类别而不是数字。对分类来说,包括一个目标分类变量,例如收入档次,该变量可分为3个类别或类:高收入、中等收入和低收入。数据挖掘模型检验大量的数据记录,每个记录包含目标变量的信息以及一组输入或预测变量。例如,考虑如表1.1所示的数据集摘录内容。

表1.1 摘录自数据集的分类收入

目标

年龄

女 男 男 …

性别

职业

软件工程师 营销顾问 失业 …

收入档次 高 中等 低 …

001 47 002 28 003 35 …

假设研究人员希望对新个体的收入档次进行分类,该个体目前不在上述数据集中,而是要基于与该个体相关的其他特征开展分类工作,例如年龄、性别、职业等。这就是典型的分类任务,非常适合采用数据挖掘方法和技术来解决。

解决该问题的算法简单描述如下。首先,验证数据集中包含的预测变量和(已经分类的)目标变量,即收入档次。以此方法,算法(软件)“通过学习知道”不同的变量组合与收入档次的哪个类别关联。例如,年龄稍长的男性可能与高收入类别关联。该数据集称为训练集。

然后,算法将查询新记录,新记录的收入档次一栏中尚未包含任何信息。基于训练集中的分类,算法将给新记录分配其所属的类别。例如,63岁的男性教授可能会被分类到高收入类别中。

商业和研究领域的分类任务示例如下: ● 确定特定的信用卡交易是否存在欺诈;

● 根据其特定的需求,将新学生放入特定的队列中; ● 评估抵押贷款申请的信用风险;

● 确定遗嘱是否由死者书写,还是被他人篡改;

● 确定一定的财务或个人行为是否预示存在某种恐怖威胁。

例如在医疗领域中,假设我们希望根据病人的特征(如病人的年龄、病人的钠钾比)对其服用药的类型进行分类。对于包括200名病人的样例,图1.3给出了病人钠钾比与病人年龄的散点图。服用的不同药物由图中不同灰度的点表示。浅灰点表示药物Y,中度灰点表示药物A或X,深灰点表示药物B或C。图中钠钾比对应Y(垂直)轴,年龄对应X(水平)轴。

第1章 数据挖掘与预测分析概述 13

钠钾比 年龄

图1.3 何种药物应该让何种类型的病人服用

假定我们将基于该数据集,为病人开具处方药。

(1) 对于钠钾比高的年轻病人,我们应该推荐何种药物呢?

年轻病人位于图的左边,钠钾比高的病人位于图的上半部分,这表明以前推荐给具有高钠钾比的年轻病人的药物为Y(浅灰点)。因此,推荐给该类病人的预测分类药物为Y。

(2) 对于具有低钠钾比的老年病人,我们应该推荐其服用何种药物呢?

该类病人处于图中右下的位置,已服用不同的药物,由深灰点(药物B或C)或中度灰点(药物A或X)表示。在没有其他具体信息的情况下,无法获得确定的分类。例如,也许这些药对beta阻滞剂、雌激素水平或其他药物存在不同的影响,或者存在禁忌条件,如哮喘或心脏病等。

图形和图表有助于理解数据所包含的二维或三维关系。但有些时候,分类需要基于很多不同的预测属性,并且需要多维图表。因此,我们需要开发更复杂的模型以执行分类任务。在第10~14章中将对用于分类的常见数据挖掘方法开展讨论。

1.6.5 聚类

聚类是一种将相似的记录、观察和案例划分到同一个类别中的方法。聚类中的簇是相似记录的集合,不相似的记录被划分到不同的簇中。聚类与分类的区别在于,其没有目标变量。聚类任务不需要分类、评估或预测目标变量的值。相反,聚类算法发现并将整个数据集划分为相对同质的子集合或簇,簇内的记录相似性最大化,簇外的记录与簇内的记录相似性最小化。

Nielsen Claritas公司处理聚类业务,他们提供按照邮政编码划分的全国不同地理区域的人口统计概貌。该公司所使用的聚类机制之一是PRIZM分段系统,该系统描述美国所有邮政编码区域的独特生活方式类型。表1.2展示的是涉及的66个不同簇。

14 第Ⅰ部分 数 据 准 备

表1.2 PRIZM分段系统使用的66个簇

01 Upper Crust 04 Young Digerati 07 Money and Brains 10 Second City Elite 13 Upward Bound 16 Bohemian Mix 19 Home Sweet Home 22 Young Influentials 25 Country Casuals 28 Traditional Times 31 Urban Achievers 34 White Picket Fences 37 Mayberry-ville 40 Close-in Couples 43 Heartlanders 46 Old Glories 49 American Classics 52 Suburban Pioneers 55 Golden Ponds 58 Back Country Folks 61 City Roots 64 Bedrock America

02 Blue Blood Estates 05 Country Squires 08 Executive Suites 11 God’s Country 14 New Empty Nests 17 Beltway Boomers 20 Fast-Track Families 23 Greenbelt Sports 26 The Cosmopolitans 29 American Dreams 32 New Homesteaders 35 Boomtown Singles 38 Simple Pleasures 41 Sunset City Blues 44 New Beginnings 47 City Startups 50 Kid Country, USA 53 Mobility Blues 56 Crossroads Villagers 59 Urban Elders 62 Hometown Retired 65 Big City Blues

03 Movers and Shakers 06 Winner’s Circle 09 Big Fish, Small Pond 12 Brite Lites, Little City 15 Pools and Patios 18 Kids and Cul-de-sacs 21 Gray Power 24 Up-and-Comers 27 Middleburg Managers 30 Suburban Sprawl 33 Big Sky Families 36 Blue-Chip Blues 39 Domestic Duos 42 Red, White and Blues 45 Blue Highways 48 Young and Rustic 51 Shotguns and Pickups 54 Multi-Culti Mosaic 57 Old Milltowns 60 Park Bench Seniors 63 Family Thrifts 66 Low-Rise Living

如表1.2所示,邮政编码90210的加利福尼亚贝弗里山地区的簇如下: ● 簇#01:上流社会 ● 簇#03:名流权贵 ● 簇#04:青年文人 ● 簇#07:富人与老板 ● 簇#16:波希米亚人

簇#01:上流社会的描述是“作为国家最独特的地域,上流社会是美国最富裕的生活方式,年龄在45~64岁的空巢夫妇的天堂。其他区段没有像该区域一样具有如此大量年收入10万美元以上且具有硕士学位的居民,也没有如此奢华的生活标准”。

业务和研究领域的聚类任务包括如下示例:

● 为不能投入大量市场预算的小型公司的小众产品确定目标市场; ● 出于财务审计目的,将财务行为划分为良好和可疑类别;

第1章 数据挖掘与预测分析概述 15

● 当数据集包含大量属性时,可作为一种降维工具; ● 对基因表示聚类,发现大量基因可能具有的相似行为。

聚类通常作为数据挖掘过程的预处理步骤执行,得到的簇当作下游的不同技术的进一步输入,例如神经元网络等。第19章将讨论分层和K均值聚类,第20章将讨论Kohonen网络(一种自组织竞争型神经网络),第21章将讨论平衡迭代约简,以及使用层次的聚类方法(BIRCH方法)。

1.6.6 关联

数据挖掘的关联任务主要是发现哪些属性“同时出现”。商业领域最流行的方法常称为关联分析或购物篮分析,其关联的任务是发现规则以量化两个或多个属性之间的关联关系。关联规则是一些形如“如果存在前件,则产生结果”的规则,与规则有关的度量主要涉及支持度和可信度。例如,在某个超市中可能会发现,于周四晚上到超市购物的1000名客户中有200人购买了尿布,在购买了尿布的200名顾客中有50人购买了啤酒。为此,产生的关联规则为“如果购买了尿布,则还会购买啤酒”,该规则的支持度为200/1000=20%,可信度为50/200=25%。

商业和研究领域中关联任务的示例包括:

● 调查在订购公司手机计划的客户群体中正面回应服务升级的客户所占的比例; ● 验证父母为其阅读的孩子自己成为优秀阅读者的比例; ● 预测电信网络出现问题的情况;

● 发现超市中哪些商品往往被客户一起购买,哪些商品从未一起购买; ● 确定新药物将显示出危险副作用的案例比例。

在第22章,我们将讨论建立关联规则的两种算法:先验算法以及广义规则归纳(GRI)算法。

R语言开发园地

R语言入门

#注释、缩进以及分号

# 以#符号开始的所有字符均为注释

# 注释不会被R执行,它们主要用于解释代码将要做什么事情 # 缩进代码(不是注释)只要处于同一行中,就将在R中执行 # 由分号隔开的代码将作为不同的行运行 # 使用分号表示行结束

# 打开数据集并显示数据

16 第Ⅰ部分 数 据 准 备

# 使用你希望打开文件的准确位置替换\"c:/…/\"

cars <- read.csv(file = \"C:/…/cars.txt\cars #为显示整个数据集,应输入数据集名称 head(cars) #显示数据集的前几条记录

names(cars) #显示数据帧的变量名,这是R中的一种数据 cars$weight #仅查找在数据帧cars中的weight变量

# 矩阵

# 建立一个三行、两列的矩阵,将所有元素赋初值为0.0 mat <- matrix(0.0, nrow = 3, ncol = 2); mat

colnames(mat) <- c(\"Var 1\ #定义矩阵变量名 colnames(mat) #显示矩阵的变量名

# 数据子集化及声明新变量

cars.rsub cars[1:50,] #按行建立数据子集 cars.csub <- cars[,1:3] #按列建立数据子集

cars.rcsub <- cars[c(1,3,5), c(2,4)] #按特定的行和列建立数据子集 cars.vsub <- cars[which(cars$mpg> 30),] #根据逻辑条件建立数据子集 #声明新变量,键入变量名、左向箭头,然后给出变量值 firstletter <-\"a\" weight <- cars$weight

# 同时显示一幅或多幅图

par(mfrow=c(1,1)) #画出1幅图;这是默认设置

par(mfrow=c(2,3)) #画出6幅图:其中3幅图画在顶部,另外3幅图画在底部 #图形将逐行地填充

# 下载并安装R软件包

# 示例:ggplot2, 见第3章 install.packages(\"ggplot2\")

# 选择可选的CRAN镜像,如右图所示 打开新的软件包 #

library(ggplot2)

第1章 数据挖掘与预测分析概述 17

R参考文献

Wickham H. ggplot2: Elegant Graphics for Data Analysis. New York: Springer; 2009. R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2012. ISBN: 3-900051-07-0, http://www.R-project.org/.

练习

1. 对以下每个描述,确定与之相关的数据挖掘任务:

a. 波士顿凯尔特人队希望近似预测他们的下一个对手在与他们比赛时会得到多少分。 b. 某军事情报官员希望通过学习了解在某一个特定的战略区域内,两个派别各自的比例。

c. 北美防空联合司令部的防御计算机必须立刻确定雷达上的光点是一群鹅还是来袭的核导弹。

d. 政治策略师寻找特定国家/地区的募捐最佳组合。

e. 国土安全局官员希望确定一系列财务和住宅变动是否暗示具有恐怖行动的趋势。 f. 华尔街分析师被要求采用相似价格/收益比找出一系列公司股票价格的预期变化。 2. 对下列每场会议,解释其处于CRISP-DM过程的哪个阶段。

a. 项目经理想知道到下周为止是否将开始部署工作。因此,分析师开会讨论他们设计模型的可用性和准确性。

b. 数据挖掘项目经理与数据仓库项目经理会面讨论如何收集数据。

c. 数据挖掘顾问与市场部副总经理会面,该经理表示他希望推进客户关系管理。 d. 数据挖掘项目经理与产品线管理人员会面,讨论如何实现改变和完善。 e. 分析师开会讨论是否需要应用神经元网络或决策树模型。

3. 讨论数据挖掘中对人的使用问题。描述完全依赖自动化数据分析工具可能带来的后果。 4. CRISP-DM并不是数据挖掘领域唯一的标准过程。研究可以使用的替代方法(提示:采样、探索、修改、建模和评估(SEMMA)出自SAS联盟的标准过程)。讨论其与CRISP-DM的异同。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top