数据挖掘的应用领域有哪些

数据挖掘的应用领域有哪些

数据挖掘例子_数据挖掘实例分析数据挖掘例子_数据挖掘实例分析


数据挖掘例子_数据挖掘实例分析


应用十分广泛,例如零售行业、制造业、电子商务、保险、房地产、教育等等。

具体以电子商务举个例子,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计。

数据挖掘的应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析。常见的应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务。

商场从顾客购买商品中发现一定的关联规则,折、购物券等促销手段,提高销售额;

保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高利润;

在制造业中,半导体的生产和测试中都产生大量的数据,就必须对这些数据进行分析,找出存在的问题,提高质量;

电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计;

一些公司运用数据挖掘的成功案例,显示了数据挖掘的强大生命力:

美国AutoTrader是世界上的汽车销售站点,每天都会有大量的用户对网站上的信息点击,寻求信息,其运用了SAS软件进行数据挖掘,每天对数据进行分析,找出用户的访问模式,对产品的喜欢程度进行判断,并设特定服务,取得了成功。

Reuteres是世界的金融信息服务公司,其利用的数据大都是外部的数据,这样数据的质量就是公司生存的关键所在,必须从数据中检测出错误的成分。Reuteres用SPSS的数据挖掘工具SPSS/Clementine,建立数据挖掘模型,极大地提高了错误的检测,保证了信息的正确和权威性。

Bass Export是世界的啤酒进出口商之一,在海外80多个市场从事交易,每个星期传送23000份定单,这就需要了解每个客户的习惯,如品牌的喜好等,Bass Export用IBM的Int Miner很好的解决了上述问题。

基于数据挖掘的客户流失分析案例

基于数据挖掘的客户流失分析案例

客户挽留在很多行业都是一个备受关注的问题,比如电信、银行、保险、零售等。要做客户挽留就需要对客户流失进行预警、客户流失原因分析、客户满意度或忠诚度研究、客户生命周期研究等相关问题进行深入而全面的分析。例如,对客户的行为特征进行分析,可以了解有多少客户流失,客户是什么时候流失的,以及客户是如何流失的等问题,从而客户流失、实现客户关怀。

应用数据挖掘技术可以根据过去拥有的客户流失数据建立客户属性、服务属性和客户消费数据与客户流失可能性关联的数学模型,找出客户属性、服务属性和客户消费数据与流失的关系,给出明确的数学公式或规则,从而计算出客户流失的可能性。

电信行业较早地提出了客户关系管理、关系营销等营销管理模式,学界和企业界的积极参与也推动了客户流失行为的相关研究。电信在多年的业务支持系统建设中,积累了大量的历史业务数据,这些数据涉及到用户话单、通信计费、客户交费、市场营销、业务收入等各个方面,它们不仅是历史记录的呈现,同时还蕴含了客户的消费模式,客观上就为数据挖掘提供了丰富的素材。对于来说,成熟有效的管理模式和技术可以更好地进行客户管理,提高用户的粘性才是硬道理。

建立流失模型可以解决由于客户离网导致的市场份额减少、营销成本增加、收入降低等问题,提高挽留,降低离网率,降低挽留服务成本,减少由于客户离网所带来的收入损失。对客户按照流失倾向评分,产生可能流失客户的名单,再由对其进行挽留,把损失降到。

客户流失分析大致步骤主要分为以下四步:

一是寻找关键因子,比如探索用户离网的影响因素,根据影响因素判断用户离网发生的概率。通过研究现有套餐产品客户在呼叫通话、业务使用等各方面的行为特征,找到关键影响因子;

二是构建预测模型:采用数据挖掘监督类模型技术,训练得到潜在客户预测模型,用于预测将会选择该类套餐产品的潜在流失用户群,并以概率形式量化之。如果已经建立了Logistic回归模型,则可以根据模型,预测在不同的自变量情况下,客户流失的概率有多大;

三是判别:实际上跟预测有些类似,根据Logistic模型,判断客户有多大的可能性将会流失。这种技术与线性回归类似,只是用分类目标字段代替了数值字段,而在目标含有两个截然不同的类别时可以使用二项模型;

四是推送营业前台:通过营销管理平台,直接将高概率产品目标流失客户群推送到营业厅、短信及网站、社区等营销渠道,将挽留策略和产品在合适的时间、以合适的语言给合适的客户,从而赢得营销。

客户流失模型需要完成两个方面的任务,即分析流失客户的特征,导致客户流失的因素及客户流失在这些因素上的分布情况,还有就是得出潜在的流失客户群。

客户流失预测包括决策树、神经网络和Logistic回归等研究方法,下面就通过一个利用二项Logistic回归预测电信客户流失的实例,为大家介绍一种可用的客户流失模型,为的客户关系管理提供有益的借鉴,也为其他行业的客户流失分析提供挖掘思路。

客户流失的几个因素,主要有:客户基本信息,包括年龄、性别、邮编、地址等;客户档案,包括手机号、付费方式、停机日期、入网时长、工龄、是否使用租用设备、是否使用电话卡业务、是否使用语音;客户账户,包括服务、是否使用互联网等;计费信息,包括拨打电话数、付费总额、欠费总额等。

数据挖掘- 关联分析算法

关联分析,顾名思义就是找出哪几项之间是有关联关系的,举个例子:

以上是五个购物记录,从中我们可以发现,购买了尿布的人其中有3个购买了啤酒,那么久我们可以推测,尿布和啤酒之间有较强的关联关系,尽管他们之间看起来并没有什么联系,也就是能得到规则:

因为购物分析能较好地描述关联分析,所以又被叫做 购物篮分析 。

为了较好的描述这个分析的各种名词,我们把上面的表格重新设计一下:

把每一个购物订单中,涉及到的商品都变成1,没涉及到的变成0,也就是将各个商品的购买记录 二元化 。

当然肯定也有多个分类的情况。

那么面包,牛奶这些就叫数据集的 项 ,而他们组合起来的子集就叫做 项集 。可以为空,空集是不包含任何项的项集,如果一个项集包含k个子项,就叫做k-项集。

订单12345叫做 事务 ,某个项集在所有事务中出现多少次,叫做项集的 支持度计数 。

在上面的表格中,项集{啤酒、尿布、牛奶}的支持度计数为2,因为有两个事务(3、4)包含这一项集。

用 支持度 和 置信度 来衡量,定存在规则 ,其中X和Y是 不相交 的项集,则支持度为:

其中N是数据集中的事务个数,相当于表示该规则在数据集中出现了多少次。

置信度为:

置信度的意思就是,在出现X的情况下,有多少次同时出现了Y,代表这个关联规则的频繁程度。

注意置信度的分母是 ,因此这个评价可能会存在一定的问题。

关联分析的核心目标就是找出支持度大于等于某个阈值, 同时 置信度大于等于某个阈值的所有规则,这两个阈值记为 和 。

为了更的完成这个过程,通常把关联规则算法分为两步:

可以看出来,首先要求得频繁项集,这步骤的开销很大,但是只需要考虑支持度就可以了,第二步只考虑置信度就可以了。

下面就可以分两步来解析算法:

首先我们可以把项集联想成一个树形结构,每层代表着不同的k-项集,依层递增,非叶子来自于他的几个父的并集,如图:

我们肯定不能通过传统的方式,遍历这些,算出支持度,然后筛选掉不满足小支持度的那些,这样开销太大,因此我们引入先验原理,来辅助剪枝。

这个原理不难想象,如一个项集{a,b}是非频繁项集,那么{a,b,c}肯定也是,因为ab是,在{a,b,c}中与之关联的c必须在ab出现之后才存在,因此他的支持度肯定不会大于{a,b}。

频繁的就是支持度大于等于小支持度的项集,非频繁就是小于的。

我们可以利用这一定理,把非频繁项集的超集一并从树中减去,这样就能大大的降低计算次数,如图:

虚线圈上的,就是在{a,b}确定是非频繁项集之后,剪掉的超集,这些是不用计算的。

根据这个原理,可以说一下Apriori算法。

根据上面说的先验原理,Apriori算法先从项集宽度的1开始,遍历所有的项集支持度,找出频繁项集(因为层在找出支持度之前),之后根据先验原理,挑选任意两个频繁项集组成2-频繁项集(很简单,如果挑非频繁的,那组成的项集就不是频繁项集了),再用2-项集挑选3-项集,直到挑选不出更高层次的项集为止,把这些项集作为 候选项集 ,如图:

图中1-项集中,啤酒,面包,尿布,牛奶的支持度大于等于3(设 为3),则由他们组成2-项集,继续筛选满足支持度不小于3的项集,再由2-项集生成3-项集,这就是 Apriori 算法筛选频繁项集的基本步骤。总结如下:

上面提到了用k-1项集生成k-项集,那么如何才能的产生k-项集呢,这里用了 的方法,也就是找到一对(k-1)-项集,当他们的前(k-2)项都相同时,进行合并,合并之后的结果就是{ },因为前k-2项是相同的。

举个例子:

上面说了如何产生候选项集,接下来就是如何更的确定支持度计数了,同样,如果遍历一个一个查的话效率是很低的,我们可以用枚举的方法遍历每个事务包含的项集,以查找3-项集为例,如图:

因为我们要查3-项集,因此树状结构就分到3-项集为止。

因为3-项集的开头个项肯定在1,2,3之间,我们就设定这三个数为三个分支,无论到哪个,都严格按照这个来分(1在左,2在中,3在右),在下面的层次中如何碰到比123更大的,则再向右分,就可以得到图中的关于事务t的所有3-项集。

有了所有项集的列表,我们可以用候选项集去匹配这些项集,从而看t中是否包含候选项集,如果包含,则支持度+1。

可以使用Hash树来进行匹配,从而实现支持度计数。

如下图,就是一个Hash树的例子,每个内部都使用Hash函数 来确定应当沿着当前的哪个分支向下,所以1,4,7就到了同一分支。

我们对于单个事务,可以遍历Hash树,设事务为t,则保证所有包含属于事务t的候选3-项集的叶至少访问一次。

由于我们之前已经通过树的方式枚举出了t中所有的3-项集,那么我们跟这个Hash一走分支,找到对应3-项集的就+1支持度,即可算出每个候选项集的支持度。

提取规则相应的比较简单,设有 频繁项集Y ,我们忽略前件为空和后件为空的规则,每个频繁项集能产生 个关联规则,提取方法就是将Y划分为两个 非空 的子集X和Y-X,使得 满足 置信度阈值 也就是小置信度。

同样的,提取规则也有一个原理:

参考频繁项集的寻找过程,我们可以利用树形结构对规则进行剪枝。

树的每层对应规则后件中的项数,如图:

设规则{ } { }不满足置信度阈值的要求,那么可以丢弃后件包含{a}的所有规则,如上图所示。

至此我们经历了寻找频繁项集和提取规则的过程,基本Apriori算法就算完成了,不过还有一些需要考虑的细节。

在实际应用过程中,往往频繁项集产生的数量可能很大,所以很难表示,我们需要寻找一种方法,找到一些有代表性的频繁项集,以保证其描述性。

通常有如下两种方法:

如图:

这种表示很明显降低了需要表示项集的个数,我们需要别的候选项集,直接取极大频繁项集的子集就行,任意一个肯定都是。

但是这么做,表示不出他们子集的支持度,所以就需要再遍历数据集,确定非极大频繁项集的支持度,不是很方便。

所以我们还可以用闭频繁项集来表示。

先来看闭项集的概念:

那么闭频繁项集的概念就很好理解了:

如图,我们设 是40%。

这种做法可以保证支持度和描述性。

之前举的例子都是二元分类的,要么1要么0,下面看多分类的,我们很容易想到可以用独热编码解决这个问题,把所有分类二元化,但是这样就存在一个问题,有的属性值可能会不够频繁,没办法成为频繁项集。

所以是把多分类的项根据实际情况进行分类化,不要针对每个属性都设置独热编码。

或者将不太频繁的属性值合并为一个称作其他的类别。

所以面对多分类属性,我们要做的就是:

独热编码二元化-针对这些值进行一定的合并,或者分类或者并为其他 - 删除冗余的项 - 避免包含多个来自同一属性的项的候选集(例如{ },被写到了一个候选集中,但是实际上这种情况不可能发生,由于独热编码进行的二元化而产生了这种情况,需要避免。)

我们也会遇到一些连续属性,可以通过以下几种方式处理:

这种做法有一个问题就是分类的效果取决于区间的个数和跨度,如果取不好很难得到理想的结果。

如果要验证统计出的值是否具有统计意义,可以参考设检验中针对不同比较的不同公式,这里不再举例。

把mini-Apriori算法中的支持度代入到Apriori算法的支持度中即可。

举个例子:

想要衡量模型的好与坏,肯定要有一个评估指标,我们可以根据业务实际去评价,这是主管评价,叫做 主观兴趣度度量 ,这个显然要结合业务,所以我们要看看一些客观指标。

指标的评价往往依赖于相依表,这个相依表有点类似于混淆矩阵:

其中A,B代表在事务中出现,!A,!B代表没有在事务中出现,空列空行例如 代表A的支持度计数, 表示包含B但是不包含A的事务的个数。

基本的就是置信度和支持度了,但是这两种指标都很难做到客观评价模型,会受到多种因素的影响。

我们可以用 兴趣因子 来衡量模型:

首先我们引入 提升度 的概念,它用于计算规则置信度和 规则后件 中项集的支持度之间的比率,

对于二元变量,提升度等价于另一种称作兴趣因子的客观度量,定义为:

其中N是事务个数。

如果

但是兴趣因子有一定局限性,看上图,{p,q}和{r,s}的兴趣因子分别为1.02和4.08,虽然p和q同时出现在88%的文档中,但是他们的兴趣因子接近于1,表明他们相互,另一方面,{r,s}的兴趣因子闭{p,q}的高,但是r和s很少出现在一个文档中,这种情况下,置信度要比兴趣因子更可信,置信度表明p和q之间的联系94.6%远高于r和s之间。

另外还可以引入 相关系数 ,逻辑类似于向量的相关系数:

相关度的值从-1到1,如果变量相互,则Φ=0。

他的局限性在于在食物中把同时出现和同时不出现视为同等重要,这往往不符合实际规律,同时对于倾斜的变量很难度量。

IS度量 可以用于处理非对称二元变量,定义如下:

IS数学上等价于二元变量的余弦度量。

但是IS取决于A和B的支持度,所以存在与置信度度量类似的问题——即使是不相关或者负相关的模式,度量值也可能相当大。

支持度,全置信度,可以应用于较大的项集,兴趣因子,IS、PS、Jaccard系数等使用相依表中的频率,可以扩展到多个变量。

针对大多数项具有较低或中等的频率,但是少数项具有很高频率的数据集。

交叉支持模式是一个项集 ,他的支持度比率是:

小于用户指定的阈值 。

需要保证全置信度小于上面的支持度比率,而全置信度是:

其中 .

全置信度能够确保项集中的项之间是强关联的,例如,定一个项集X的全置信度是80%,如果X中的一个项出现在某个事物中,则X中其他的项至少也有80%的几率属于同一个事务,这种强关联模式又称 超团模式 。

数据挖掘技术在业务中的应用案例

数据挖掘技术在业务中的应用案例

业务具有透支笔数巨大、单笔金额小的特点,这使得数据挖掘技术在业务中的应用成为必然。国外发卡机构已经广泛应用数据挖掘技术促进业务的发展,实现全面的绩效管理。我国自1985年发行张以来,业务得到了长足的发展,积累了巨量的数据,数据挖掘在业务中的重要性日益显现。

一、数据挖掘技术在业务中的应用数据挖掘技术在业务中的应用主要有分析型客户关系管理、风险管理和运营管理。

1.分析型CRM

分析型CRM应用包括市场细分、客户获取、交叉销售和客户流失。分析人员搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,分析某个客户群体的特性、消费习惯、消费倾向和消费需求,进而推断出相应消费群体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定产品的主动营销。这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而能为银行带来更多的利润。对客户采用何种营销方式是根据响应模型预测得出的客户购买概率做出的,对响应概率高的客户采用更为主动、人性化的营销方式,如电话营销、上门营销;对响应概率较低的客户可选用成本较低的电子邮件和信件营销方式。除获取新客户外,维护已有优质客户的忠诚度也很重要,因为留住一个原有客户的成本要远远低于开发一个新客户的成本。在客户关系管理中,通过数据挖掘技术,找到流失客户的特征,并发现其流失规律,就可以在那些具有相似特征的持卡人还未流失之前,对其进行有针对性的弥补,使得优质客户能为银行持续创造价值。

2.风险管理

数据挖掘在业务中的另一个重要应用就是风险管理。在风险管理中运用数据挖掘技术可建立各类信用评分模型。模型类型主要有三种:申请评分卡、行为信用评分卡和催收信用评分卡,分别为业务提供事前、事中、和事后的信用风险控制。

申请评分模型专门用于对新申请客户的信用评估,它应用于征信审核阶段,通过申请人填写的有关个人信息,即可有效、快速地辨别和划分客户质量,决定是否审批通过并对审批通过的申请人核定初始信用额度,帮助发卡行从源头上控制风险。申请评分模型不依赖于人们的主观判断或经验,有利于发卡行推行统一规范的授信政策。行为评分模型是针对已有持卡人,通过对持卡客户的行为进行和预测,从而评估持卡客户的信用风险,并根据模型结果,智能化地决定是否调整客户信用额度,在授权时决定是否授权通过,到期换卡时是否进行续卡作,对可能出现的使其提前进行预警。催收评分模型是申请评分模型和行为评分模型的补充,是在持卡人产生了逾期或坏账的情况下建立的。催收评分卡被用于预测和评估对某一笔坏账所采取措施的有效性,诸如客户对信件反应的可能性。这样,发卡行就可以根据模型的预测,对不同程度的逾期客户采取相应措施进行处理。以上三种评分模型在建立时,所利用的数据主要是人口统计学数据和行为数据。人口统计学数据包括年龄、性别、婚姻状况、教育背景、家庭成员特点、住房情况、职业、职称、收入状况等。行为数据包括持卡人在过去使用的表现信息,如使用频率、金额、还款情况等。由此可见,数据挖掘技术的使用,可以使银行有效地建立起事前、事中到事后的信用风险控制体系。

3.运营管理

虽然数据挖掘在运营管理领域的应用不是重要的,但它已为国外多家发卡公司在提高生产效率、优化流程、预测资金和服务需求、提供服务次序等问题的分析上取得了较大成绩。

二、常用的数据挖掘方法

上述数据挖掘技术在领域的应用中,有很多工具可用于开发预测和描述模型。有些用统计方法,如线性回归和逻辑回归;有些有非统计或混合方法,如神经网络、遗传算法、决策树及回归树。这里仅讨论几种常见的典型方法。

1.线性回归

简单线性回归分析是量化两个连续变量之间关系的一种统计技术。这两个变量分别是因变量(预测变量)。使用这一方法,可以发现一条穿过数据的线,线上的点使对应数据点的方小。为市场营销、风险和客户关系管理建立模型时,通常有多个自变量,用多个自变量来预测一个连续变量称为多元线性回归,用线性回归方法建立的模型通常具有鲁棒性。

2.逻辑回归

逻辑回归是使用广泛的建模技术,与线性回归很相似。两者的主要区别在于逻辑回归的因变量(想预测变量)不是连续的,而是离散的或者类型变量。如申请评分模型可运用逻辑回归方法,选取关键变量确定回归系数。以申请者的关键变量x1,x2,…xm为自变量,以y=[1 申请者是坏客户;0 申请者是好客户,为因变量,则对于二分类因变量,一般设客户变坏的概率为 p(y=1)=eβ0 β1×1 … βmxm/1 eβ0 β1×1 … βmxm式中,β0,β1…,βm是常数,即1n(p/1-p)=β0 β1×1 … βmxm

3.神经网络

神经网络处理和回归处理大不相同,它不依照任何概率分布,而是模仿人脑功能,可以认为它是从每一次经验中提取并学习信息。神经网络系统由一系列类似于人脑神经元一样的组成,这些通过网络彼此互连。如果有数据输入,它们便可以进行确定数据模式的工作。神经网络由相互连接的输入层、中间层(或隐藏层)、输出层组成。中间层由多个组成,完成大部分。输出层输出数据分析的执行结果。

4.遗传算法

与神经元网络类似,遗传算法也不遵循任何概率分布,是源自“适者生存”的进化过程。它首先将问题的可能解按某种形式进行编码,编码后的解称为染色体。随机选取n个染色体作为初始种群,再根据预定的评价函数对每个染色体计算适应值,性能较好的染色体有较高的适应值。选择适应值较高的染色体进行,并通过遗传算子产生一群新的更适应环境的染色体,形成新的种群,直至后收敛到一个适应环境的个体,得到问题的化解。

5.决策树

决策树的目标是逐步将数据分类到不同的组或分支中,在因变量的值上建立强划分。由于分类规则比较直观,所以易于理解。图1为客户响应的决策树,从中很容易识别出响应率的组。

三、实例分析

以下以逻辑回归方法建立申请评分模型为例,说明数据挖掘技术在业务中的应用。申请评分模型设计可分为7个基本步骤。

1.定义好客户和坏客户的标准

好客户和坏客户的标准根据适合管理的需要定义。按照国外的经验,建立一个预测客户好坏的风险模型所需的好、坏样本至少各要有1000个左右。为了规避风险,同时考虑到市场初期,银行的效益来源主要是销售商的佣金、利息、手续费收入和资金的运作利。因此,一般银行把降低客户的逾期率作为一个主要的管理目标。比如,将坏客户定义为出现过逾期60天以上的客户;将坏客户定义为出现过逾期60天以上的客户;将好客户定义为没有30天以上逾期且当前没有逾期的客户。

一般来讲,在同一样本空间内,好客户的数量要远远大于坏客户的数量。为了保证模型具有较高的识别坏客户的能力,取好、坏客户样本数比率为1:1。

2.确定样本空间

样本空间的确定要考虑样本是否具有代表性。一个客户是好客户,表明持卡人在一段观察期内用卡表现良好;而一个客户只要出现过“坏”的记录,就把他认定为坏客户。所以,一般好客户的观察期要比坏客户长一些、好、坏客户可以选择在不同的时间段,即不同的样本空间内。比如,好客户的样本空间为2003年11月-2003年12月的申请人,坏客户的样本空间为2003年11月-2004年5月的申请人,这样既能保证好客户的表现期较长,又能保证有足够数量的坏客户样本。当然,抽样的好、坏客户都应具有代表性。

3.数据来源

在美国,有统一的信用局对个人信用进行评分,通常被称为“FICO评分”。美国的银行、公司和金融机构在对客户进行信用风险分析时,可以利用信用局对个人的数据报告。在我国,由于征信系统还不完善,建模数据主要来自申请表。随着我国全国性征信系统的逐步完善,未来建模的一部分数据可以从征信机构收集到。

4.数据整理

大量取样的数据要真正后进入模型,必须经过数据整理。在数据处理时应注意检查数据的逻辑性、区分“数据缺失”和“0”、根据逻辑推断某些值、寻找反常数据、评估是否真实。可以通过求小值、值和平均值的方法,初步验证抽样数据是否随机、是否具有代表性。

5.变量选择

变量选择要同时具有数学统计的正确性和实际业务的解释力。Logistic回归方法是尽可能准确找到能够预测因变量的自变量,并给予各自变量一定权重。若自变量数量太少,拟合的效果不好,不能很好地预测因变量的情况;若自变量太多,会形成过分拟合,预测因变量的效果同样不好。所以应减少一些自变量,如用虚拟变量表示不能量化的变量、用单变量和决策树分析筛选变量。与因变量相关性不多的自变量可以归为一类,如地区对客户变坏概率的影响,设广东和福建两省对坏客户的相关性分别为-0.381和-0.380,可将这两个地区归为一类,另外,可以根据申请表上的信息构造一些自变量,比如结合申请表上“婚姻状况”和“抚养子女”,根据经验和常识结合这两个字段,构造新变量“已婚有子女”,进入模型分析这个变量是不真正具有统计预测性。

6.模型建立

借助SAS9软件,用逐步回归法对变量进行筛选。这里设计了一种算法,分为6个步骤。

步骤1:求得多变量相关矩阵(若是虚拟变量,则>0.5属于比较相关;若是一般变量,则>0.7-0.8属于比较相关)。

步骤2:旋转主成分分析(一般变量要求>0.8属于比较相关;虚拟变量要求>0.6-0.7属于比较相关)。

步骤3:在主成分和第二主成分分别找出15个变量,共30个变量。

步骤4:计算所有30个变量对好/坏的相关性,找出相关性大的变量加入步骤3得出的变量。

步骤5:计算VIF。若VIF数值比较大,查看步骤1中的相关矩阵,并分别分析这两个变量对模型的作用,剔除相关性较小的一个。

步骤6:循环步骤4和步骤5,直到找到所有变量,且达到多变量相关矩阵相关性很而单个变量对模型贡献作用大。

7.模型验证

在收集数据时,把所有整理好的数据分为用于建立模型的建模样本和用于模型验证的对照样本。对照样本用于对模型总体预测性、稳定性进行验证。申请评分模型的模型检验指标包括K-S值、ROC、AR等指标。虽然受到数据不干净等客观因素的影响,本例申请评分模型的K-S值已经超过0.4,达到了可以使用的水平。

四、数据挖掘在国内市场的发展前景

在国外,业务信息化程度较高,数据库中保留了大量的数量资源,运用数据技术建立的各类模型在业务中的实施非常成功。目前国内发卡银行首先利用数据挖掘建立申请评分模型,作为在业务中应用的步,不少发卡银行已经用自己的历史数据建立了客户化的申请评分模型。总体而言,数据挖掘在我国业务中的应用处于数据质量问题,难于构建业务模型。

随着国内各家发卡银行已经建立或着手建立数据仓库,将不同作源的数据存放到一个集中的环境中,并且进行适当的清洗和转换。这为数据挖掘提供了一个很好的作平台,将给数据挖掘带来各种便利和功能。银行的个人征信系统也已上线,在全国范围内形成了个人信用数据的集中。在内部环境和外部环境不断改善的基础上,数据挖掘技术在业务中将具有越来越广阔的应用前景。