基于组合分类器个人信用评估模型.docVIP

下载本文档

1
0
约3.88千字
约 9页
2018-08-30 发布于福建
举报
版权申诉

基于组合分类器个人信用评估模型.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于组合分类器个人信用评估模型

基于组合分类器个人信用评估模型　　摘要：随着消费信贷的发展以及银行对信用风险的关注，个人信用评估已成为银行业研究的一个重要内容。目前信用评估的研究中多采用单一分类器，预测精度难以提高，因此文章提出了基于AdaBoost组合分类器算法的个人信用评估模型。与单分类器模型的比较结果表明，基于组合分类器的模型具有更高的预测准确率。　　关键词：信用评估；组合分类器；分类；数据挖掘　　　　一、引言　　　　随着金融的全球化趋势和银行业竞争的加剧，如何有效地控制和防范商业银行的信贷风险正在受到越来越广泛的重视。在我国，个人消费信贷虽然起步较晚，但是发展迅猛，信贷产品层出不穷，同时由于我国的个人征信体系尚未建立和完善，消费信贷蓬勃发展的背后隐藏着巨大的信用风险，如何在扩大信贷规模的同时准确分析消费者的信用状况，确立合理的授信机制是各大商业银行不得不面对和解决的重要问题。　　西方国家在个人信用评估方面已经积累起了较多的经验，目前最常用的是基于分类的信用评分方法，即把信用评估看作一个模式识别问题，根据历史记录中贷款者提供的个人信息以及履约或违约的结果，从中归纳出个人信息与履约或违约之间的规则，从而预测贷款申请者按时还款的可能性。这种思想最早可以追溯到1936年Fisher的一项实验。1941年，David Durand第一个用信用评分来区别履约和违约贷款的申请。此后，信用评分的方法得到了广泛的应用。在具体方法上，最初应用较广泛的是多元判别分析，由于判别分析简单易用、预测效果较好，又具有良好的可解释性，相当长时间内在信用评分实践中都处于主流地位，但是实际问题中数据往往不能满足正态分布、等协方差等条件。为了提高方法的适用性，线性回归分析、Logistic回归、线性规划等被引入进来，在进一步提高预测准确率的同时拓展了方法的适用范围。近年来，随着人工智能和机器学习技术的发展，人工神经网络（ANN）和支持向量机（SVM）等方法也在信用评分问题上进行了有益的探索。　　综观目前的研究，虽然在评估方法上不断创新和发展，但所采用的均为单一分类器。由于受到分类算法本身以及数据集处理、属性选择等问题的制约，单分类器模型能够达到的预测精度总是有限的。本文基于AdaBoost算法，建立基于组合分类器的个人信用评估模型，以获得更高的预测准确率。　　　　二、 AdaBoost组合分类器算法　　　　实践中人们发现，许多分类算法对样本集是敏感的，即在不同的训练样本和测试样本上，或者是在相同样本的不同特征空间上，同一分类器的表现有可能差异很大。可以说，算法的优劣往往和数据集有很大关系，很难得到一个在所有数据上表现都是最优的分类模型。但是，将多个分类器组合起来却能有效的提高分类的精度，这就是组合分类器思想。　　所谓组合分类器是指几个分类器通过某种策略组合在一起进行分类。组合的策略可以是模型组合，可以是不同的算法组合，也可以通过对样本取样，变化样本空间，构造不同的分类器，然后按照一定的加权方法对分类器进行组合，得到最后的分类器。组合分类器的应用克服了单一分类器的诸多缺点，如对样本的敏感性，分类精度难以提高等等，已经在字符识别、文本分类、面部表情识别等领域获得了较好的应用效果。　　AdaBoost是Boosting算法的一种，其主要思想是给每一个训练样本分配一个权重，表明它被某弱分类器选入训练集的概率，并通过不断修正权重来实现Boosting（推进）训练。初始时权重可以平均分配，然后用一个弱分类算法在训练集上进行训练，得到一个弱分类器，同时对样本权重进行调整，训练失败的样本权重增大，训练成功的样本权重减小，使分类算法能在下一轮训练中集中力量对训练失败的样本进行学习。权重更新后，算法在更新的训练集上继续训练，再调整样本权重，循环往复，从而得到一系列的弱分类器。这些弱分类器构成组合分类器，算法采用有权重的投票方式来产生最终的预测结果。　　AdaBoost算法过程如下：　　　　在多数情况下，每个分类器只要是弱分类器，即分类准确率超过50%，比随机猜想好，那么组合分类器的训练误差就能随着T的增大而变得很小。同时组合分类器能保持良好的泛化能力，即使在T很大的情况下也很少会出现过拟合（Over fitting）现象。　　　　三、基于AdaBoost的个人信用评估模型　　　　1．数据准备。本文利用德国某商业银行的个人信用贷款数据作为研究数据集。数据集中共有1 000个样本，其中正常样本700个，违约样本300个。参照该银行的个人信用评价指标体系，每个样本都有20个属性，包括账户状态、账户存在月数、贷款目的、贷款额度、工作年限、年龄、房产状况等。按照7:3的比例将数据集划分为训练集和测试集，具体构成如表1所示。