现如今将随机森林算法加入信贷选择决策,是对银行管理的一种有利探索。通过本文的研究,使随机森林算法在金融方面有了更深入的运用
摘要:随机森林(RF)是一种被广泛运用在数据分类和非参数回归等方面的统计学习理论。它的预测准确率很高,不容易出现很多其他理论会出现的问题,比如过拟合问题等。因为其对异常样本数据具有很高的容忍度,所以,本篇文章涉及了随机森林原理及其性质,并且简单介绍其发展历史和现状以及一些有关经济方面的应用。经过研究各种数据之后,发现随机森林的模型,具备高稳定性和高预测精度的优点。经过对特征变量的评估得出一些结论,有很多能对信用风险预测的准确率产生显著的影响的因素,比如银行账户的状态(存款,预支或剩余款项等情况)、不良/良性信贷历史记录、信贷期限长短、贷款额的多少等等。所以将随机森林算法加入银行用户风险评估,将对银行产生很多积极的影响。
关键词:随机森林;应用;信贷;数据管理。
Abstract:Random forest (RF) is a widely used statistical classification theory in data classification and nonparametric regression. Its prediction accuracy is very high, not easy to appear a lot of other theoretical problems, such as over-fitting problems. Because of its high tolerance for abnormal sample data, this article deals with the principles and nature of the random forest and discusses its development history and current situation as well as some related economic applications. After studying the various data, we found that the random forest combination classifier model, with high stability and prediction accuracy. There are a number of factors that can have a significant impact on the accuracy of credit risk forecasts, such as the status of bank accounts (deposits, advances or remaining payments), bad / good credit history, the length of the credit period, the amount of loans and so on. I think if the random forest algorithm joins in the bank user risk assessment, the bank will have a lot of positive influence.
Keywords: Random forest; application; credit; data management.
目录
第一章 绪论 1
1.1 研究背景 1
1.2 研究现状与发展 1
1.3 研究方法及主要内容 1
第二章 随机森林概述 2
2.1 随机森林定义 2
2.2 随机森林的算法步骤 2
2.3 随机森林的优点 3
2.4 随机森林相关软件 3
2.5 本章小结 4
第三章 随机森林算法的稳定性研究 5
3.1 随机森林算法 5
3.1.1 CART算法 5
3.1.2 C4.5算法 5
3.1.3 混合算法 5
3.2 随机森林混合算法模型分析 6
3.3 随机森林混合算法的稳定性估计 7
第四章 随机森林混合算法的实例应用 9
4.1 随机森林算法在银行个人信用评估中的应用 9
4.1.1 案例分析方法 9
4.1.2 实例分析研究 9
第五章 结论与建议 13
5.1 结论 13
5.2 建议 13
致谢 14
参考文献 15
第一章 绪论
1.1 研究背景
国家在2007年大力推行绿色信贷政策,在这之后我国商业银行借助这一政策,对于信贷领域展开了猛烈的角逐,各类信贷产品如天女散花般在日常生活中出现,然而由于我们国家个人征信系统尚未完备且信用环境及相应的法律法规不完善,虽然个人信贷业务得到了很大的扩展,但是同时也会给银行的运营给予巨大的风险压力。那么,随之而来的问题是如何将信贷风险问题降到一个可控且可接受的的范围之内同时扩大业务规模。一个重要的指标就是个人信用指标,这一指标是对个人的信贷等业务记录进行评分,结合个人的实际情况和生活状况,给出一个相对符合事实的分数。如今“以之前的信贷记录和违约次数记录来建立信用评级系统”是银行用来进行个人信贷决策的前提手段。但是到现在为止的众多探索中,使用单一分类器产生了很多的问题。所以,在2001年由Breiman提出了一种全新的能够解决模型过度拟合的方法:随机森林(即Random Forest或RF)方法。在此之后,随机森林引起了各位学者很大的关注。