随机森林算法研究现状及相关文献

随机森林的算法在很多领域的研究中都有着不可估量的影响,在医学、生物信息、管理学、模式识别、文本分类、商品推荐等领域有着广泛的应用。


在Breiman首次提出随机森林算法之后,国内外对于随机森林算法的研究热度经久不衰,众多文献针对算法、变量的比较和变量的相互作用展开了深入研究[4]。由于随机森林算法在精度和效率方面的优越性,该算法现已经广泛运用到多个应用领域。虽然随机森林简单、训练速度快并且最终能给出特征的重要度排序,但是随机森林依然有着容易过拟合等缺点。为了进一步改进随机森林算法,已有大量的研究工作将其他高效算法的思想融合进随机森林算法中。Ishwaran等[5]提出了随机生存森林算法,是一种分析正确删减数据的集成树的方法。Nicolai等[6]发现对于回归问题,随机森林的响应变量的条件均值能够给出一个准确的近似,并据此提出了分位数回归森林算法。有关人员进一步对bagging和随机森林的算法进行了实验对比,发现数据集越大,随机森林相比bagging方法的预测结果越好。为提升随机森林算法的性能,雍凯等[7]通过分析强度和相关度之间的关系,对特征进行相关性评估,并依据评估进行特征选择,由此降低随机森林算法的泛化误差上界。曹正凤[8]在数据预处理方面,提出了两种改进随机森林的优化算法,在随机森林自身构建过程优化方面,提出了一种新的节点分裂混合算法。丘一卉和林成德和林成德[9]提出一种基于随机森林方法的异常样本(outliers)检测方法,实验结果表明该方法可以进一步提高模型的准确率。王爱平等[10]提出了一种增量式极端随机森林分类器(incremental extremely random forests, IERF),用于数据流的处理,实验结果表明在适度规模的样本集上,IERF算法性能优于贪婪决策树重构算法和其他几种主要的增量学习算法。

随机森林的算法在很多领域的研究中都有着不可估量的影响,在医学、生物信息、管理学、模式识别、文本分类、商品推荐等领域有着广泛的应用。例如,李欣海[11]利用随机森林研究了昆虫种类的判别分析、有无数据的分析和回归分析;高贺[12]等利用随机森林算法通过加权脑磁共振3种(T1、T2、PD加权像)图像,采用非统一滑动窗口尺寸提取二维图像的纹理特征、形状特征、HAAR特征、灰度特征以及边缘检测算子、最大类间方差(OTSU)作为随机森林算法的输入特征,从而分类出图像的10类组织,分类正确率高达94%以上;贺捷[13]通过改进的随机森林算法在英文、中文语料库中进行文本分类实验,证实了其分类结果优于传统随机森林算法,并且与朴素贝叶斯和K近邻(k-nearest neighbors, KNN)等算法相比,也取得了更佳的分类结果;王丽婷[14]等通过随机森林算法解决了因光照、姿势和表情等因素的干扰,对人脸的6个关键点准确定位;武晓岩和李康[15]研究发现随机森林算法在基因表达数据的分类上具有较好的判别效果;贾富仓和李华[16]利用随机森林算法对多谱磁共振图像进行分割,取得了很好的分类效果;李建更和高志坤[17]利用随机森林对胃癌、结肠癌和肺癌等5组基因表达谱数据进行特征基因选择,根据选择结果进行数据分类,并对特征基因选择及分类结果进行分析,证实了随机森林选择的特征基因分类具有更高的准确率;郭山清[18]等将随机森林算法引入到入侵检测邻域,构造了基于改进的随机森林算法的入侵检测模型,实验结果表明,该模型在数据集中的攻击检测具有良好的均衡性;雷震[19]对随机森林/纹元森林做了相应的改进,促进了更适应于相应的遥感应用特点的随机森林/纹元森林的新的发展;刘薇[20]等利用随机森林建立基金重仓股的预测模型,最后通过实验验证了预测模型的有效性和优越性;蔡加欣[21]等使用随机森林分类器对行为视频的局部轮廓进行初分类,提出了一种基于袋外(OOB)数据误差加权投票准则的行为视频分类算法,在测试数据集上的实验结果证实了所提出方法的有效性。