随机森林算法在数据分析模型中的应用和实现(3)

1.6 本文结构 第一章绪论。主要简述了随机森林算法的背景和研究意义,简单回顾了随机森林的应用。概述了随机森林模型实现的具体思路,同时说明了本


1.6  本文结构

第一章绪论。主要简述了随机森林算法的背景和研究意义,简单回顾了随机森林的应用。概述了随机森林模型实现的具体思路,同时说明了本文的组织和内容安排。

    第二章随机森林的相关理论基础。首先概述了随机森林的概念,随后对与随机森林相关的算法进行了详细的算法步骤描述,其中重点解释了什么是决策树,以及典型的决策树算法,如ID3和CART算法作了具体的解释。

    第三章随机森林算法具体实现。提出了随机森林算法的设计原理和目标,随后简要说明了该课题的总体设计框架,最后详细说明了随机森林算法实现步骤。

    第四章实验结果。详细说明了实验数据和实验过程,并对实验结果作出详细分析与总结。

2  随机森林相关理论基础

2.1  随机森林算法概述

随机森林(random forests)是基于集成学习思想的一种算法,也是对bagging方法的一个扩展。bagging装袋过程的一个方面是产生自然的内部错误率。 在每个引导样本中,大约37%的原始数据将被取消选择,称为袋外(out-of-bag, OOB)样本在完整的森林生成之后,该算法将OOB样本下传到树中以获得分类预测,即将分类预测与袋外错误率的真实分类进行比较。

随机森林的基本思想是把决策树作为个体学习器,传统决策树选择最优属性作为划分属性。而随机森林引入了随机属性选择,即对每个节点,在所有属性m中随机选择n个属性(n<m)作为子集,并在这n个属性中选择最优属性作为划分属性,最后生成的决策树无需进行剪枝操作。由此得到的每一棵决策树都是相互独立的,相当于一个弱学习器,当众多的弱学习器组合在一起的时候,就形成了一个强学习器。当输入一个新样本数据时,对于回归任务来说,决策树之间最常见的结合方式是使用平均法,也可以使用加权平均法;对于分类任务来说,最常见的结合方式则是使用投票法。

2.2  集成学习法

集成学习(ensemble learning)[22]并非一个单独的机器学习算法,而是通过不同或相同的算法来训练数据构建并结合多个模型来完成学习任务,然后将每个分类器预测的结果进行投票来完成分类。集成学习的基本流程如图2.1所示。集体学习有时也被称为多分类器系统,它主要用于改进模型在分类、预测、函数逼近等应用中的表现,或减少模型对不良选择的可能性。

集成学习多个模型的组合主要包括以下几种方式:

1.通过处理训练数据集;

2.通过处理输入特征;

3.通过处理类标号;

4.通过处理学习算法。