本文通过对特征选择算法在同一数据集中的算法比较,得出不同算法在不同特征子集规模条件下的适用范围。如SFS算法在特征子集规模比较大的情况下可以获取到最高的算法准确度
摘 要:随着全球信息化程度的快速提升,数据的处理,已经让很多人将目光聚焦于此。因此,对数据进行特征选择已成为一种必要的手段。从而实现从庞大的数据堆里提取出足够数量用来分析的样本数据。本文根据所介绍的多种特征搜索策略,从中选取了三种特征选择算法(SFS,SSFS,RSFS),并对其进行功能实现和性能对比分析。在评估准则的选取方面,对选取的评估准则进行解释,然后根据得出的数据,得到不同算法在不同的评估准则的情况下的比较情况,具体来说就是总分类准确率的异同,包含相对分类准确率的异同及其他。根据实验数据得出实验结论,并根据文内出现的算法进行结合的方式,提出未来算法的发展趋势。最后对文章的整体进行总结和对本次实验和论文的不足提出展望。
关键词:特征选择;算法对比;评价准则;算法准确性
Abstract:With the rapid increase in the degree of global information, data processing, has a lot of people will focus on this. Therefore, the feature selection of data has become a necessary means. In order to achieve from the huge data reactor to extract a sufficient number of samples used to analyze the data. Based on the various feature search strategies introduced, three feature selection algorithms (SFS, SSFS, RSFS) are selected and implemented, and the visualization function is implemented. In the selection of evaluation criteria, the selected evaluation criteria are explained, and then according to the data obtained, different algorithms in different evaluation criteria in the case of relatively light, in particular, is the total classification accuracy of similarities and differences, including relative Similarities and Differences in Classification Accuracy and Others. According to the experimental data, the experimental conclusion is obtained, and the future trend of the algorithm is put forward according to the method of combining the algorithm. Finally, the article summarizes the whole of the article and the lack of this experiment and the paper for the next experiment to accumulate experience.
Keywords: feature selection;algorithm comparison;evaluation criteria;algorithm classification accuracy.
目 录
第一章 绪论 1
1.1 研究背景 1
1.2 研究现状 1
1.3 目的及意义 1
1.4 文章框架及结构 2
1.5 本章小结 2
第二章 特征选择理论 3
2.1 特征选择概念和基本框架 3
2.2 搜索策略 4
2.2.1 完全搜索策略 4
2.2.2 启发式搜索策略 4
2.2.3 随机搜索策略 5
2.3 本章小结 7
第三章 典型特征选择算法模型 8
3.1 序列前向选择算法(SFS) 8
3.1.1 算法模型 8
3.1.2 算法流程 8
3.1.3 算法流程图 9
3.2 序列浮动前向搜索(SFFS) 10
3.2.1 算法模型 10
3.2.2 算法流程 10
3.2.3 算法流程图 11
3.3 随机特征子集选择算法(RSFS) 11
3.3.1 算法模型 12
3.3.2 算法流程 12
3.3.3 算法流程图 13
3.4 数据样本的获取 13
3.5 本章小结 14
第四章 特征选择算法的功能实现和性能对比 15
4.1 整体思路 15
4.2 实验内容 15
4.3 评估准则的选取及意义 15
4.3.1 算法准确性 16
4.3.2 绝对准确性 16
4.3.3 相对准确性 17
4.3.4 算法适应性 17
4.4 实验结果分析 18
4.5 本章小结 19
第五章 算法思考 20
5.1 算法发展联想 20
5.2 本章小结 21
第六章 总结与展望 22
6.1 总结 22
6.2 展望 23
致谢 24
参 考 文 献 26
第一章 绪论
1.1 研究背景
最早的数据特征选择研究是出现在上世纪60年代末的时期,当时的主要研究方向是统计学及其信号处理上面。而后经过30年发展出现了的大规模机器学习等问题,当时现有的算法不能满足实际需求,急需满足大规模数据综合性能更优的新型算法。此时,特征选择算法引起了诸多研究机器学习领域的学者的兴趣。