研究了蚁群算法的机理,通过对微博文本特征的分析构造了应用于微博特征选择的蚁群模型,显示出蚁群算法应用于文本处理的潜力。
摘要:文本分类中数据的特征词数量往往高的惊人,大大增加了文本分类过程的复杂度,且有大部分特征对分类任务几乎没什么贡献甚至还会有负面影响。本文提出一种使用蚁群算法解决文本分类中特征选择问题的方法。通过将特征集转化为结点集,将特征选择问题转化为求解最优子集问题,分别结合SVM算法,NB算法和kNN算法,建立以分类准确率最优为目标的蚁群优化模型。将模型应用于微博的情感极性分类,得到不错的分类效果。
关键词 文本挖掘 特征选择 蚁群优化 微博 情感分类
毕业设计说明书外文摘要
Title Micro-blog sentiment classification based on ant colony algorithm
Abstract:In a text classification task, the number of feature words is often surprisingly high, which greatly increases the complexity of the text classification process, and most features have little or no contribution to the classification task, some even have negative effects. In this paper, a method of feature selection for text data based on ant colony algorithm is proposed to solve the feature selection problem in text classification. The feature selection problem is translated into an optimal subset problem by transforming the feature set into a set of nodes. Respectively combined with SVM, NB and kNN algorithm, an ant colony optimization model with the goal of best accuracy of classification is established and a good result is got by using it for micro-blog sentiment polarity classification.
Keywords text mining feature selection ant colony optimization micro-blog emotion classification
目 次
1 绪论 1
1.1 工程背景及意义 1
1.2 相关技术的现状 1
1.3 总体技术方案及其社会影响 2
1.4 论文章节安排 2
2 文本情感分类流程 3
2.1 数据获取及预处理 3
2.2 文本特征选择 5
2.3 文本分类算法 6
3 蚁群优化算法 10
3.1 构建图 10
3.2 初始化 11
3.3 解的构建 11
3.4 信息素更新 13
4 基于蚁群算法的文本特征选择模型设计 15
4.1 构建图 16
4.2 初始化 16
4.3 解的构建 17
4.4 信息素更新 18
5 微博情感分类测试 18
5.1 前期工作 18
5.2 测试结果及分析 20
结论 24
致谢 25
参考文献 26
1 绪论
1.1 工程背景及意义
信息技术的飞速发展和普及已经深刻的改变了人类社会。当前互联网已经超越传统的书信,广播及电视成为信息传播的最大媒介。通过网络人们可以随时获取外界的信息同时向世界传达自己的感闻,造成了网络社交的兴起。目前大量的网络平台中,微博无疑是其中的佼佼者。从2006年诞生至今,从国外的Twitter到国内的微博,微博在出现的极短时间内就已成为最受欢迎的社交网络平台。截至2016年9月,新浪微博日活跃用户可达1.32亿,月活跃人数已达2.97亿。微博的覆盖面也越来越大,在舆论新闻,文娱业,体育业,旅游业等领域均有延伸,截止到2016年3季度,微博月阅读量超百亿的领域达到18个。
微博的普及使得平台上中含有大量的数据和信息,其中海量的微博用户对博文发布的评论数据中包含了大众对某些人事物的看法和评价,如企业,商家,影视作品,新闻等等。通过对微博短评进行数据挖掘获得的知识和信息往往对舆论获取,决策制定等产生巨大作用。而评论文本中包含的情感倾向是衡量大众评价好坏的重要标准。好评论中往往包含有喜悦,兴奋等正面的情感,差评中往往有悲观,失落等负面的情感。所以对微博情感的分类有着十分重要的意义。