基于蚁群算法的微博情感分类(2)

1.2 相关技术的现状 目前的文本情感分析方法包括无监督和有监督两种。 无监督的方法是根据特定情感词典和规则判定文本的主客观性和情感极性,词典的


1.2  相关技术的现状

目前的文本情感分析方法包括无监督和有监督两种。

无监督的方法是根据特定情感词典和规则判定文本的主客观性和情感极性,词典的质量和规则的构建将直接影响最后的结果。Kim Soo-Min等[1]通过对特征词的极性判断赋予特征词权值,通过权值求和进行情感分类。Turney[2]为正向情感和负向情感分别设定一个种子情感词,通过比较特征词和种子间的语义相似度判断情感极性。中文分类方面,柳位平等[3]通过计算中文词间的相似度,提出了一种计算词语情感权值的方法。陈岳峰等[4]设计了一种基于概念的语义倾向计算方法。汪涛[5]提出了一种基于反义样本的对偶情感分类方法。

有监督的的方法基于机器学习,使用算法对已分好类的数据进行规则学习,再用构建的规则判断待分类数据的归属。随着机器学习研究的不断深入,基于机器学习的文本分类方法越来越受到广泛关注。Pang Bo[6]第一次使用机器学习方法对篇章集的文本进行情感分类。SM Kim[7] 和Cui Hang[8]等人均对特征选择方面做了研究。李寿山等[9]将不同的分类算法应用到文本情感分类中,并提出一种基于Stacking的方法用于分类器的组合使用。

1.3 总体技术方案及其社会影响

本文的总体方案包括:

(1) 收集微博数据样本。通过对微博网页源码的研究分析,定义正确的正则式用于匹配所需的微博文本数据。数据集应具有代表性且容易学习。

(2) 数据预处理。针对文本数据,需要进行分词,文本表示等预处理。针对情感分析,需要提取出数据集中的主观文档集并标记情感标签。

(3) 使用蚁群优化算法进行文本特征选择。针对本课题的特点建立个性化的蚁群优化模型。

(4) 构造分类器。使用蚁群模型选择出的特征集表示数据,选择合适的分类算法对数据进行学习构造分类器。

(5) 结果解释和评估。使用构造的分类器对数据进行分类得出分类结果。根据分类结果对模型进行评价和改进。

依照上述总体方案,可以实现一个微博情感分类系统,对输入的大量微博评论标记情感标签,统计包含积极信息的文本数和消极信息的文本数。

包含正向情感的微博评论往往意味着发布者对被评价事物的赞同和认可,属于正面评价。而包含负向情感的微博评论往往意味着发布者对被评价事物的反对和不满,属于负面评价。实现中无论单位还是个人都可以通过分类系统获取大众对某事物的看法和评价,得到的结论可以帮助其在决策制定上起到积极的影响。如商家获取消费者对其产品的好评度决定对产量进行上调或下抑制,政府通过大众对某一政策支持还是反对决定政策是否颁布或修改,等等。因此本文的技术方案对社会有正面的影响。

1.4  论文章节安排

第一章阐述了本课题的工程背景和一些研究现况,给出总体技术方案并分析其社会影响。

第二章介绍文本分类的基本流程和一些相关技术。

第三章介绍蚁群优化算法的机理和一些蚁群优化策略。

第四章介绍应用于微博情感分类的蚁群模型设计思想和策略。

第五章将蚁群模型与情感分类工作相结合构造出分类系统。通过实验测试,验证特征选

择模型和分类系统的效果。

2  文本情感分类流程

2.1  数据获取及预处理

2.1.1 数据获取

随着大数据时代的发展和数据挖掘与机器学习的兴起,网络上可以找到许多可供分析的数据集资源。除此因为网页源码往往有良好的组织性,获取网页源码后,我们可以创建某种模式(pattern)匹配网页内特定部分的内容来获取所需的特定数据。正则表达式或正则式是最常用的创建匹配模型的方法。