对于消费群体来讲,多种多样的影片上映,会让人们感到迷茫,除了一些有着前作打下铺垫,且具有良好口碑的续作会让人觉得值得一追以外,其他的大部
对于消费群体来讲,多种多样的影片上映,会让人们感到迷茫,除了一些有着前作打下铺垫,且具有良好口碑的续作会让人觉得值得一追以外,其他的大部分影片人们都是拿不定主意或者说无从下手,这个时候,作为观众是否会去电影院观看一部影片的根据,往往都是取决于网上看过的人对于此电影的评价。例如,网上大众对影片的评分,不仅能让想看的观众们提前了解到大众心中的评价,还可以通过评论,来对影片的内容有了一个大概的了解, 从中进行判断,是否值得自己去电影院进行观看。
在看完一部电影后,人们也会选择给所看的影片打一个自己的评分,或者写下自己对这部电影的看法。如今电影评分的软件越来越完善,越来越人性化,高分的电影往往会安排的前面,或者说容易让人注意到的位置,从而形成评分越高的电影,观看的人越多,而评分一般或者不怎么高的电影,观看的人数反而不会大幅度增大。当然,光有一个评分无法细节的表达出一个电影的好坏,重点在于人们对此电影的评价,随便的点开任意一个影片网站,正常热度的电影基本都会有上万条的评论。如果光靠一条一条的浏览过去,又费事,又费力。
因此,建立一个易操作,稳定性强的针对电影评论的舆情分析系统无论对于制片商还是大众都尤为重要。
1.2 国内外研究现状
1.3 发展趋势
1.4 研究挑战
根据所了解道德网络舆情分析系统,本次研究主要存在以下几个方面的挑战:
(1)数据的获取
爬虫虽然能爬取网站的数据,但某些网站设置了反爬虫系统,反爬里面最常见的一种手段就是,判断你的请求频率,如果在短时间内发送了大量的请求,账号或IP会被封禁一段时间。这样就无法得到预期的数据。
(2)中文情感词汇难度大
很多的中文词汇都要结合上下句的语义来看,很难单凭一个词就分析出它所要表达的意思
(3)语言类型多样
评论内容既有客观的书面语,也有当时流行的口头语或者流行语,大大增加了分析的难度。
(4)中文分词工具的准确度
与英文不同的是,中文句子中,词与词中间是不会出现空格隔开的,如:一把把把手把住,这句话应该分为:一把,把,把手,把住。在研究中需要选择准确合适的分词工具,将句子分成词语,再进行数据分析。
1.5 论文结构
论文分为以下五章:
第一章:“绪论”。首先提出了论文的研究背景,然后介绍了如今舆情分析系统的国内外研究现状,之后简要概括了电影舆情分析系统的发展趋势,并初步分析了研究所面对的挑战。
第二章:“设计方式”,对比了不同的编程语言,选取了适合本次设计的编程语言python。
第三章:“数据爬取”。结合不同的影评网站选择合适的网站进行数据爬取,决定需要爬取的数据内容,储存下来作为后面分析的材料。
第四章:“分析处理”。以上一章所爬取的数据为基础,进行评论的舆情分析处理。
第五章:“分类算法”。分析比较不同的算法:Rocchio算法,朴素贝叶斯算法,k近邻算法。
第六章:“总结”。对本文的工作进行总结,并指出部分不足以及未来的研究方向。
2 设计方式
本次设计所采用的编程语言为python,开发环境为spyder。
2.1 编程语言
(1) 介绍
python编程语言最适合作为新手程序员学习的第一语言,因为它具有反映人们思考方式和实现代码方式的强大工具。此外,它最大限度地减少了编写正确语法的程序所需要的额外的关键字。 这种方法比学习C ++或Java语言更有成效,C ++或Java语言有许多与语言特性相关的术语和元素,并不包括算法实现,对于上手来说,有一定的难度。 此外,麻省理工学院,加州大学伯克利分校,加州大学戴维斯分校,索诺玛州立大学,华盛顿大学,滑铁卢大学,路德学院和斯沃斯莫尔学院等十几所大学的教师已将其用于教授入门式编程课程给计算机系的学生。