LDA网络社区用户评论的智能获取与筛选系统设计

评论分析方面使用LDA(Latent Dirichlet Allocation)模型对评论进行主题的发现,使用TF-IDF(term frequency–inverse document frequency)对评论进行特征词的提取。


摘    要:随着社交平台、电子商务的流行和网络的普及,越来越多的人在网络上发表自己的想法和评论,这使得网络上产生了大量的评论,而这些评论中包含了许多有用的信息,只通过人工浏览的方式不能及时了解到评论中讨论的话题和社会的热点,也很难找到自己想要的信息。为了解决这个问题,本系统将对网络评论进行获取和筛选,分析出评论讨论的热点话题,用户可以通过选择自己关心的话题筛选出相应的评论。

本系统使用Eclipse开发工具进行开发,采用MySql数据库对评论进行保存,使用网络爬虫技术对评论进行爬取,评论筛选前使用分词技术对评论进行分词,评论分析方面使用LDA(Latent Dirichlet Allocation)模型对评论进行主题的发现,使用TF-IDF(term frequency–inverse document frequency)对评论进行特征词的提取。最后通过余弦相似度筛选出用户关心的评论。

通过比较两个算法的分析结果,TF-IDF算法分析的效果明显好于LDA模型,对特征词的提取更加准确,因此TF-IDF跟适合处理评论。本系统可以快速发现大量评论中的话题,节省了大量时间。对得到的话题进行分析,可以得到很多有用的信息,例如了解当前社会上的重要资讯和用户的偏好等。

关键词: 评论;爬虫;LDA;TF-IDF;热点话题

Abstract:With the popularity of social platform, e-commerce and the network, more and more people on the network to express their own ideas and comments, which makes the network produced a lot of comments, and these comments contain a lot of useful information , Only through the manual way of browsing can not understand the discussion of the topic and social hot topic timely, it is difficult to find the information you want. In order to solve this problem, the system will obtain and filter network comments, analyze the hot topic of discussion, users can choose their interested topic to filter out the corresponding comments.

The system uses the Eclipse development tools to develop, use the MySql database to save the comments, use the web crawler technology to crawl the comments, using the word segmentation technology to segment the comments, in comment analysis, use LDA (Latent Dirichlet Allocation) model and TF-IDF (term frequency-inverse document frequency) to extract the characteristics of the comments. Finally, through the cosine similarity screening out the user's comments.

By comparing the results of the two algorithms, the effect of TF-IDF algorithm is better than LDA model, and the extraction of feature words is more accurate. Therefore, TF-IDF is suitable for processing comments. The system can quickly find topics from a lot of comments, saving a lot of time. Analyze the topic you get, you can get a lot of useful information, such as understanding the current social important information and user preferences and so on.

Keywords:  review; Crawler; LDA; TF-IDF; Hot topic

目  录

第一章  绪 论 1

1.1 研究背景及意义 1

1.2 研究现状 1

1.3 系统可行性分析 2

第二章  LDA模型和TF-IDF算法原理 4

2.1 LDA模型 4

2.1.1 LDA文档生成过程 4

2.1.2 LDA概率模型 5

2.2 TF-IDF算法 8

第三章 相关技术和开发工具 10

3.1 开发工具简介 10

3.1.1 Eclipse开发工具简介 10

3.1.2 数据库MySql简介 10

3.1.3 java swing简介 11

3.2技术介绍 11

3.2.1 Ajax技术 11

3.2.2 爬虫技术 13

3.2.3 分词技术 13

3.2.4余弦相似度 14

第四章 系统功能的设计与实现 17

4.1 系统总体设计 17

4.2 智能获取评论 17

4.3 评论的预处理和存储 20

4.4 评论分析与筛选 22

4.4.1 LDA模型实现 22

4.4.2 TF-IDF算法实现 24

4.5 系统界面的实现 27

第五章 系统测试 31

5.1系统测试目的与意义 31