多源海量数据融合系统关键技术研究与实现快速去重技术分析与设计(3)

在这其中,一个热点的问题就是文本的相似性去重问题。有相关数据表明,网络上面重复或者高度相似的网页占比高达30%~45%,这意味着网络上充斥了大量


在这其中,一个热点的问题就是文本的相似性去重问题。有相关数据表明,网络上面重复或者高度相似的网页占比高达30%~45%,这意味着网络上充斥了大量无用重复信息,这些相似网页大大影响了搜索引擎的检索效率和用户的搜索体验。与此同时,电子邮件,微博,QQ和微信等通讯工具的迅速发展,也促进了以短文本为主的消息文本的快速增长。也正是由于其增长速度过快,导致有用信息被淹没,甚至一些无用和有害的信息大量出现,严重影响了互联网的健康发展。更重要的是,数据量的日益增多,也给数据库的维护带来了极大的考验。尤其是在进行多源异构数据的融合过程中,由于数据格式不同、记录不完整等问题,造成了数据库中大量的冗余和无用信息,极大地影响了后续信息的检索和维护的效率。如今,全国各省市政府都在进行电子政务建设推广工作。然而,由于各地各部门数据库系统设计上的差异、数据格式以及结构化程度的不同等问题,在进行多源异构数据融合时就会产生冗余。尽管现行的数据库系统能去除完全相同的记录,但是对内容相似的记录却无法做到有效去重。如何进行多源数据的相似性去重,为之后的数据融合做好数据清洗的准备,对之后数据库的使用和维护都至关重要。

目前来看,国内在数据去重方面的研究整体偏少,缺少系统的理论知识。但数据去重在网页过滤,文本相似性检测,数据库数据集成融合等多个领域都有重要的影响,因此值得我们去作深入的研究。由于各领域数据涉及到的知识不同、数据结构不统一、大数据时代数据冗杂繁多等原因,在进行数据去重时也需要具体问题具体分析,通用的数据去重方法尚未形成。对于数据库中相似性数据的检测和去重问题,主要涉及中短文本的去重。短文本由于其关键词特征稀疏,样本高度不均衡等问题[16],较之长文本的分类难度更大。如何在兼顾效率的情况下尽可能准确的从海量数据中找出相似或重复的数据,是本课题主要研究的内容。

1.2 国内外研究现状

1.3 本文研究框架

第一章,绪论。首先介绍了课题来源背景和本课题的研究意义,接着总结了国内外相关领域的研究现状,对解决该问题可能用到的方法进行了综述。梳理了论文的组织结构。

第二章,相关技术研究。对本次研究中涉及到的算法作了理论介绍,阐述了它们在去重模型中的作用,方便后续章节模型的阐释。

第三章,介绍了Simhash算法的去重原理和算法流程,建立了以Simhash为核心的去重模型。

第四章,介绍了Shingling算法的去重原理和算法流程,建立了以Shingling算法为核心的去重模型。

第五章,介绍了LSA模型的原理,建立了以LSA为核心的文本去重模型。

第六章,通过具体实验确定三种模型的最佳参数,记录了三种模型各自的去重效果和去重时间,分析比较了它们的优缺点。

最后,总结全文,得出结论。

全文的构架组织图如图1.1所示。

图1.1  本文构架组织图

2 相关技术研究

一个文本去重模型不仅包含了一个算法,还需要很多技术的相互协作与融合。本章就中文去重模型中常用的技术进行了介绍和研究。图2.1给出了这些技术应用在文本去重模型中的不同阶段及它们在中文去重模型中的作用。