本文创新地将中文分词和谷歌用于网页过滤的Simhash算法相结合,提出了一种中文分词模型。但是其中也有很多不足。
摘要:随着科技的进步和经济的发展,各行各业的信息数量呈现爆炸式增长,一系列相关的问题随之而来,例如,如何维护日益庞大的数据库,去除其中的冗余数据;如何从看似杂乱无章毫无规律的数据中抽取出有用的信息为己所用;如何高效识别相似网页和过滤垃圾邮件……这些问题引起了研究人员对数据去重技术的关注。
在该领域中,短文本由于其关键词特征稀疏,样本高度不均衡等问题,比长文本的分类难度更大。如何在兼顾效率的情况下尽可能准确的从海量数据中找出相似或重复的数据,是本文主要研究的内容。本文在总结和归纳中文分词技术、字段加权方法、文本相似性度量、结果评价指标等相关技术的基础上,重点分析、研究和实现了Simhash算法、Shingling算法和潜在语义分析(LSA)三种算法,并构建了相应的中文文本去重模型进行分析和验证。
(1)研究与分析了Simhash算法的主要原理和过程,建立了以Simhash算法为核心的中文去重模型。考虑到该方法在处理海量数据时处理时间过长,引入并分析了一种可有效提高算法时间效率的存储检索方案,该方案以空间复杂度的提高换取了时间复杂度的降低。
(2)研究与分析了Shingling算法的去重原理和算法过程,建立了以Shingling算法为核心的中文文本去重模型。对Shingling算法中的几个关键参数的选取要求作了研究讨论,在存储方面提出了利用哈希值进行优化的方案,对算法的时空复杂度作了分析。
(3)研究与分析了LSA模型的主要原理,建立了以LSA模型为核心的中文去重模型。LSA模型是基于词、主题、文档的一种空间模型。通过奇异值分解,将文档-词矩阵映射到低维语义空间,有效降低了算法的空间复杂度和时间复杂度。
(4)对三种模型的性能进行了实验测试,可以发现三种模型的召回率和精确度均可达到75%以上。其中LSA模型的召回率和精确度在90%以上,查重效果最佳。在时间复杂度方面,运用哈希存储技术的Simhash算法性能优越,时间消耗在三种算法中是最低的。而基于Shingling算法的模型时间复杂度太高,很难运用于实际工程之中。LSA和Simhash在实验中均展现出了良好的性能,尽管在去重效果方面Simhash逊色于LSA,但Simhash算法在数据量较大的情况下拥有平均检索时间小、指纹库占用空间少的优点,可以作为实际工程中的首选。
目前,国内对中文文本去重方面的理论研究还不多,本文将中文分词和谷歌用于网
页过滤的Simhash算法相结合,提出了一种中文分词模型。但是也有不足:由于课题所使用的实验样本涉及到商业隐私信息,可供实验用途的数据量较少,在背景课题整体上线测试之前,无法做到海量数据的实验。
关键词 相似文本去重;Simhash算法;哈希存储;Shingling算法;潜在语义分析
毕业设计说明书外文摘要
Title Research on Key Technology of Muti-source Data Fusion System——Design and Analysis of Fast Text Elimination
Abstract:With the development of technology and economy, the amount of data has increased tremendously in every field of life, along with a series of related problems. For example, how to maintain a growing database and eliminate duplicates; how to identify similar web pages and filter useless emails efficiently. Such problems have already arisen researchers’ attention on data elimination technologies.
In this field, short text is more difficult to classify than long text because of its sparse feature and low sample height. How to find similar or repeated data from massive data as much as possible in the case of efficiency is the main focus of this paper. Summarizing the related technologies such as Chinese word segmentation technology, field weighting method, text similarity measurement and result evaluation index, this paper focuses on three algorithms: Simhash, Shingling and latent semantic analysis(LSA). Corresponding Chinese text elimination models are built for analysis and verified.