数据去重技术国内外研究现状(2)

总的来说,目前解决中文文本去重的主流技术主要可分为以下几类:(1)基于字符串的比较与匹配。此类技术往往是从字符串的形式入手,字符串形式越


总的来说,目前解决中文文本去重的主流技术主要可分为以下几类:(1)基于字符串的比较与匹配。此类技术往往是从字符串的形式入手,字符串形式越相近越容易被判为相似。这种方法的优点是判别机制简单易于实现,精确度也很高。但缺点是对含有未登录词(如缩写词、新词)的句子难以有效判别。由于直接处理字符串,程序处理数据时的空间复杂度往往也很高。(2)基于语义的比较与匹配。此类技术通常需要统计词频,提取出句子的特征信息。该类技术的优点是由于此类算法更重视语义层面,所以结果召回率较高,对新词缩写词都有一定的识别能力,同时特征信息的提取也会降低数据处理的空间复杂度。但缺点是算法效率和精度都会受到分词效率和分词效果的影响。(3)基于机器学习的技术。此类技术将文本的去重视作文本的分类和聚类问题。该技术的优点是对含有未登录词的句子具有很好的识别能力,但缺点是需要大量的训练样本,训练耗费的时间较长。