数据去重技术国内外研究现状

基于机器学习的技术。此类技术将文本的去重视作文本的分类和聚类问题。


数据去重作为数据挖掘、数据分析决策的第一步,已经成为近几年的一个研究热点[15]。目前对于这个问题的研究方向集中在字符串匹配技术、文本特征提取技术、文本分类技术和文本聚类技术等[7]。

数据去重的需求最早来源于统计学领域。1959年,Newcombe H B、 Kennedy J M等人提出了著名的记录链接理论(Record Linkage),将数据的去重问题看成是记录的链接和匹配问题,为之后记录链接理论的完善和进一步发展奠定了重要基础[36]。1988年,Newcombe H B等人又在论文中进一步分析讨论了利用鉴别信息进行数据匹配去重的方法[37]。然而以上理论的分析和讨论都是从概率学的角度出发,记录链接还未形成一个系统的数学理论。直到1969年,Ivan P. Fellege和Alan B. Sunter发表了《A theory for record linkage》一文,为记录链接理论正式构建了数学模型[30]。Fellege-Sunter记录链接模型为当代记录链接理论的研究奠定了重要基础。此后,有多人先后对该模型进行了阐释和优化[25] [38][42],该模型在数据识别、去重方面获得了广泛的应用。

对于文本的去重问题,不管是中文文本还是英文文本,出于对时空复杂度的考虑以及算法识别能力的考量,都不会直接对原文进行匹配。针对中文文本非结构化的特点,常常需要对其进行特征提取,将非结构化的文本信息转化为结构化的数据信息。用文本的特征信息来代替该文本可以起到降维的作用,大大简化计算,减少存储的数据量,方便后续的计算和处理。常用的特征表示模型有布尔型、向量空间型和概率型[17]。布尔模型(Boolean Model)是基于布尔代数和集合论的严格匹配模型。该模型简单清晰,但存在返回结果太多或太少的问题[10]。概率型则是基于数据检索时的模糊性,通过相关概率的排序来给出文本的相似性。向量空间模型(Vector Space Model)为弥补布尔模型无法对关键词赋予权重而应运而生。它是由Salton等人[41]在20世纪70年代提出,在SMART文本检索系统中得到成功的运用[24]。该模型将文本转化为加权空间向量,用空间向量之间的距离来刻画文本之间的相似度。该模型的优点是直观易懂,便于计算机处理。但当向量的维数过多、数据量太大的情况下该模型的计算量将会变得十分可观。Simhash算法是一种基于语义的算法,由Charikar. M. S提出[28],它解决了VSM计算量大的缺陷。正是由于其算法效率好,计算速度快等特点,广泛运用于网页文本去重等领域,是目前较为主流的文本去重算法。Simhash算法主要通过一些文本特征集的叠加计算得到文本的语义指纹,通过语义指纹的海明距离判断文本的相似程度[5]。这种算法采用了降维的思想,将高维的特征向量降成低维的特征向量,实现相似文本的快速匹配,因此很适合大数据下的快速去重。针对中文短文本的去重问题,高翔等人提出了将Bloom Filter或Trie树与Simhash算法结合的方法来实现中文短文本的高效去重[3]。陈春岭等人[2]则对Simhash算法进行改进,引入全新的分词技术和权重计算方法,提高了原算法的性能。

随着机器学习技术的不断发展,数据的去重又被看作是机器进行文本自动分类、文本自动聚类的问题。目前较为常用的分类算法有朴素贝叶斯分类(Naïve Bayesian Classifier),支持向量机(Support Vector Machine)和K最近邻(kNN,k-NearestNeighbor)。这些单一分类器方法在长文本分类中能取得不错的效果,但它们都依赖于对词频特征的分析,因此在短文本的分类上很难取到优良的效果[16]。针对单一分类器的缺陷,又提出了将集成学习(Ensemble learning)应用于文本的分类中。集成学习通过结合多个学习器来完成学习任务。常用的集成学习方法有Boosting、Bagging和Random forest。文本聚类算法和分类算法不同,通过无标记训练样本的学习来揭示数据的内在性质和规律[23],可以认为是一种无监督的分类方法[24]。聚类算法可分为基于原型的聚类、基于密度的聚类和层次聚类,常见的算法有k均值(k-means)算法,DBSCAN算法,AGNES算法等[13]。