CN102799647A

CN102799647A - 网页去重方法和设备

Info

Publication number: CN102799647A
Application number: CN201210223009XA
Authority: CN
Inventors: 姜南; 张辉; 万嘉
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-06-30
Filing date: 2012-06-30
Publication date: 2012-11-28
Anticipated expiration: 2032-06-30
Also published as: WO2014000508A1; US20150142760A1; CN102799647B; US10346257B2

Abstract

本发明提供一种网页去重方法和设备。该方法包括在目标网页中提取出至少一个核心句，所述核心句是指含有网页主要内容信息的句子；将每个所述核心句映射为唯一的数值，组成第一数值集；确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数，并确定出所述每个交集中包含的数值的个数的最大值，所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合；当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时，则将所述目标网页作为重复网页处理。本发明实施例可以在网页去重处理时提高准确度以及增强抗噪声能力，并且减少计算规模。

Description

网页去重方法和设备

技术领域

本发明涉及网络通信技术，尤其涉及一种网页去重方法和设备。

背景技术

当使用搜索引擎寻找想要的信息时，搜索引擎返回的结果中，存在大量的内容重复链接，甚至是死链接，这使得用户获取信息非常耗时和不方便。由于互联网站的数目非常庞大，搜索引擎的核心模块之一的爬虫的工作量和其要读写的数据规模也难以想象，如果能够快速且准确度高的去除内容重复的网页，就不仅能避免反馈给用户重复信息，而且能节省后续处理的系统资源。

现有技术中，对备选网页正文进行哈希(hash)计算，检索已存哈希值的网页集合，通过判定相同哈希值的数量是否超过给定阈值，若是，则认为是重复网页。但是，这种方式准确度低，只能将一字不改的网页确定为重复网页，不能将在原网页基础上删除或添加一些句子形成的新网页进行去重处理。

发明内容

本发明提供一种网页去重方法和设备，用以提高去重的准确度。

本发明的第一个方面是提供一种网页去重方法，包括：在目标网页中提取出至少一个核心句，所述核心句是指含有网页主要内容信息的句子；将每个所述核心句映射为唯一的数值，组成第一数值集；确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数，并确定出所述每个交集中包含的数值的个数的最大值，所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合；当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时，则将所述目标网页作为重复网页处理。

本发明的另一个方面是提供一种网页去重设备，包括：提取模块，用于在目标网页中提取出至少一个核心句，所述核心句是指含有网页主要内容信息的句子；映射模块，用于将每个所述核心句映射为唯一的数值，组成第一数值集；比较模块，用于确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数，并确定出所述每个交集中包含的数值的个数的最大值，所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合；去重模块，用于当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时，则将所述目标网页作为重复网页处理。

由上述技术方案可知，本发明实施例通过提取核心句，由于核心句是包含主要内容信息的句子，可以将主要内容相同的网页确定为重复网页进行去重处理，提高准确度以及增强抗噪声能力；并且，本实施例在比较时采用核心句映射成的数值进行比较，可以减少计算的数据规模，提高性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明网页去重方法一实施例的流程示意图；

图2为本发明网页去重方法另一实施例的流程示意图；

图3为本发明网页去重方法另一实施例的流程示意图；

图4为本发明网页去重设备一实施例的结构示意图；

图5为本发明网页去重设备另一实施例的结构示意图；

图6为本发明网页去重设备另一实施例的结构示意图；

图7为本发明网页去重设备另一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明网页去重方法一实施例的流程示意图，包括：

步骤11：在目标网页中提取出核心句，所述核心句是指含有网页主要内容信息的句子；

其中，目标网页是指新下载的网页，要判断是否对该新下载的网页进行去重处理。

核心句也可以称为关键句，是指含有网页主要内容信息的句子，可以理解为所有核心句表达的内容之和基本上就是该网页所要表达的内容。

核心句可以是根据关键词确定的，或者，也可以是根据聚类算法确定的。

关键词可以采用如下方式确定：

首先，对文本进行预处理，例如，断句、分词、词性标注、过滤停用词和虚词(如“啊”，“哦”，“的”等词)等，剩下的就是一些实词，如“公司”、“收集”、“套餐”等。

其次，可以根据实词出现的频率，将出现频率较高的预设个数的实词确定为关键词；或者，计算每个实词的权值，选取权值较大的预设个数的实词作为关键词。其中，计算权值可以采用词频-反文档频率(TermFrequency-Inverse Document Frequency，TF-IDF)算法，TF-IDF算法的计算公式为：

w (f_{i}, d) = N (f_{id}) \times \log (\frac{N (f_{i})}{N}) .

其中，w(f_i，d)为词语f_i在文本d中的权值，N(f_id)为词语f_i在文本d中出现的次数，N(f_i)为含有词语f_i的训练文本数，N为总训练文本数。

在确定出关键词后，就可以确定每个句子包含的关键词的个数，之后按照包含关键词的个数从多到少排序，选取预设个数的包含关键字较多的句子作为核心句。例如，一共有5个句子，包含的关键词的个数分别为6、5、3、2、1，预设个数为2，那么将包含6个关键词的句子和包含5个关键词的句子确定为核心句。

聚类算法可以是K中心点聚类算法(K-Medoids)。该聚类算法可以基于句子相似度进行聚类，并对应每个聚类得到一个聚类中心。此时，可以将每个聚类中心确定为一个核心句。例如，首先在文本中任意选K个句子作为初始中心点(将句子视为一个点)，然后将剩余句子根据相似度的大小聚类形成K个类簇，在每个类簇中迭代找出这样一个中心点：它到类簇中其他点的距离总和是最小的，而这个中心点对应的句子就是核心句。句子的相似度可以基于向量空间计算，大体内容可以举例如下计算：

(1)预处理：断句、分词、词性标注、过滤停用词和虚词(“啊”，“哦”，“的”等词)，剩下的就是一些实词(有实际意义的词，如“电脑”)；

(2)通过TF-IDF算法计算词语的权值，组成词语-权值集合；

(3)句子1与句子2的相似度计算：

1)假设句子1包含词语向量{A，B，D}，对应的权值向量为{2，5，8}；句子2包含词语向量{B，C，D}，对应的权值向量为{5，4，8}；

2)两组向量补齐为{A，B，C，D}，则句子1的权值向量变为{2，5，0，8}，句子2的权值向量变为{0，5，4，8}；

3)计算两个权值向量的点积(余弦值)，结果则为两个句子的相似度大小。

另外，将句子转换成上述的权值向量后，两个句子之间的距离就是句子转换成的权值向量对应的点之间的距离。

步骤12：将每个所述核心句映射为唯一的数值，组成第一数值集；

其中，可以采用hash算法、MD5算法或者异或等算法，将每个核心句映射为唯一的数值。

由于核心句至少为一句，那么数值的个数至少为1个，这些至少1个的数值可以组成一个集合，称为第一数值集。

步骤13：确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数，并确定出所述每个交集中包含的数值的个数的最大值，所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合；

其中，由于去重是需要对两方进行比较的，当一方与另一方相同时才进行去重处理。本实施例中，比较的一方为新下载的网页，也就是目标网页，而另一方就是本地已存储的网页(简称为已存的网页)中的全部或部分，这些与目标网页比较的网页可以称为备选网页，这些备选网页组成的集合可以称为备选网页集，当目标网页与备选网页集中的至少一个相同时就进行去重处理。

类似目标网页的处理，备选网页在下载时也会提取出备选网页包含的核心句以及核心句对应的数值，每个备选网页包含的核心句映射得到的数值组成的集合可以称为一个第二数值集。

在确定出第一数值集和第二数值集后，可以进行比较，分别将每个第二数值集与第一数值集比较，得到包含相同数值最大的第二数值集以及包含的相同数值的个数的最大值，也就是可以得到第一数值集与第二数值集的交集，以及得到交集中包含的数值的个数的最大值。例如，第一数值集为{1、2、3、4、5}，有3个第二数值集，分别为{1、3、4}、{3、5}、{2}，那么交集分别为{1、3、4}、{3、5}、{2}，交集中包含的数值的个数分别为3、2、1，因此最大值为3。

步骤14：当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时，则将所述目标网页作为重复网页处理。

例如，上述举例中，最大值为3，总数量为5，之后可以比较3/5是否大于设定阈值，如果大于，则表明目标网页是重复网页，需要进行去重处理，例如，丢弃该目标网页。

可选的，如果上述的比值不大于设定阈值，则可以将目标网页对应的数值集保存并进行其它的后处理，例如摘要提取、建立存储索引等。

图2为本发明网页去重方法另一实施例的流程示意图，本实施例以目标网页与本地存储的所有网页进行比较为例，本实施例包括：

步骤21：对目标网页的正文进行预处理。

其中，所述预处理包括如下项中的至少一项：断句、分词、词性标注、过滤停用词、过滤虚词。这些可以采用通常的算法实现。

步骤22：在预处理后的正文中提取出核心句。

例如，根据关键词或者聚类算法提取出核心句。

步骤23：将每个核心句映射为唯一的数值，组成第一数值集。

例如，对核心句进行哈希(hash)、消息摘要算法第五版(Message DigestAlgorithm 5，MD5)、异或等运算，映射为唯一的数值，这些数值组成第一数值集。

步骤24：将第一数值集与第二数值集进行比较，确定出所述第二数值集与所述第一数值集中相同数值的个数的最大值。

其中，所述第二数值集为预先确定的备选网页集中每个网页包含的核心句对应的数值组成的集合。

步骤25：判断上述的最大值与数值集中的数值的总数量的比值是否大于设定阈值，若是，执行步骤26，否则执行步骤27。

步骤26：将目标网页确定为重复网页，进行去重处理。

步骤27：对目标网页进行后处理。

后处理例如包括：保存目标网页的数值集以便与下次下载的新网页比较，或者进行摘要提取、建立存储索引等。

上述的步骤22～27的具体内容可以参见图1所示实施例的相关描述。

本实施例基于词义或句子相似度提取出核心句，以主要内容信息进行文本间相似度的比较，可以提高查重的准确度；由于核心句包含了主要内容信息，文本修改对查重影响非常小，因此增强了抗噪声能力；由于比较的是数值，可以减少计算的数据规模，提高性能。

图3为本发明网页去重方法另一实施例的流程示意图，本实施例以先对目标网页分类，再与本地存储的同类别的所有网页进行比较为例，本实施例包括：

步骤31：对目标网页的正文进行预处理。

具体内容可以参见步骤21。

步骤32：在预处理的正文中提取出关键词。

其中，提取出关键词的具体内容可以参见图1所示的实施例中的描述。

步骤33：根据关键词进行分类。

例如，根据关键词所属的类别，如果大部分关键词都属于互联网领域，则分类成互联网，类似的，也可以分类为财经、科技等类别。

步骤34：在预处理后的正文中提取出核心句；

步骤35：将每个核心句映射为唯一的数值，组成第一数值集；

步骤36：将第一数值集与同类别的第二数值集进行比较，确定出所述第二数值集与所述第一数值集中相同数值的个数的最大值；

与上一实施例不同的是，上一实施例在比较时，是与已存储的每个备选网页对应的第二数值集进行比较，而本实施例只与同类别的进行比较。例如，目标网页属于互联网分类，那么第一数值集只与属于互联网分类的备选网页对应的第二数值集比较。

步骤37：判断上述的最大值与数值集中的数值的总数量的比值是否大于设定阈值，若是，执行步骤38，否则执行步骤39。

步骤38：将目标网页确定为重复网页，进行去重处理。

步骤39：对目标网页进行后处理。

上述的步骤34～39的具体内容可以参见步骤22～27。

本实施例在上一实施例的基础上，由于依据分类进行比较，还可以缩减数值比较的规模，能够进一步提升性能。

图4为本发明网页去重设备一实施例的结构示意图，该设备为执行上述方法的设备，该设备包括提取模块41、映射模块42、比较模块43和去重模块44；提取模块41用于在目标网页中提取出至少一个核心句，所述核心句是指含有网页主要内容信息的句子；映射模块42用于将每个所述核心句映射为唯一的数值，组成第一数值集；比较模块43用于确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数，并确定出所述每个交集中包含的数值的个数的最大值，所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合；去重模块44用于当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时，则将所述目标网页作为重复网页处理。

其中，提取模块41的具体处理流程可以参见步骤11的内容，映射模块42的具体处理流程可以参见步骤12的内容，比较模块43的具体处理流程可以参见步骤13的内容，去重模块44的具体处理流程可以参见步骤14的内容。

可选的，参见图5，还可以包括：确定模块45，用于将已存的网页组成的集合确定为备选网页集，并将所述备选网页集中每个备选网页包含的核心句映射为唯一的数值后，将所述每个备选网页包含的核心句映射得到的数值组成一个第二数值集。

另外，提取模块41的具体处理流程可以参见步骤22的内容，映射模块42的具体处理流程可以参见步骤23的内容，比较模块43的具体处理流程可以参见步骤24的内容，去重模块44的具体处理流程可以参见步骤25～27的内容。

可选的，参见图6，还可以包括：归类模块46，用于对所述目标网页进行归类，以及将已存的网页中与所述目标网页属于同一类别的网页组成的集合确定为备选网页集，并将所述备选网页集中每个备选网页包含的核心句映射为唯一的数值后，将所述每个备选网页包含的核心句映射得到的数值组成一个第二数值集。

可选的，所述提取模块具体用于：

在所述目标网页的正文中，根据每个实词的词频或者权值，确定出关键词，按照所述目标网页的正文中各个句子中包含的关键词的个数从多到少的顺序，选取预设个数的句子作为核心句；或者，

在所述目标网页的正文中，采用基于句子相似度的聚类算法进行聚类处理，计算出预设个数的聚类中心，将各个聚类中心作为核心句。

可选的，所述映射模块具体用于：

采用hash算法、MD5算法或者异或算法，将每个核心句映射为唯一的数值。

可选的，所述归类模块具体用于：

在所述目标网页的正文中，根据每个实词的词频或者权值，确定出关键词，根据所述关键词确定出所述目标网页属于的类别。

其中，归类模块具体处理流程可以参见步骤33的具体内容。

另外，提取模块41的具体处理流程可以参见步骤34的内容，映射模块42的具体处理流程可以参见步骤35的内容，比较模块43的具体处理流程可以参见步骤36的内容，去重模块44的具体处理流程可以参见步骤37～39的内容。

可选的，参见图7，还可以包括：预处理模块47，用于对所述目标网页的正文进行预处理，得到所述目标网页的正文中的实词，所述预处理包括如下项中的至少一项：断句、分词、词性标注、过滤停用词、过滤虚词。

其中，预处理模块具体处理流程可以参见步骤21的具体内容。

本实施例通过提取核心句，由于核心句是包含主要内容信息的句子，可以将主要内容相同的网页确定为重复网页进行去重处理，提高准确度以及增强抗噪声能力；并且，本实施例在比较时采用核心句映射成的数值进行比较，可以减少计算的数据规模，提高性能。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种网页去重方法，其特征在于，包括：

在目标网页中提取出至少一个核心句，所述核心句是指含有网页主要内容信息的句子；

将每个所述核心句映射为唯一的数值，组成第一数值集；

确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数，并确定出所述每个交集中包含的数值的个数的最大值，所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合；

当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时，则将所述目标网页作为重复网页处理。

2.根据权利要求1所述的方法，其特征在于，还包括：

将已存的网页组成的集合确定为备选网页集；

将所述备选网页集中每个备选网页包含的核心句映射为唯一的数值后，将所述每个备选网页包含的核心句映射得到的数值组成一个第二数值集。

3.根据权利要求1所述的方法，其特征在于，还包括：

对所述目标网页进行归类；

将已存的网页中与所述目标网页属于同一类别的网页组成的集合确定为备选网页集；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述在目标网页中提取出核心句，包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，所述将每个所述核心句映射为唯一的数值，包括：

采用哈希hash算法、消息摘要算法第五版MD5算法或者异或算法，将每个核心句映射为唯一的数值。

6.根据权利要求3所述的方法，其特征在于，所述对所述目标网页进行归类，包括：

7.根据权利要求4-6任一项所述的方法，其特征在于，还包括：

对所述目标网页的正文进行预处理，得到所述目标网页的正文中的实词，所述预处理包括如下项中的至少一项：断句、分词、词性标注、过滤停用词、过滤虚词。

8.一种网页去重设备，其特征在于，包括：

提取模块，用于在目标网页中提取出至少一个核心句，所述核心句是指含有网页主要内容信息的句子；

映射模块，用于将每个所述核心句映射为唯一的数值，组成第一数值集；

比较模块，用于确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数，并确定出所述每个交集中包含的数值的个数的最大值，所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合；

去重模块，用于当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时，则将所述目标网页作为重复网页处理。

9.根据权利要求8所述的设备，其特征在于，还包括：

确定模块，用于将已存的网页组成的集合确定为备选网页集，并将所述备选网页集中每个备选网页包含的核心句映射为唯一的数值后，将所述每个备选网页包含的核心句映射得到的数值组成一个第二数值集。

10.根据权利要求8所述的设备，其特征在于，还包括：

归类模块，用于对所述目标网页进行归类，以及将已存的网页中与所述目标网页属于同一类别的网页组成的集合确定为备选网页集，并将所述备选网页集中每个备选网页包含的核心句映射为唯一的数值后，将所述每个备选网页包含的核心句映射得到的数值组成一个第二数值集。

11.根据权利要求8-10任一项所述的设备，其特征在于，所述提取模块具体用于：

12.根据权利要求8-10任一项所述的设备，其特征在于，所述映射模块具体用于：

13.根据权利要求10所述的设备，其特征在于，所述归类模块具体用于：

14.根据权利要求11-13任一项所述的设备，其特征在于，还包括：

预处理模块，用于对所述目标网页的正文进行预处理，得到所述目标网页的正文中的实词，所述预处理包括如下项中的至少一项：断句、分词、词性标注、过滤停用词、过滤虚词。