CN102799647A - 网页去重方法和设备 - Google Patents

网页去重方法和设备 Download PDF

Info

Publication number
CN102799647A
CN102799647A CN201210223009XA CN201210223009A CN102799647A CN 102799647 A CN102799647 A CN 102799647A CN 201210223009X A CN201210223009X A CN 201210223009XA CN 201210223009 A CN201210223009 A CN 201210223009A CN 102799647 A CN102799647 A CN 102799647A
Authority
CN
China
Prior art keywords
webpage
sentence
target web
numerical value
kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210223009XA
Other languages
English (en)
Other versions
CN102799647B (zh
Inventor
姜南
张辉
万嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210223009.XA priority Critical patent/CN102799647B/zh
Publication of CN102799647A publication Critical patent/CN102799647A/zh
Priority to PCT/CN2013/075121 priority patent/WO2014000508A1/zh
Priority to US14/581,464 priority patent/US10346257B2/en
Application granted granted Critical
Publication of CN102799647B publication Critical patent/CN102799647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明提供一种网页去重方法和设备。该方法包括在目标网页中提取出至少一个核心句,所述核心句是指含有网页主要内容信息的句子;将每个所述核心句映射为唯一的数值,组成第一数值集;确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数,并确定出所述每个交集中包含的数值的个数的最大值,所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合;当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时,则将所述目标网页作为重复网页处理。本发明实施例可以在网页去重处理时提高准确度以及增强抗噪声能力,并且减少计算规模。

Description

网页去重方法和设备
技术领域
本发明涉及网络通信技术,尤其涉及一种网页去重方法和设备。
背景技术
当使用搜索引擎寻找想要的信息时,搜索引擎返回的结果中,存在大量的内容重复链接,甚至是死链接,这使得用户获取信息非常耗时和不方便。由于互联网站的数目非常庞大,搜索引擎的核心模块之一的爬虫的工作量和其要读写的数据规模也难以想象,如果能够快速且准确度高的去除内容重复的网页,就不仅能避免反馈给用户重复信息,而且能节省后续处理的系统资源。
现有技术中,对备选网页正文进行哈希(hash)计算,检索已存哈希值的网页集合,通过判定相同哈希值的数量是否超过给定阈值,若是,则认为是重复网页。但是,这种方式准确度低,只能将一字不改的网页确定为重复网页,不能将在原网页基础上删除或添加一些句子形成的新网页进行去重处理。
发明内容
本发明提供一种网页去重方法和设备,用以提高去重的准确度。
本发明的第一个方面是提供一种网页去重方法,包括:在目标网页中提取出至少一个核心句,所述核心句是指含有网页主要内容信息的句子;将每个所述核心句映射为唯一的数值,组成第一数值集;确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数,并确定出所述每个交集中包含的数值的个数的最大值,所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合;当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时,则将所述目标网页作为重复网页处理。
本发明的另一个方面是提供一种网页去重设备,包括:提取模块,用于在目标网页中提取出至少一个核心句,所述核心句是指含有网页主要内容信息的句子;映射模块,用于将每个所述核心句映射为唯一的数值,组成第一数值集;比较模块,用于确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数,并确定出所述每个交集中包含的数值的个数的最大值,所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合;去重模块,用于当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时,则将所述目标网页作为重复网页处理。
由上述技术方案可知,本发明实施例通过提取核心句,由于核心句是包含主要内容信息的句子,可以将主要内容相同的网页确定为重复网页进行去重处理,提高准确度以及增强抗噪声能力;并且,本实施例在比较时采用核心句映射成的数值进行比较,可以减少计算的数据规模,提高性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明网页去重方法一实施例的流程示意图;
图2为本发明网页去重方法另一实施例的流程示意图;
图3为本发明网页去重方法另一实施例的流程示意图;
图4为本发明网页去重设备一实施例的结构示意图;
图5为本发明网页去重设备另一实施例的结构示意图;
图6为本发明网页去重设备另一实施例的结构示意图;
图7为本发明网页去重设备另一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明网页去重方法一实施例的流程示意图,包括:
步骤11:在目标网页中提取出核心句,所述核心句是指含有网页主要内容信息的句子;
其中,目标网页是指新下载的网页,要判断是否对该新下载的网页进行去重处理。
核心句也可以称为关键句,是指含有网页主要内容信息的句子,可以理解为所有核心句表达的内容之和基本上就是该网页所要表达的内容。
核心句可以是根据关键词确定的,或者,也可以是根据聚类算法确定的。
关键词可以采用如下方式确定:
首先,对文本进行预处理,例如,断句、分词、词性标注、过滤停用词和虚词(如“啊”,“哦”,“的”等词)等,剩下的就是一些实词,如“公司”、“收集”、“套餐”等。
其次,可以根据实词出现的频率,将出现频率较高的预设个数的实词确定为关键词;或者,计算每个实词的权值,选取权值较大的预设个数的实词作为关键词。其中,计算权值可以采用词频-反文档频率(TermFrequency-Inverse Document Frequency,TF-IDF)算法,TF-IDF算法的计算公式为:
w ( f i , d ) = N ( f id ) × log ( N ( f i ) N ) .
其中,w(fi,d)为词语fi在文本d中的权值,N(fid)为词语fi在文本d中出现的次数,N(fi)为含有词语fi的训练文本数,N为总训练文本数。
在确定出关键词后,就可以确定每个句子包含的关键词的个数,之后按照包含关键词的个数从多到少排序,选取预设个数的包含关键字较多的句子作为核心句。例如,一共有5个句子,包含的关键词的个数分别为6、5、3、2、1,预设个数为2,那么将包含6个关键词的句子和包含5个关键词的句子确定为核心句。
聚类算法可以是K中心点聚类算法(K-Medoids)。该聚类算法可以基于句子相似度进行聚类,并对应每个聚类得到一个聚类中心。此时,可以将每个聚类中心确定为一个核心句。例如,首先在文本中任意选K个句子作为初始中心点(将句子视为一个点),然后将剩余句子根据相似度的大小聚类形成K个类簇,在每个类簇中迭代找出这样一个中心点:它到类簇中其他点的距离总和是最小的,而这个中心点对应的句子就是核心句。句子的相似度可以基于向量空间计算,大体内容可以举例如下计算:
(1)预处理:断句、分词、词性标注、过滤停用词和虚词(“啊”,“哦”,“的”等词),剩下的就是一些实词(有实际意义的词,如“电脑”);
(2)通过TF-IDF算法计算词语的权值,组成词语-权值集合;
(3)句子1与句子2的相似度计算:
1)假设句子1包含词语向量{A,B,D},对应的权值向量为{2,5,8};句子2包含词语向量{B,C,D},对应的权值向量为{5,4,8};
2)两组向量补齐为{A,B,C,D},则句子1的权值向量变为{2,5,0,8},句子2的权值向量变为{0,5,4,8};
3)计算两个权值向量的点积(余弦值),结果则为两个句子的相似度大小。
另外,将句子转换成上述的权值向量后,两个句子之间的距离就是句子转换成的权值向量对应的点之间的距离。
步骤12:将每个所述核心句映射为唯一的数值,组成第一数值集;
其中,可以采用hash算法、MD5算法或者异或等算法,将每个核心句映射为唯一的数值。
由于核心句至少为一句,那么数值的个数至少为1个,这些至少1个的数值可以组成一个集合,称为第一数值集。
步骤13:确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数,并确定出所述每个交集中包含的数值的个数的最大值,所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合;
其中,由于去重是需要对两方进行比较的,当一方与另一方相同时才进行去重处理。本实施例中,比较的一方为新下载的网页,也就是目标网页,而另一方就是本地已存储的网页(简称为已存的网页)中的全部或部分,这些与目标网页比较的网页可以称为备选网页,这些备选网页组成的集合可以称为备选网页集,当目标网页与备选网页集中的至少一个相同时就进行去重处理。
类似目标网页的处理,备选网页在下载时也会提取出备选网页包含的核心句以及核心句对应的数值,每个备选网页包含的核心句映射得到的数值组成的集合可以称为一个第二数值集。
在确定出第一数值集和第二数值集后,可以进行比较,分别将每个第二数值集与第一数值集比较,得到包含相同数值最大的第二数值集以及包含的相同数值的个数的最大值,也就是可以得到第一数值集与第二数值集的交集,以及得到交集中包含的数值的个数的最大值。例如,第一数值集为{1、2、3、4、5},有3个第二数值集,分别为{1、3、4}、{3、5}、{2},那么交集分别为{1、3、4}、{3、5}、{2},交集中包含的数值的个数分别为3、2、1,因此最大值为3。
步骤14:当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时,则将所述目标网页作为重复网页处理。
例如,上述举例中,最大值为3,总数量为5,之后可以比较3/5是否大于设定阈值,如果大于,则表明目标网页是重复网页,需要进行去重处理,例如,丢弃该目标网页。
可选的,如果上述的比值不大于设定阈值,则可以将目标网页对应的数值集保存并进行其它的后处理,例如摘要提取、建立存储索引等。
图2为本发明网页去重方法另一实施例的流程示意图,本实施例以目标网页与本地存储的所有网页进行比较为例,本实施例包括:
步骤21:对目标网页的正文进行预处理。
其中,所述预处理包括如下项中的至少一项:断句、分词、词性标注、过滤停用词、过滤虚词。这些可以采用通常的算法实现。
步骤22:在预处理后的正文中提取出核心句。
例如,根据关键词或者聚类算法提取出核心句。
步骤23:将每个核心句映射为唯一的数值,组成第一数值集。
例如,对核心句进行哈希(hash)、消息摘要算法第五版(Message DigestAlgorithm 5,MD5)、异或等运算,映射为唯一的数值,这些数值组成第一数值集。
步骤24:将第一数值集与第二数值集进行比较,确定出所述第二数值集与所述第一数值集中相同数值的个数的最大值。
其中,所述第二数值集为预先确定的备选网页集中每个网页包含的核心句对应的数值组成的集合。
步骤25:判断上述的最大值与数值集中的数值的总数量的比值是否大于设定阈值,若是,执行步骤26,否则执行步骤27。
步骤26:将目标网页确定为重复网页,进行去重处理。
步骤27:对目标网页进行后处理。
后处理例如包括:保存目标网页的数值集以便与下次下载的新网页比较,或者进行摘要提取、建立存储索引等。
上述的步骤22~27的具体内容可以参见图1所示实施例的相关描述。
本实施例基于词义或句子相似度提取出核心句,以主要内容信息进行文本间相似度的比较,可以提高查重的准确度;由于核心句包含了主要内容信息,文本修改对查重影响非常小,因此增强了抗噪声能力;由于比较的是数值,可以减少计算的数据规模,提高性能。
图3为本发明网页去重方法另一实施例的流程示意图,本实施例以先对目标网页分类,再与本地存储的同类别的所有网页进行比较为例,本实施例包括:
步骤31:对目标网页的正文进行预处理。
具体内容可以参见步骤21。
步骤32:在预处理的正文中提取出关键词。
其中,提取出关键词的具体内容可以参见图1所示的实施例中的描述。
步骤33:根据关键词进行分类。
例如,根据关键词所属的类别,如果大部分关键词都属于互联网领域,则分类成互联网,类似的,也可以分类为财经、科技等类别。
步骤34:在预处理后的正文中提取出核心句;
步骤35:将每个核心句映射为唯一的数值,组成第一数值集;
步骤36:将第一数值集与同类别的第二数值集进行比较,确定出所述第二数值集与所述第一数值集中相同数值的个数的最大值;
与上一实施例不同的是,上一实施例在比较时,是与已存储的每个备选网页对应的第二数值集进行比较,而本实施例只与同类别的进行比较。例如,目标网页属于互联网分类,那么第一数值集只与属于互联网分类的备选网页对应的第二数值集比较。
步骤37:判断上述的最大值与数值集中的数值的总数量的比值是否大于设定阈值,若是,执行步骤38,否则执行步骤39。
步骤38:将目标网页确定为重复网页,进行去重处理。
步骤39:对目标网页进行后处理。
上述的步骤34~39的具体内容可以参见步骤22~27。
本实施例在上一实施例的基础上,由于依据分类进行比较,还可以缩减数值比较的规模,能够进一步提升性能。
图4为本发明网页去重设备一实施例的结构示意图,该设备为执行上述方法的设备,该设备包括提取模块41、映射模块42、比较模块43和去重模块44;提取模块41用于在目标网页中提取出至少一个核心句,所述核心句是指含有网页主要内容信息的句子;映射模块42用于将每个所述核心句映射为唯一的数值,组成第一数值集;比较模块43用于确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数,并确定出所述每个交集中包含的数值的个数的最大值,所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合;去重模块44用于当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时,则将所述目标网页作为重复网页处理。
其中,提取模块41的具体处理流程可以参见步骤11的内容,映射模块42的具体处理流程可以参见步骤12的内容,比较模块43的具体处理流程可以参见步骤13的内容,去重模块44的具体处理流程可以参见步骤14的内容。
可选的,参见图5,还可以包括:确定模块45,用于将已存的网页组成的集合确定为备选网页集,并将所述备选网页集中每个备选网页包含的核心句映射为唯一的数值后,将所述每个备选网页包含的核心句映射得到的数值组成一个第二数值集。
另外,提取模块41的具体处理流程可以参见步骤22的内容,映射模块42的具体处理流程可以参见步骤23的内容,比较模块43的具体处理流程可以参见步骤24的内容,去重模块44的具体处理流程可以参见步骤25~27的内容。
可选的,参见图6,还可以包括:归类模块46,用于对所述目标网页进行归类,以及将已存的网页中与所述目标网页属于同一类别的网页组成的集合确定为备选网页集,并将所述备选网页集中每个备选网页包含的核心句映射为唯一的数值后,将所述每个备选网页包含的核心句映射得到的数值组成一个第二数值集。
可选的,所述提取模块具体用于:
在所述目标网页的正文中,根据每个实词的词频或者权值,确定出关键词,按照所述目标网页的正文中各个句子中包含的关键词的个数从多到少的顺序,选取预设个数的句子作为核心句;或者,
在所述目标网页的正文中,采用基于句子相似度的聚类算法进行聚类处理,计算出预设个数的聚类中心,将各个聚类中心作为核心句。
可选的,所述映射模块具体用于:
采用hash算法、MD5算法或者异或算法,将每个核心句映射为唯一的数值。
可选的,所述归类模块具体用于:
在所述目标网页的正文中,根据每个实词的词频或者权值,确定出关键词,根据所述关键词确定出所述目标网页属于的类别。
其中,归类模块具体处理流程可以参见步骤33的具体内容。
另外,提取模块41的具体处理流程可以参见步骤34的内容,映射模块42的具体处理流程可以参见步骤35的内容,比较模块43的具体处理流程可以参见步骤36的内容,去重模块44的具体处理流程可以参见步骤37~39的内容。
可选的,参见图7,还可以包括:预处理模块47,用于对所述目标网页的正文进行预处理,得到所述目标网页的正文中的实词,所述预处理包括如下项中的至少一项:断句、分词、词性标注、过滤停用词、过滤虚词。
其中,预处理模块具体处理流程可以参见步骤21的具体内容。
本实施例通过提取核心句,由于核心句是包含主要内容信息的句子,可以将主要内容相同的网页确定为重复网页进行去重处理,提高准确度以及增强抗噪声能力;并且,本实施例在比较时采用核心句映射成的数值进行比较,可以减少计算的数据规模,提高性能。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (14)

1.一种网页去重方法,其特征在于,包括:
在目标网页中提取出至少一个核心句,所述核心句是指含有网页主要内容信息的句子;
将每个所述核心句映射为唯一的数值,组成第一数值集;
确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数,并确定出所述每个交集中包含的数值的个数的最大值,所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合;
当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时,则将所述目标网页作为重复网页处理。
2.根据权利要求1所述的方法,其特征在于,还包括:
将已存的网页组成的集合确定为备选网页集;
将所述备选网页集中每个备选网页包含的核心句映射为唯一的数值后,将所述每个备选网页包含的核心句映射得到的数值组成一个第二数值集。
3.根据权利要求1所述的方法,其特征在于,还包括:
对所述目标网页进行归类;
将已存的网页中与所述目标网页属于同一类别的网页组成的集合确定为备选网页集;
将所述备选网页集中每个备选网页包含的核心句映射为唯一的数值后,将所述每个备选网页包含的核心句映射得到的数值组成一个第二数值集。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述在目标网页中提取出核心句,包括:
在所述目标网页的正文中,根据每个实词的词频或者权值,确定出关键词,按照所述目标网页的正文中各个句子中包含的关键词的个数从多到少的顺序,选取预设个数的句子作为核心句;或者,
在所述目标网页的正文中,采用基于句子相似度的聚类算法进行聚类处理,计算出预设个数的聚类中心,将各个聚类中心作为核心句。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述将每个所述核心句映射为唯一的数值,包括:
采用哈希hash算法、消息摘要算法第五版MD5算法或者异或算法,将每个核心句映射为唯一的数值。
6.根据权利要求3所述的方法,其特征在于,所述对所述目标网页进行归类,包括:
在所述目标网页的正文中,根据每个实词的词频或者权值,确定出关键词,根据所述关键词确定出所述目标网页属于的类别。
7.根据权利要求4-6任一项所述的方法,其特征在于,还包括:
对所述目标网页的正文进行预处理,得到所述目标网页的正文中的实词,所述预处理包括如下项中的至少一项:断句、分词、词性标注、过滤停用词、过滤虚词。
8.一种网页去重设备,其特征在于,包括:
提取模块,用于在目标网页中提取出至少一个核心句,所述核心句是指含有网页主要内容信息的句子;
映射模块,用于将每个所述核心句映射为唯一的数值,组成第一数值集;
比较模块,用于确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数,并确定出所述每个交集中包含的数值的个数的最大值,所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合;
去重模块,用于当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时,则将所述目标网页作为重复网页处理。
9.根据权利要求8所述的设备,其特征在于,还包括:
确定模块,用于将已存的网页组成的集合确定为备选网页集,并将所述备选网页集中每个备选网页包含的核心句映射为唯一的数值后,将所述每个备选网页包含的核心句映射得到的数值组成一个第二数值集。
10.根据权利要求8所述的设备,其特征在于,还包括:
归类模块,用于对所述目标网页进行归类,以及将已存的网页中与所述目标网页属于同一类别的网页组成的集合确定为备选网页集,并将所述备选网页集中每个备选网页包含的核心句映射为唯一的数值后,将所述每个备选网页包含的核心句映射得到的数值组成一个第二数值集。
11.根据权利要求8-10任一项所述的设备,其特征在于,所述提取模块具体用于:
在所述目标网页的正文中,根据每个实词的词频或者权值,确定出关键词,按照所述目标网页的正文中各个句子中包含的关键词的个数从多到少的顺序,选取预设个数的句子作为核心句;或者,
在所述目标网页的正文中,采用基于句子相似度的聚类算法进行聚类处理,计算出预设个数的聚类中心,将各个聚类中心作为核心句。
12.根据权利要求8-10任一项所述的设备,其特征在于,所述映射模块具体用于:
采用哈希hash算法、消息摘要算法第五版MD5算法或者异或算法,将每个核心句映射为唯一的数值。
13.根据权利要求10所述的设备,其特征在于,所述归类模块具体用于:
在所述目标网页的正文中,根据每个实词的词频或者权值,确定出关键词,根据所述关键词确定出所述目标网页属于的类别。
14.根据权利要求11-13任一项所述的设备,其特征在于,还包括:
预处理模块,用于对所述目标网页的正文进行预处理,得到所述目标网页的正文中的实词,所述预处理包括如下项中的至少一项:断句、分词、词性标注、过滤停用词、过滤虚词。
CN201210223009.XA 2012-06-30 2012-06-30 网页去重方法和设备 Active CN102799647B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210223009.XA CN102799647B (zh) 2012-06-30 2012-06-30 网页去重方法和设备
PCT/CN2013/075121 WO2014000508A1 (zh) 2012-06-30 2013-05-03 网页去重方法和设备
US14/581,464 US10346257B2 (en) 2012-06-30 2014-12-23 Method and device for deduplicating web page

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210223009.XA CN102799647B (zh) 2012-06-30 2012-06-30 网页去重方法和设备

Publications (2)

Publication Number Publication Date
CN102799647A true CN102799647A (zh) 2012-11-28
CN102799647B CN102799647B (zh) 2015-01-21

Family

ID=47198757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210223009.XA Active CN102799647B (zh) 2012-06-30 2012-06-30 网页去重方法和设备

Country Status (3)

Country Link
US (1) US10346257B2 (zh)
CN (1) CN102799647B (zh)
WO (1) WO2014000508A1 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014000508A1 (zh) * 2012-06-30 2014-01-03 华为技术有限公司 网页去重方法和设备
CN103646029A (zh) * 2013-11-04 2014-03-19 北京中搜网络技术股份有限公司 一种针对博文的相似度计算方法
CN103823838A (zh) * 2013-12-18 2014-05-28 江苏省电力公司常州供电公司 一种多格式文档录入并比对的方法
CN105630802A (zh) * 2014-10-30 2016-06-01 阿里巴巴集团控股有限公司 网页去重方法及装置
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN105956068A (zh) * 2016-04-27 2016-09-21 湖南蚁坊软件有限公司 基于分布式数据库的网页url去重方法
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN106547764A (zh) * 2015-09-18 2017-03-29 北京国双科技有限公司 网页数据去重的方法及装置
CN106815226A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 文本匹配方法和装置
CN106844670A (zh) * 2017-01-22 2017-06-13 微鲸科技有限公司 一种节目数据入库方法及装置
CN107025218A (zh) * 2017-04-07 2017-08-08 腾讯科技(深圳)有限公司 一种文本去重方法和装置
CN107169011A (zh) * 2017-03-31 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的网页原创性识别方法、装置及存储介质
CN107168997A (zh) * 2017-03-30 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的网页原创评估方法、装置及存储介质
CN107729395A (zh) * 2017-09-20 2018-02-23 杭州安恒信息技术有限公司 一种冗余页面的发现方法
CN108197120A (zh) * 2017-12-28 2018-06-22 中译语通科技(青岛)有限公司 一种基于双语平行语料库的相似语句去重系统
CN108428382A (zh) * 2018-02-14 2018-08-21 广东外语外贸大学 一种口语复述评分方法及系统
CN108460049A (zh) * 2017-02-21 2018-08-28 阿里巴巴集团控股有限公司 一种确定信息类别的方法和系统
CN108595439A (zh) * 2018-05-04 2018-09-28 北京中科闻歌科技股份有限公司 一种文字传播路径分析方法及系统
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018103540A1 (zh) * 2016-12-09 2018-06-14 腾讯科技(深圳)有限公司 网页内容提取方法、装置、存储介质
CN109657213B (zh) * 2018-12-21 2023-07-28 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
CN110442679A (zh) * 2019-08-01 2019-11-12 信雅达系统工程股份有限公司 一种基于融合模型算法的文本去重方法
CN112287102B (zh) * 2019-08-29 2024-04-16 北京京东尚科信息技术有限公司 数据挖掘方法和装置
CN111814423B (zh) * 2020-09-08 2020-12-22 北京安帝科技有限公司 一种日志的格式化方法、装置和存储介质
CN112733537A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 文本去重方法、装置、电子设备及计算机可读存储介质
CN113704586A (zh) * 2021-08-30 2021-11-26 泰戈特(北京)工程技术有限公司 一种去重目标页面确定方法、装置、计算机设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093485A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 一种网页重复内容过滤方法
CN102270244A (zh) * 2011-08-26 2011-12-07 四川长虹电器股份有限公司 基于核心语句的网页内容关键词快速提取方法
CN102375813A (zh) * 2010-08-09 2012-03-14 腾讯科技(深圳)有限公司 搜索引擎排重系统及方法
CN102402537A (zh) * 2010-09-15 2012-04-04 盛乐信息技术(上海)有限公司 中文网页文本除重系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030154181A1 (en) * 2002-01-25 2003-08-14 Nec Usa, Inc. Document clustering with cluster refinement and model selection capabilities
CA2574554A1 (en) * 2004-07-21 2006-01-26 Equivio Ltd. A method for determining near duplicate data objects
CN101102316A (zh) * 2007-06-22 2008-01-09 腾讯科技(深圳)有限公司 一种网页去重的方法及系统
CN101246501B (zh) * 2008-03-27 2010-06-23 腾讯科技(深圳)有限公司 一种聚合相同主题网络文档的方法及系统
KR20100066920A (ko) * 2008-12-10 2010-06-18 한국전자통신연구원 전자 문서 처리 장치 및 그 방법
US8180773B2 (en) * 2009-05-27 2012-05-15 International Business Machines Corporation Detecting duplicate documents using classification
CN102799647B (zh) * 2012-06-30 2015-01-21 华为技术有限公司 网页去重方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093485A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 一种网页重复内容过滤方法
CN102375813A (zh) * 2010-08-09 2012-03-14 腾讯科技(深圳)有限公司 搜索引擎排重系统及方法
CN102402537A (zh) * 2010-09-15 2012-04-04 盛乐信息技术(上海)有限公司 中文网页文本除重系统及方法
CN102270244A (zh) * 2011-08-26 2011-12-07 四川长虹电器股份有限公司 基于核心语句的网页内容关键词快速提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张明辉等: "一种基于段落的分段签名近似镜像新算法", 《情报杂志》 *
彭曙蓉等: "MD5算法在消除重复网页算法中的应用", 《电脑知识与技术》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014000508A1 (zh) * 2012-06-30 2014-01-03 华为技术有限公司 网页去重方法和设备
US10346257B2 (en) 2012-06-30 2019-07-09 Huawei Technologies Co., Ltd. Method and device for deduplicating web page
CN103646029B (zh) * 2013-11-04 2017-03-15 北京中搜网络技术股份有限公司 一种针对博文的相似度计算方法
CN103646029A (zh) * 2013-11-04 2014-03-19 北京中搜网络技术股份有限公司 一种针对博文的相似度计算方法
CN103823838B (zh) * 2013-12-18 2018-07-20 国网江苏省电力有限公司常州供电分公司 一种多格式文档录入并比对的方法
CN103823838A (zh) * 2013-12-18 2014-05-28 江苏省电力公司常州供电公司 一种多格式文档录入并比对的方法
CN105630802A (zh) * 2014-10-30 2016-06-01 阿里巴巴集团控股有限公司 网页去重方法及装置
US10691769B2 (en) 2014-10-30 2020-06-23 Alibaba Group Holding Limited Methods and apparatus for removing a duplicated web page
CN106547764A (zh) * 2015-09-18 2017-03-29 北京国双科技有限公司 网页数据去重的方法及装置
CN106815226A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 文本匹配方法和装置
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN105956068A (zh) * 2016-04-27 2016-09-21 湖南蚁坊软件有限公司 基于分布式数据库的网页url去重方法
CN106446148B (zh) * 2016-09-21 2019-08-09 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN106844670A (zh) * 2017-01-22 2017-06-13 微鲸科技有限公司 一种节目数据入库方法及装置
CN108460049A (zh) * 2017-02-21 2018-08-28 阿里巴巴集团控股有限公司 一种确定信息类别的方法和系统
CN107168997B (zh) * 2017-03-30 2021-07-20 百度在线网络技术(北京)有限公司 基于人工智能的网页原创评估方法、装置及存储介质
CN107168997A (zh) * 2017-03-30 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的网页原创评估方法、装置及存储介质
CN107169011B (zh) * 2017-03-31 2021-06-11 百度在线网络技术(北京)有限公司 基于人工智能的网页原创性识别方法、装置及存储介质
CN107169011A (zh) * 2017-03-31 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的网页原创性识别方法、装置及存储介质
US11379422B2 (en) 2017-04-07 2022-07-05 Tencent Technology (Shenzhen) Company Limited Text deduplication method and apparatus, and storage medium
CN107025218A (zh) * 2017-04-07 2017-08-08 腾讯科技(深圳)有限公司 一种文本去重方法和装置
CN107025218B (zh) * 2017-04-07 2021-03-02 腾讯科技(深圳)有限公司 一种文本去重方法和装置
CN107729395B (zh) * 2017-09-20 2020-11-24 杭州安恒信息技术股份有限公司 一种冗余页面的发现方法
CN107729395A (zh) * 2017-09-20 2018-02-23 杭州安恒信息技术有限公司 一种冗余页面的发现方法
CN108197120A (zh) * 2017-12-28 2018-06-22 中译语通科技(青岛)有限公司 一种基于双语平行语料库的相似语句去重系统
CN108428382A (zh) * 2018-02-14 2018-08-21 广东外语外贸大学 一种口语复述评分方法及系统
CN108595439A (zh) * 2018-05-04 2018-09-28 北京中科闻歌科技股份有限公司 一种文字传播路径分析方法及系统
CN108595439B (zh) * 2018-05-04 2022-04-12 北京中科闻歌科技股份有限公司 一种文字传播路径分析方法及系统
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置

Also Published As

Publication number Publication date
WO2014000508A1 (zh) 2014-01-03
US20150142760A1 (en) 2015-05-21
CN102799647B (zh) 2015-01-21
US10346257B2 (en) 2019-07-09

Similar Documents

Publication Publication Date Title
CN102799647B (zh) 网页去重方法和设备
CN108595517B (zh) 一种大规模文档相似性检测方法
CN101694668B (zh) 网页结构相似性确定方法及装置
CN102486791A (zh) 书签智能分类的方法和服务器
CN110321466B (zh) 一种基于语义分析的证券资讯查重方法及系统
CN105426426A (zh) 一种基于改进的K-Medoids的KNN文本分类方法
CN106599148A (zh) 一种文摘生成方法及装置
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN105975459B (zh) 一种词项的权重标注方法和装置
CN110543595B (zh) 一种站内搜索系统及方法
CN102053992A (zh) 聚类方法和系统
CN101625680A (zh) 面向专利领域的文档检索方法
CN102955857A (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN103678405A (zh) 邮件索引建立方法及系统、邮件搜索方法及系统
CN105956031A (zh) 文本分类方法和装置
CN110019669B (zh) 一种文本检索方法及装置
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN107656920B (zh) 一种基于专利的科技人才推荐方法
CN104408033A (zh) 一种文本信息提取的方法及系统
CN107862051A (zh) 一种文件分类方法、系统及一种文件分类设备
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN108427686A (zh) 文本数据查询方法及装置
CN104731811A (zh) 一种面向大规模动态短文本的聚类信息演化分析方法
CN105354182A (zh) 获取相关数字资源的方法及使用其生成专题的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant