基于特征串的大规模中文网页快速去重算法研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:axrczx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页检索结果中 ,用户经常会得到内容相同的冗余页面 ,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源 ,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想 ,利用网页文本的内容、结构信息 ,提出了基于特征串的中文网页的快速去重算法 ,同时对算法进行了优化处理。实验结果表明该算法是有效的 ,大规模开放测试的重复网页召回率达 97 3% ,去重正确率达 99 5 %。
其他文献
目的应用凝胶色谱法测定阿莫西林胶囊中的高分子杂质。方法以高分子杂质为指标,对阿莫西林胶囊中的高分子杂质含量进行测定,采用凝胶色谱法,使用Sephadex G-10(40~120μm)柱,
在供给侧结构性改革背景下,金融资产管理公司如何发挥自身的功能优势,进一步履行保持金融稳定、优化资源配置和促进经济发展的社会责任,为供给侧结构性改革提供助力支持是极
目的探讨拉环式聚丙烯塑料输液瓶瓶塞启封后不需消毒的可行性。方法取塑料瓶盖完整、无裂痕、无松动的液体60瓶,开启瓶口后直接取样,在瓶口取样后用碘伏消毒瓶口,2min后再次
针对现阶段乡村图书馆投入不足、管理不善、后续难以为继等问题,提出了整合高校电子资源和乡村学校计算机网络资源,整合乡村教师资源,建立长效的乡村电子图书馆新模式,并对存
随着经济全球化以及经济市场化的不断发展,企业面临着竞争日益激烈的市场环境,很多行业市场已经由卖方市场转向买方市场。因此,更快更好地响应并满足客户多样化的需求,准时向
科技创新人才是科技活动的主体,是经济社会发展的第一资源。运用文本分析法、关键词分析法以及词云可视化的方法对1996—2016年浙江科技人才的创新创业共67条相关政策进行定