基于关键长句及正文长度预分类的网页去重算法研究

来源 :软件导刊 | 被引量 : 0次 | 上传用户:new37143
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随互联网所包含网页数目的剧增,转载现象变得相当普遍。作为提高搜索引擎服务质量的关键问题之一,网页去重技术已经成为网页信息处理最为重要的环节。在对传统网页去重技术进行研究的基础上,针对网页正文的结构特征,提出了一种基于关键长句及正文长度预分类的网页去重算法的核心思想。实验证明,该算法具有较高的召回率及准确率,在重复网页的过滤中有着较好的应用前景与较高的研究价值。
其他文献
职业高中计算机专业C语言教材中运算符非常丰富,从而使C语言比其他高级语言的功能更加丰富、更加灵活。同时,一些运算符的法则和优先级犹如变色龙一样,因运算环境的不同而变化。
随着科学技术的不断发展以及计算机计算能力的加强,深度学习在人们社会生活中发挥着越来越重要的作用。而随着城市的发展,土地资源越来越紧张,迫切需要高层和超高层的建筑。
员工的工作积极性和创造性与企业的工作效率和经济效益息息相关,员工激励已成为企业人力资源管理的核心内容,这同时也是企业应对市场竞争的需要。本文主旨在于探析激励员工的
阐述了在计算机网络环境下的安全技术,说明了网络攻击者所采取的手段,并且对防火墙进行了分析,论述了信息安全体系的元素。
Silverlight是微软近年推出的Web前端技术。讨论了Silverlight的特点和开发技术,以及XAML语言;在此基础上对基于Silverlight技术进行网页动画开发进行了分析;重点探讨了基于S
为解决目前国内冶金行业炉体灰斗高温灰渣输送过程中,所使用国产的高温埋刮板输送机存在刮板链条易磨损或者变形断裂、输送距离短、易发生堵料闷车、机壳易磨损或者变形、整