基于自然语言处理的网页去重关键技术研究

被引量 : 5次 | 上传用户:sandland
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上大量存在的因转载而重复的网页,使得搜索引擎必须发现并且去除这些重复网页,来节省解析、索引等后续处理的时间和存储、检索所需的硬件资源,以及保证用户良好的使用体验。本论文提出了一种基于语义指纹的大规模网页去重的算法。通过信息检索和文本复制检测技术相结合,平衡了网页去重算法中效率高但效果不理想,而经典文本复制检测算法效果好效率却欠佳的矛盾。实验表明,本算法具有很好的去重效果,同时也达到了很高的处理效率,特别适用于竞争情报系统(CIS)中的网页去重。
其他文献
以国内最大的区域绿道建设工程珠三角绿道网为研究对象,基于对深圳、广州、东莞、惠州、中山五市的绿道和香港郊野公园的实地调研,分析了其对区域旅游发展的影响和建设中存在
以2013年6月列入世界文化景观遗产的红河哈尼梯田文化景观区内的乡村聚落景观——云南省红河州元阳县全福庄中寨为研究对象,通过实地调查、访谈和GIS制图分析等方法,分析了哈
通过文献资料综合和实地调查 ,分析研究了温度、盐度、沉积物、潮汐浸淹和波浪能量 5种海洋环境因素对红树林总体和各树种分布和生长的影响。明确指出了温度对红树林纬向分布
随着经济全球化的加快发展以及产业间日趋激烈的竞争,目前企业所面临的经营环境变得越来越复杂。供应链管理作为企业业务整合、模块化的管理模式,它的角色逐渐引起了世界的关
目的 检测PDZK1基因在子宫内膜癌中的表达并探讨其临床病理学意义。方法 应用实时荧光定量PCR、蛋白免疫印迹和免疫组化实验方法,检测本院收治的子宫内膜癌患者术后53例组织
移民部长承认政府大幅修改移民法,目的在于限制每年移民的申请数量,从而减少未来移民申请积压并缩短等候时间。众所周知,加拿大的移民积压案件堆积如山。每次加拿大移民法修
为了解决目前FPGA在控温电路中的设计难题,使可编程器件FPGA更好地为广大编程技术人员所掌握,在方法上采用对时间计数器(时钟)、状态机(时序电路)、显示驱动、输入输出信号和相应
本文拟运用句法学相关知识、三维语法理论以及语法研究中的印证法、对比法、比较法,从句法层面对名词化标记“的”作深层次的思考,探究和挖掘,首先对“N的V”、“VP的”中的
信息技术的发展促进了企业信息化的变革,在企业工作管理流程中,如何利用现代信息技术,灵活、快速的获取信息,有效地传输、集成、分类处理信息,及时准确地按需分发信息,是体现
概述近十年益智在栽培、化学成分、药理及毒理方面研究进展,为更好开发和利用益智提供理论依据,为益智仁药材的进一步研究提供参考资料。