面向网页去看的特征提取与重复模式发现

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:roadog212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展给人们带来了新的获取信息和交流的方式。随着网站和网页数目的不断增加,为了用户能方便的访问它们,搜索引擎应运而生。但由于互联网上存在大量的因转载或抄袭形成的重复网页,这些网页被搜索引擎重复的存储和检索,造成存储空间的浪费和检索效率的降低,同时也带来了较差的用户体验。因此网页去重是搜索引擎中比较重要的一个环节。   本文针对网页去重着重研究以下两个问题:第一个问题是网页特征提取。网页特征提取的前提是网页正文提取,但由于广告等噪声的存在,导致目前的正文提取算法均不能完全准确的提取出网页正文内容,这对后续的网页去重造成了较大的影响。如何在存在少许噪声的正文中提取纯净的网页特征在很大程度上决定了网页去重的准确率。本文提出了基于层次筛选的特征提取算法,充分考虑了段落、句子与关键词的联系,逐层筛选网页信息得到特征词、词性对集合,达到将网页本身结构和内部信息权重结合的目的,使提取出的特征不仅能均匀覆盖网页,还具有一定的抗噪性。   第二个问题是网页特征重复模式发现。目前的重复模式发现算法主要分为两种:基于集合的实现和基于特征串的实现。基于集合的实现比较注重特征集合中特征项的权重,但忽视了特征项的顺序,加上HaSh值冲突问题带来的误判,此实现并不适合用于网页去重;基于特征串的实现虽然考虑了特征项的顺序,但采用最长公共子串衡量网页重复度则过于严格,检测不出非连续重复的网页。为了解决上述问题,本文提出了基于改进最长公共子序列的重复模式发现算法。将特征词、词性对集合以句子为单位计算最长公共子序列,既降低了维度、保证了句子的完整性,又能改善Hash值冲突问题。为了提高计算和查找的效率,本算法改进了最长公共子序列算法的经典实现和倒排表组织方式,并将其应用于网页重复模式发现。   最后,本文进行了相关实验验证工作,结果表明改进后的算法在召回率和准确率上都优于目前的常用算法。
其他文献
基于信号强度指示(RSSI)的传感器定位技术通过分析节点接收到的信号强度来定位其物理地址。因该技术相对基于到达时间差(TOA)和基于到达角度(AOA)等定位技术无需额外的硬件设
随着网络技术的高速发展,越来越多的数字图像在网络上得到方便快捷的传播,但是各种图像编辑软件的大量出现,使得图像在传播过程中及易遭到恶意篡改并造成不良后果。为了保护数字
目前,在计算机领域出现了许多新的应用,如定位服务等,这些新应用的出现,体现了无线网络通讯等技术的发展。在时空数据库中对于定位服务给予支持的一项重要查询技术就是多类型
与时间相关的数据库应用需求不断增长,因而时态数据库的设计成为十分重要的问题。随着时间维的引入,数据库中存储的信息量也随之变得非常庞大,这就使得冗余信息亦随之增大。
针对基于拟关键路径法的综合调度算法按路径长度确定工序的调度次序,形成工序组间的并行处理,使设备产生较多空闲时间的问题,提出基于设备空闲事件驱动的综合调度算法。该算
随着计算机信息技术的进步和网络技术的发展,Web应用程序复杂度的增长速度是指数级的,特别是目前炙手可热的RIA技术,逐渐成为企业级开发的首选。然而,RIA系统是如此的复杂,开
步态识别作为一种新兴的生物特征识别技术,主要通过检测人们走路的方式来进行身份识别,而不论他(她)们穿着什么样的衣服。与传统的生物特征识别(如:指纹、人脸等)相比,它可以
随着市场经济的发展,用计算机辅助制造手段优化生产调度越来越受到人们的重视,但大多数局限于纯加工或纯装配流水线的生产调度,而面对为客户打造个性化产品的时代,研究多品种
随着企业信息化的发展,企业的经营及管理流程实现在线监控,这使管理层可以在线获得完整而清晰的信息,通过实现信息化可以提高其核心竞争力。现代的计算机集成制造系统(CIMS)结构
互联网的广泛应用以及数字产品的迅猛发展给人们的工作和学习带来新的生机。像音乐、图像和视频等数字产品因为被人们所热衷,使得他们成为非法者获取、复制以及传播的对象。