基于组合特征的网页主题块识别算法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:LUZIBIN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的互联网时代,Web是信息的重要来源,网页则是展示信息的重要媒介。网页传递着各种信息,但是其中有大量噪音信息严重影响了 Web信息的自动化挖掘和采集。如何准确的识别出网页的主题信息成为了计算机科学的研究热点。本文对各种Web页面主题信息识别的技术进行了分析和总结,针对仅利用视觉特征或文本特征来识别Web页面主题信息算法的不足,提出了一种基于组合特征的主题块识别算法,实验证明本算法有效的提高了网页主题信息识别的准确率和稳定性。本文的主要研究内容和贡献如下:1)实现并改进了 VIPS算法。改进了网页分块规则,对网页块尺寸阈值采用了动态调整的方式来调整分块粒度,使得分块后的网页块语义更加完整。2)借鉴BM25算法的思想,提出了计算网页块内容与主题相关性的算法模型BBM25。BBM25以网页块为基本单位,从关键词的权重、网页块中关键词的词频、网页块的文本内容长度等几个方面来考虑。3)提出了基于组合特征的主题块识别算法。对网页分块后,本文首先利用SVM根据网页块的视觉特征预测网页块是否为主题块,然后利用BBM25算法计算每个网页块内容与主题的相关性权重值,将权重值与寻找的最佳阈值进行比较从而判断网页块是否为主题块,最后将这两种方式相结合,综合利用网页块的视觉特征和文本特征来判断其是否为主题块。通过实验,本文将基于组合特征的主题块识别算法和基于视觉特征、基于文本特征的主题块识别算法进行了对比,验证了本文提出的基于组合特征识别主题块的算法的准确性和稳定性。
其他文献
个性化需求是指用户要求自己使用的产品或者服务打上自己的烙印,让产品或服务体现自己独特的需求和个性。个性化意味着客户拥有更大的自由度和表达空间。个性化需求往往更能反
入侵检测技术是保证计算机网络安全的核心技术之一,通过收集各种网络数据,从中分析和发现可能的入侵攻击行为。为增强从海量数据中发现攻击行为的能力和提高入侵检测的智能性
学位
21世纪是一个信息化的时代,信息以及数据快速增长,这对计算能力提出了更高的要求,云计算在此环境下应运而生,它带来了新的变革。云计算是一种商业计算模型,它将计算任务分布
Web服务(Web Service)是一种自包含、自描述、模块化的应用程序,它吸收了分布式计算、网格计算和XML等各种技术的优点,解决了异构分布式计算以及代码与数据重用等问题,具有高度
为了分析解决在异构环境下,特别是异构存储环境下影响分布式系统响应的因素,以便满足大规模用户对系统的响应要求,提高系统的性能。本文从面到点入手分析了影响异构分布式系
目前计算机科学技术发展最迅速、最具有应用潜力的领域其中之一便是数据库技术,随着信息管理自动化程度的日益提高,数据库技术已经成为现代计算机信息系统和应用系统的基础和核
在过去的几十年当中,人工智能领域关于不确定性知识系统的研究中获得了很大的进展,对于表达不确定知识的有效工具贝叶斯网络的研究也逐渐深入,作为贝叶斯网络的灵敏性分析也成为
随着物联网产业的发展,分布式系统被广泛应用于工业、农业、医疗、交通和军事领域。无线传感器网络作为物联网的重要组成部分,它在信息采集过程中的安全性和有效性直接关系到
物联网是近年来新兴的网络技术,该技术在产品供应链,库存管理等等领域倍受关注。在物联网构架中,网络压力有很大一部分会集中在后端物品编码解析服务器上,如果在EPC解析过程中,ONS