基于新型坐标树的页面分析和内容提取框架

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:whnbj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和动态网页生成技术的成熟,网页的数量呈爆炸性的增长。而为了商业上的考虑和网站的维护,很多网页都充斥着很多重复性高且与网页主题内容无关的信息。例如:广告、表单和版权声明等。这些内容充斥在每个网页但是却多半不是使用者想要的信息。而目前一般的搜索引擎无法辨别这些不相关的部分,便索引网页所有部分,这不但会使得索引档案巨大而不易管理,也会使搜索结果产生偏差。另外,当使用者利用小型显示装置,如:掌上电脑(PDA),手机等,浏览网页时,也必须经过多次的滚动页面和找寻才能得到想要的信息。所以,在论文中我们提出了一种网页结构分析和内容提取系统来获得网页中真正有信息的部分,以提高基于网页内容的应用系统的服务质量。 针对HTML的半结构化特征和DOM缺乏位置信息和空间关系描述的不足,本文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的页面坐标树模型,还包括能反映空间关系的Graph模型。通过将HTML文档转换为坐标树,并结合位置特征和空间关系可对网页进行分析和提取内容。 对来自120个网站的5000个网页进行测试后的结果表明该方法可达到93.87%的准确率,并且对相关连接和相关图片的抽取有较高的准确率和召回率。这表明我们的方法可以很有效的提取出网页的主题内容,这对基于网页内容的应用系统和基于网页超链指向的应用系统都有很大帮助。 在本文的最后我们提出了一种基于决策支持向量机的网页自动分类系统,并将我们的主题内容提取方法应用到该系统,实验表明主题提取提高了原有系统的正确率和召回率。
其他文献
学位
从大田蘑菇种植场建堆的稻草样中分离得到一株具有较好的温度耐受性和pH稳定性的产纤维素酶放线菌DY3。综合形态、生理生化特征以及16S rDNA序列分析,将其初步鉴定为嗜热裂孢
吲哚胺2,3-双加氧酶(Indoleamine2,3-dioxygenase, IDO)是哺乳动物细胞中负责色氨酸代谢的限速酶,它催化色氨酸沿着犬尿氨酸途径降解为一系列代谢产物。当中枢神经系统处于炎症
在智能家居(Smart Home)中,视频监控系统(Cameras and Surveillance)是家庭智能安防的重要组成部分。视频监控系统的主要功能是通过图像数据实时浏览监控点的现场情况;视频监
随着信息时代的到来和不断发展,人们已经不只满足于信息传输速率的提高,同时也对信息传输的可靠性提出了更高的要求。如何保证高速传输系统的高可靠性已经成为研究人员设计高速
小学思品课的教学内容是以小学生学习和生活为出发点,让学生在生活中体验,在体验中进步,还可以帮助学生认识和解决在日常生活中遇到的诸多问题。因此,在教学过程中,将小学思品课生
巴豆藤属(Craspedolobium Harms)是东亚特有单型属,只有巴豆藤Craspedolobium unijugum(Gagnepain)Z.Wei&Pedley1种,其起源较古老。作为云南高原亚热带常绿阔叶林的标志性物种,对其
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
本文对LED平板显示器的图像缩放处理与扫描控制两大问题进行了研究并实现了系统设计。 文章从LED平板显示器的实际应用及发展背景出发,在讨论几种图像缩放算法的基础上,提出
雷达散射截面(RCS)的计算是电磁场数值计算领域不断发展着的一个重要研究课题,本文研究了将制造业广泛应用的造型方法NURBS法和精确的电磁场数值计算方法矩量法(MM)相结合计算