模板独立的网页信息抽取研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:shuilinxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息的迅猛增长,互联网信息己成为最为重要的知识库,人们每天在网络上提供了成千上万的信息,这些由用户创造的信息是十分具有价值的,人们也越来越迫切的希望通过各种方式来获取这些信息。因此使用网页信息抽取技术,自动地从网页中抽取用户感兴趣的信息是智能信息处理的一个重要的工作。这些信息抽取系统从互联网上抽取的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。目前,网页信息抽取技术的研究已成为国际上信息检索领域的研究热点之。本文首先研究了网页信息抽取的相关工作和各项关键技术,在数据表示方面,采用了Dom-Tree来将页面代码进行重新展示。以Dom-Tree的节点作为样本,通过视觉信息和人类设计感知为基础设计特征,来描述样本所代表的结构信息。然后介绍了网页信息抽取技术与相关技术的区别以及网页信息抽取中常见的分类方法,模板依赖的方法和模板独立的方法,通过介绍模板独立方法与模板依赖方法的特点,总结出两个方法的优缺点和适用范围。其次在具体的网页信息抽取任务中,我们研究了新闻页面抽取以及论坛类页面抽取的意义和目标。我们首先设计了一个解析器用以完成网页语料的解析、过滤以及标注等任务。然后根据模板独立的网贞信息抽取的特点建立了一个模板独立的网页信息抽取的框架,最后从网页语料的特点入手进行分析,分别对新闻语料和论文类语料建立模型,设计过滤模块、训练分类器、算法设计,并最终完成一个包装器的抽取过程。在中英文语料上的实验结果表明,在新闻与论文类页面的抽取精度F值分别可以达到96.7%和89.1%。通过对比实验表明,本文提出的抽取方法比当前主流的方法都更加高效,绝对结果也表明已经基本可以满足实用要求。
其他文献
今年3月,在自贡市召开的全省1987年好新闻评选会上,总结交流了过去一年里新闻写作的成绩和经验,表彰了一批获奖作品。在消息写作上,也取得可喜的成果。以改革为内容的消息报
在新课改背景下,教师不断强调对学生的素质教育,注重教学效率的提高.在传统的高中生物课堂中,教师往往采用口述板书的方式,长期以往造成生物课堂死板,抑制学生思维的发展.课
随着教学改革的贯彻实施,高考试题的改革也愈演愈烈,特别是偏理科的生物学科,更加注重对能力和素质的考查,在高考中除了考查基本的核心知识外,理论联系实际,分析综合,实验操
地震勘探是获取地球内部信息的重要手段,是寻找地下矿产和其他资源的基本方法之一。当前,地震勘探技术正向多维、多分量、多参数、高分辨率方向发展,使得地震勘探数据量不断
今年四五月间,新疆记协组织自治区8家地、州、市报负责同志,组成一个学习团,到湖北、江苏、山东3个省的12家地市报社,调查学习了有关新闻改革的情况与经验。大家感到,这次学
Web Services的迅速发展,使得网络资源的共享技术日趋完善,极大地扩展了网络中的可利用服务,为企业业务构建提供了较好的信息支撑。但是服务数量和种类的增多加重了服务选择的复
随着Web服务数量的激增以及用户需求的多样化,手工选择和组合现有Web服务变得越来越困难且效率低下。因此自动化的Web服务选取以及组合技术引起了研究人员的关注和重视。目前
随着世界经济的高速发展,股票市场的规模在不断地扩大,股票市场作为经济的“晴雨表”,在世界经济中呈现出不容忽视的作用。在我国,股票市场已经发展二十多年了,并深入到日常
藏族文化拥有独特性以及完整性,藏族服饰是藏族文化传承中的一种,具有非常鲜明的特点.当代油画教学中倡导发展新的理念,将藏族服饰应用到油画教学中具有非常重要的意义与价值
现阶段福建高考要求生物教学要切实提高学生的综合解题能力.但由于每个学生的成长环境是不一样的,个体之间必然存在着差异,这就要求教师在教学过程中要正视学生间的个体差异,