Web网页正文抽取方法研究

被引量 : 0次 | 上传用户:k60775
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,WWW已发展为一个庞大的信息空间,为人们供了极其丰富的信息资源。然而一个网页的正文四周,通常会夹杂着许多与正文不相关的“噪音信息”,这些内容往往对人们浏览网页造成干扰。如何帮助人们提取出网页正文,避开不相关的信息干扰,对于Web数据清洗、文档自动摘要的形成以及文档分类等诸多领域的应用都是非常有意义的。本文对DSE(Data-rich Sub-tree Extraction)算法进行分析,提出了一种改进的基于网页结构和内容的网页正文抽取算法——DTE(DOM-Based TextExtraction),设计并实现了一个网页正文抽取原型系统,并将该算法应用到其中。DTE算法弥补了许多已有算法只关注网页结构或只关注网页内容的不足,同时考虑网页的结构和内容。DTE算法在把网页解析成DOM树的基础上,通过对DOM树的节点比较和匹配,确定网页的噪音信息节点和正文信息节点,从而精确获取网页模板。当新网页出现时,使用得到的网页模板去除大部分噪音信息后,结合语义,准确抽取正文信息。文中采用了一定的算法,定位出网页的评论、采用语义去除无关图片,能使保证正文图片和表格的完整性。实验表明,该方法可取得较高的准确率和完整性,能有效地抽取网页正文信息。
其他文献
学校管理中,为了督促和管理学生,加强考勤管理是一种非常必要的手段。传统的手工课堂考勤管理存在效率低、信息分散、实时性差以及难于统计等问题,基于此,利用校园WiFi网络与
浙江省舟山沈家门港海底隧道为国内第一座人行海底沉管隧道。文章针对大坡度细柔沉管隧道的特点,合理选用沉管结构断面、划分管节长度、精细布置各种附属结构、严格控制压浆
意大利文艺复兴是欧洲近代文化的重要源泉,是欧洲由中世纪的等级社会向近代市民社会过渡的重要时期。在这一时期中,文化的发展呈现出了多样性。不同等级从不同的利益出发,对
交通信号灯控制是通过对交通流量的控制以达到改善人和货物的安全运输,提高运营效率。交通系统是一个具有随机性、模糊性和不确定性的复杂系统,建立数学模型非常困难,有时甚
近日,最高人民法院、最高人民检察院、公安部以及国家安全部和司法部这五部门联合发表了《关于办理刑事案件严格排除非法证据若干问题的规定》,这一司法解释进一步善了刑事诉
砌体结构在我国是一种使用颇广的结构形式。在今年的汶川地震中,中小学校舍破坏严重,学生伤亡人数较多。而现有中小学校舍相当一部分未考虑抗震设防,有些虽然考虑了抗震设防,
众所周知,政府绩效的高低与公务员的努力程度是成正比的。为了能够让公务员在工作中取得更大的绩效,就需要调动一切激励因素来提高公务员的积极性、主动性和创造性,充分发挥
【正】自赴江、浙、沪培训考察之后,静下心来,回顾整个学习过程,不论是通过培训学习还是现场教学、实地考察,都深深感到这是一次学习之旅、思考之旅:通过实地考察和对比,不仅
创立于1996年的凤凰卫视,将新闻评论节目视为频道的立台之本、强台之路,不断创新,个性鲜明,旗下的多个新闻评论节目深受观众和电视业界的欢迎。本文从凤凰卫视评论节目的创办