一种Web页面主题信息获取方法的设计与应用

来源 :北京大学 | 被引量 : 0次 | 上传用户：cjrck

【摘要】

：

Internet技术的飞速发展和万维网在世界范围内的普及，使Web中包含的信息以惊人的速度增加着，Web成为了当代社会重要的信息来源。由于Web上信息的海量性，使得以往靠人工采集的方

【作者】

：

舒文兵

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2006年期

【关键词】

：

信息提取 HTML树视觉特征后缀树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Internet技术的飞速发展和万维网在世界范围内的普及，使Web中包含的信息以惊人的速度增加着，Web成为了当代社会重要的信息来源。由于Web上信息的海量性，使得以往靠人工采集的方法显得效率低下，迫切需要一种能自动从Web上提取信息的技术，于是Web信息提取成为近年来研究的热点之一。 Web上信息载体的表现形式为Web页面，即网页，但每个网页的版面各异，各种信息分布在网页版面中的不同板块之中，含有主题信息的板块往往夹杂于各种噪音信息块之中，比如新浪新闻网页中的新闻内容板块周围存在着一些导航、广告、版权等信息块等。如何准确识别网页中主题信息所位于的信息块并自动提取出网页的主题信息，在Web信息提取领域中具有重要的应用价值。本文提出了一种新的Web页面主题信息块自动识别和提取方法，主要工作包括以下几个方面：首先分析了网页的结构特征，在构造HTML树的基础上设计了一种基于视觉特征的Web网页主题信息块的自动识别方法；其次通过分析主题信息块的内部结构特征，设计了一种基于后缀树的网页主题信息的提取方法。最后探讨了本文提出的方法在方正雷达系统和元搜索系统中的应用情况。

其他文献

社交网络用户分类与社区挖掘算法研究

社交网络(Social Network)是一类可以帮助用户建立好友关系网络，并且可以在好友间分享爱好、兴趣、活动和状态等信息的网络应用服务。近年来，随着互联网等信息技术的发展，微博、

学位

社交网络用户分类挖掘算法

基于.NET下Web服务的网络学习系统模型及其应用研究

随着Internet技术的发展，如何充分利用网络的特性，解决IT系统开发和应用中的各种问题，如：建立可维护、可扩展的站点，开发高效率、高伸缩性的应用程序，创建N层分布式应用程序，实现Web

学位

Web服务SOAPWSDL.NET FrameworkASP.NET

基于H.264/AVC的码率控制技术分析与优化

视频压缩技术是多媒体技术的关键。在过去的20年中，ISO/IEC和ITU-T分别制定了MPEG-x和H.26x系列标准用于数字视频的压缩。在2003年，由它们联合组成的JVT小组共同制定了最新一代

学位

码率控制率失真优化感兴趣区域量化参数宏块级

基于人工免疫系统的Android恶意应用检测技术研究

基于Android操作系统的手机、电视、汽车、路由器等智能设备越来越多，使移动互联网越来越多的渗透到人们生活、工作、学习中的方方面面。移动互联网给人们的生活带来了极大的

学位

人工免疫系统否定选择算法Android系统恶意应用检测

基于活动轮廓模型的肝脏CT图像处理应用研究

图像分割在医学应用中具有特殊的重要意义，它是医学图像处理的关键－步，是一个跨越医学和计算机科学的综合性研究课题。本文选择了基于边界的活动轮廓分割算法。活动轮廓模型引入

学位

图像分割CT图像肝脏活动轮廓轮廓提取

蚁群算法在复杂地形下路径规划的研究和应用

避障路径规划是工程设计中一项重要的环节，其应用范围涉及我们的生活、工作、科研和娱乐等等方面。比如在车辆出行系统，舰船导航系统，敏捷运输问题，工程进度规划，三维游戏和虚拟战

学位

路径规划三维空间避障路径规划蚁群算法

关于图形裁剪算法的研究

计算机图形技术正越来越广泛地应用在各种领域，在具体应用中，每一幅图形都由成百上千条直线和曲线构成，这样对于每一条直线或曲线的处理速度和质量就极大地影响着整幅图形的处理

学位

基础算法裁剪投影二维空间三维空间计算机图形技术

数据仓库技术在房地产CRM中的应用研究

当今世界充满了激烈竞争，为了扩大更大市场，企业必须从过去单纯提高产品的质量转变到提高服务质量，对客户信息进行多方面分析，以便做出决策，最大限度的保留客户，这就是客户关系管理

学位

CRM数据仓库数据挖掘房地产

有效对等网搜索模型研究

资源搜索是随着世界范围内Internet的发展而产生的。但是，随着Internet以及WWW技术的迅猛发展，导致其所蕴涵的信息量急剧的膨胀。面对如此庞大的信息量，目前普遍采用的基于中央

学位

有效对等网搜索模型分层搜索平台

虹膜识别中的噪声检测

以信息化、数字化、网络化为特点的社会的发展对国家以及社会生活安全性提出了全新的要求,在这种环境下,传统的安全技术呈现出无法解决的重大缺陷。而生物特征认证技术是解决

学位

虹膜识别边缘检测抛物线Hough变换灰度极小值

一种Web页面主题信息获取方法的设计与应用

与本文相关的学术论文