【摘 要】
:
随着信息社会的快速发展,web数据已经发展成为一种巨大的信息资源。Web信息抽取作为一种从web数据中抽取主题信息的研究内容,是数据分类、自然语言处理等研究领域的基础。因
论文部分内容阅读
随着信息社会的快速发展,web数据已经发展成为一种巨大的信息资源。Web信息抽取作为一种从web数据中抽取主题信息的研究内容,是数据分类、自然语言处理等研究领域的基础。因此,如何准确快速的从海量的web数据中抽取关注的信息变得越来越重要。
本文对web信息抽取的方法进行了研究,并针对研究过程中遇到的问题,提出相应的解决方法。本文的主要研究内容如下:
(1)对已存在的各种web信息抽取算法做出了详细的研究比较。
(2)本文的主要目的是对具有主题信息的主题型网页进行正文抽取,而对于链接型网页不予处理。因此要先判断输入网址的网页类型。本文对两种网页进行了详细的比较,提炼出五个明显的特征,并提出一种基于多特征的网页类型划分方法。该方法利用遗传算法对数据集进行训练求得各个特征的权重,再通过计算网页各个特征的加权和来判断类型。
(3)网页类型划分完成之后,对主题型网页进行正文抽取工作。本文对微软亚洲研究院所提出的基于视觉的分块算法VIPS算法进行了改进,提出了nVIPS算法,并在此基础上提出新的算法对正文标题、正文发表时间、正文内容进行抽取。
(4)对网易、腾讯、人民网等八大网站共800篇文章进行抽取实验。并在相同数据集和运行环境下实现了基于多特征的正文抽取算法以及VIPS算法。通过实验结果对比表明本文提出的方法是快速有效的。
其他文献
不改变现存低分辨率成像系统,通过多帧互有位移、信息互补的低分辨率图像或视频序列获取高分辨率图像的超分辨重构技术,一直是图像处理领域中研究热点之一,在刑事侦察、目标
高性能的应用层组播研究已经越来越受到业界的关注,由于拓扑感知应用层组播能够最大限度地使底层物理网络拓扑与组播覆盖网络相匹配,从而获得更好的组播数据转发性能。拓扑感
随着宽带无线技术的快速发展,包含语音、视频、数据等多业务融合越来越成为未来人们对移动通信的需求。以政府、公司、航空、铁路等部门为用户主体的,具有集团指挥调度的宽带
随着互联网技术的飞速发展,文本文档、Web页面在互联网中快速扩充,如何帮助人们更快捷、有效地获取信息,已成为目前搜索引擎领域重要的研究课题之一。鉴于此,聚类搜索引擎应运而
随着因特网的飞速发展,半结构化式的Web数据大量涌现,使得HTML标记语言已经不能满足用户日益增长的需求,XML作为一种自描述的半结构化数据为Web数据管理提供了新的数据模型,
物联网的广泛应用推动了感知技术的发展,同时也促进了作为感知技术核心内容之一的无线传感器网络的研究和发展。随着需求的发展,无线多媒体传感器网络(Wireless Multimedia S
AUC是衡量分类算法性能的重要指标之一,被广泛应用于类不平衡学习、排序学习、异常检测和代价敏感学习等任务中。在线学习凭借其处理大规模数据和流数据的高效性在机器学习领
近年来,随着Internet技术的不断发展,让GIS跨入全新的Web时代,WebGIS的出现让GIS开始走向社会化和大众化。然而,在WebGIS蓬勃发展的同时,我们也看到它仍然面临着严峻的挑战。当前
现实生活和生产中普遍存在着随机因素,由于受到随机因素的影响,使得对问题的求解造成不便。目前对随机条件下的寻优问题,主要从期望值角度、机会测度角度及其他的角度出发,应
物流信息产业是波及范围最广的产业之一,通常由原料供应商、企业客户、生产商、批发商、零售商等多个组织结构所构成,从而形成一条供应链。供应链中的企业间是相互联系、相互