基于HTML的Web信息抽取技术的研究与应用

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yztc_yztc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着科技的进步和Internet的不断发展,互联网开始逐渐成为现代人了解世界的重要媒介,同时网络上的信息每天都在更新,如何才能批量而精准的获取网络媒体中的新闻和文章等信息并将其转化为结构化的记录呢?Web信息抽取有望帮人们解决这些难题,但是现有的信息抽取技术大多是采用半自动化的方式建立的,抽取规则的建立需要大量的人工参与,针对这一问题笔者结合新闻类型的网页对信息抽取技术展开研究。本文先根据url和关键词完成目标网页的定位,后抽取新闻列表页的列表信息和新闻正文页的正文内容,结合人工智能思想和已有的Web信息抽取技术进行以下几方面的工作:1.从首页逐级定位到目标网页一般很难塑造出某种模型,所以考虑将文本聚类中的语义相似度算法应用到该过程中,将用户输入的描绘目标网页类别的关键词与各级导航栏中的栏目名称进行相似度计算,建立自动探测目标网页的模型,从而实现这一过程的自动获取。2.为了更好的分析和研究新闻信息列表页的抽取,将HTML格式的页面转换成为XML格式的文档,获取每个节点的XPath路径,利用新闻信息列表页中的某些特征作为输入层的神经元信息建立BP神经网络模型,通过训练样本得出待抽取信息所在路径的最优解,最终达到信息列表页的信息抽取。3.从新闻正文页转化而来的XML文档入手,充分利用每一行的文字密度比这一显著特征建立BP神经网络模型,凭借神经网络模型优秀的机器学习能力,实现统计学思想与信息抽取的完美结合,并在其基础上建立正文页的抽取规则。4.设计并建立信息抽取的原型系统,选取国内多家新闻类型的网站对系统进行测试,验证抽取性能,并对算法进行优化。
其他文献
计数量词作为一种增强表达的方式,加入到图模式匹配中可以更加准确地描述客观世界。通过简单地在查询图的边上附加计数量词可以很自然的表达出全部和存在量化表达,比例和数量
随着计算机电子技术与自动控制技术的发展,智能化移动平台越来越广泛地应用于军事、民用和科学研究等诸多领域。自主式车辆作为20世纪伟大的发明之一,也日益成为各国高科技战略
随着互联网的发展以及网络应用技术的飞速发展,网络多媒体应用已经成为Internet应用中重要的一种。多媒体信息由内容上下相关的文本、图形、图像、音频和视频等数据成份构成,
随着宽带技术的不断发展和网络多媒体技术的日益完善,电信、联通等运营商纷纷推出流媒体业务平台。CDN作为流媒体平台的承载技术可以提供可靠的流媒体服务,但运营成本太高且
本文总结了过去两年作者在扩展“Linux实时抢占补丁”方面所从事的研究与开发工作,包含了作者对该项目所作的贡献。本文在深入分析其实现原理之后,介绍了其在MIPS(龙芯)平台
无线传感器网络(Wireless Sensor Network,WSN)由大量传感器节点组成,能够协作地完成信息的实时监测、感知和采集,并对数据进行处理,传送到用户终端。在无线传感器网络中,数
随着互联网的高速发展,信息化成为当今世界发展的潮流,网络化也是教育发展的趋势之一。高校招生报名信息管理一直是高校管理工作中的一个重要组成部分,是一项细致而复杂的工作。
VPN(Virtual Private Network,虚拟专用网络)是随着互联网的广泛应用而快速发展起来的一种新型网络技术,用于在公用网上搭建个人私有网络。随着企业规模的日益扩大,VPN技术在
随着教育的发展,传统教学模式已经无法满足当代对人才进行个性化教学的需求。翻转课堂的出现改变了原有的教学模式,它通过翻转教师和学生在课堂上的角色来激发学生主动学习的
20世纪最后20年至今,互联网的发展和普及为人们提供了一个全新的信息存储、加工、传递和使用的载体,网络信息也迅速成为社会成员获得知识和信息的主要渠道之一。传统的信息检