基于SALmap方法的属性抽取的研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:benq702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网等新兴媒体的迅猛发展,如何从海量的网页文档中及时准确地找到需要的信息已经成为一个亟待解决的问题,传统搜索引擎在性能和用户体验上受到了较大的挑战,以互联网属性抽取技术为核心的研究正是在这样的背景下发展起来的。属性抽取技术具有非常广泛的应用。它可以应用于信息检索之后对相关的实体进行指定属性信息的抽取,使信息查找过程变成信息理解过程,从而把传统的信息检索系统变成智能系统,以用户更满意的方式输出信息。也可以将信息抽取技术应用于数据挖掘、自动问答系统等研究领域,和这些领域相辅相成,共同发展。本文介绍了基于属性标签映射的互联网实体属性抽取的概念、架构与关键技术。针对某些特定类型的实体,即产品,从网页文本中抽取有价值的实体属性信息,提供给用户。由于网页实体属性标签呈现出语义同义性现象,找出属性和标签之间的映射关系是研究的重点,本文提出了SALmap方法,利用正则表达式定义数据格式规则,使用seed方法生成常用候选属性标签集合,对标签集合使用最大熵模型构建属性标签映射,同时,基于得到的属性标签映射,对实体实例数据源区域进行属性标注,最后应用隐马尔可夫模型对实体的相关属性进行抽取。在实验中,针对本系统,对隐马尔可夫模型的相关算法进行了改进,提高了模型的输入参数精度、学习能力和属性抽取的准确度。为了评估互联网实体属性抽取系统及各部分组件的性能,实验改进过程中的性能变化,本文在Java、Eclipse的架构上,进行了基于构建属性标签映射的互联网实体属性抽取的研究,建立了以属性标签模型为基础的领域无关的无监督学习性能评价框架,提高了系统框架的可移植性。最后,本文结合实际应用,使用SALmap方法,搭建了一个属性抽取系统,通过评价系统的性能指标,证实SALmap方法是有效的,能够显著提高页面实体属性的抽取性能。
其他文献
随着网络技术的发展,无线传感网络在不同领域得到了广泛的应用,如军事、医疗、环境保护、交通等方面。无线传感网络的规模也由最初的几十个节点扩大到了成百上千个。面对如此
现今互联网深入到社会各个领域,随着020 (Online to Offline)商业模式盛行,在线业务对于企业日趋重要。由于应用运行环境云端化和在线用户数量日益庞大,不良的应用性能和用户
癫痫作为导致短暂大脑功能障碍的一种慢性疾病,在中国已经成为神经科仅次于头痛的第二大常见病。临床主要表现为痉挛、意识丧失等,会对患者的身心、智力等产生非常严重的影响
随着多媒体技术的发展,视频已成为一种重要的信息载体,视频检索成为一种新的需求。而当前大多数视频检索方法仍基于关键字检索,这种检索方式需要人为定义关键字,既浪费人力也
近两年来,随着深度学习的快速发展,传统方法无法解决的问题正在不断被攻克。特别是在图像、语音和文本领域,深度学习的技术结合更高性能的GPU计算,已经逐渐成为一种趋势。在
在信息化高速发展的时代,信息安全的重要性与日俱增,是世界各国都在面临的一项挑战。口令、IC卡等传统的安全认证方式已经无法满足人们的需求,应需而生的生物特征识别技术已
Web服务具有高度的互操作性、跨平台性和松耦合的特点,使得Web服务在互联网上得到广泛应用。然而用户对Web服务应用要求不断提高,单个Web服务已经不能满足用户的需要。随着Web
随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁。在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广
H.264/AVC是当前最新的视频编码标准,由ITU-T视频编码专家组和ISO/IEC运动图像专家组共同制定。该标准因具有很高的压缩性能和网络亲和性而得到广泛应用,然而这些优点都是以
随着网络的飞速发展和人们需求的快速增长,许多网络商店如卓越、当当网等应运而生。网上购物不但提供了各种各样便宜的商品,并且没有营业时间和空间的限制。用户可以购买任何