面向信息抽取的文本预处理和规则自动学习技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:huiyuanai852
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的快速普及和迅猛发展,网上信息爆炸式增长,如何从中找到真正有用的信息成为人们关注的焦点。作为深层数据挖掘技术的先驱,信息抽取技术可以通过对文本的浅层分析,快速准确地从海量信息源中提取出用户感兴趣的信息,从而成为自然语言处理领域的一个热点研究课题。 信息抽取的任务是从文本中抽取字符串形式的信息,并将此信息填入带标记的槽中,来表明其含义。该技术是许多自然语言处理技术的综合运用,涉及的内容包括文本预处理、文本结构分析、篇章关联推导等。大多数的信息抽取系统都是基于规则进行抽取的。规则库的建立对信息抽取系统的性能起着关键作用。本文对信息抽取中的文本预处理和规则的自动学习技术进行了研究。 在文本预处理方面,本文用有限状态自动机实现了简单实体的识别,可识别的实体类型有金钱、时间、电子邮件、电话、网址、纯数字和其他字符等。自动机的设计充分考虑了各种类别的实体的文本结构特点,在大规模人民日报语料上测试时取得了很好的识别效果。 传统的信息抽取系统由专家手工书写规则,规则库的构造是知识获取的瓶颈问题,规则的知识表示能力也是限制抽取效果的障碍之一。基于一阶谓词逻辑的归纳逻辑编程技术可以自然地描述和学习复杂的关系,非常适合于信息抽取规则中的知识表示和自动生成。本文在归纳逻辑编程的框架下提出了一种多槽规则自动获取方法,解决了信息抽取中知识获取和知识表示的瓶颈问题。规则具有很好的扩展性,且在生成规则时无须传统的语法语义分析和复杂命名实体识别过程,大大降低了对资源的要求。实验结果表明,本方法获取的规则,相较零阶逻辑下的规则,具有更高的准确率和召回率。 根据以上给出的文本预处理技术和规则自动学习算法,我们设计实现了完整的中文信息抽取系统。
其他文献
人脸识别技术,是生物识别技术中一个非常重要的领域。这一技术有着广阔的应用前景和迫切的现实需求。但由于人脸模式的多样性和图像获取过程中的不确定性都导致人脸的检测和
当前Web应用系统的性能已经成为人们关注的焦点。由于手工测试存在致命的缺点,性能测试工具得以广泛应用。这类工具普遍在HTTP/S等多种协议基础上,创建并执行虚拟用户脚本,以
大脑对于语音产生的控制过程是非常复杂的,包括许多的神经控制过程如语音规划、听觉感知反馈和体感感知反馈等。在控制过程中,各个相关的脑区是协同和并行工作的,一个区域的
网格计算是近年来的研究热点之一。它可将高速互联网、电脑、大型资料库、传感器、远端设备等融为一体,实现它们的全面共享与协同工作。由于网格资源有分布性、异构性、动态
MANET网络是一种特殊的无线网络,它由一些移动主机构成,且不需要任何集中式的管理和标准支撑服务。网络中的节点不但具有普通移动终端的功能,而且具有路由的能力。由于无线链
WEB 如同一个庞大的知识库,但其中的知识纷繁复杂、浩如烟海难以使用。WEB 信息集成技术能够对凌乱的WEB 页面进行分析、筛选、集成,为人们提供一个统一的知识视图和访问方式
语义启动效应是指当目标刺激与其之前呈现的启动刺激语义相关时,人对目标刺激的反应更快,响应正确率更高。已有研究通过事件相关电位(Event-Related Potentials,ERP)技术重点
合成物体的阴影生成是当前计算机图像学、计算机视觉中的一个研究热点,它具有十分重要的应用价值。近些年出现的基于三位场景的阴影生成方法通过对某一场景和一前景物体的多
随着移动通讯技术的不断发展,具有彩色液晶屏幕并支持BREW 程序的手机已经出现并且开始被认识和接受,这样使用C/C++语言开发的手机增值应用服务也将会越来越多。由于目前在国
自1991年首次提出数据仓厍概念以来,数据仓库技术有了长足的发展,各个世界著名IT厂商纷纷推出自己的数据仓库产品,现在数据仓库已经广泛的应用于金融、保险、电信等行业,主要