数值信息的抽取方法研究

来源 :山西大学 | 被引量 : 11次 | 上传用户:fish5191418
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数值信息是文本中事件或实体的一些特定的附加信息,与实体的表现形式类似并以其属性为特征出现的。数值信息分为两类:一类是描述实体特征的值,比如分数、货币数以及一些电话号码和域名信息等;另一类是描述事件特征的值,比如对于犯罪这一事件,其中该犯罪事件的罪名、判刑期限,就是我们要抽取的数值信息,再比如在发生人事调动事件时,发生变动的职位信息也属于数值信息的范畴。数值信息的抽取也是中文信息抽取中的又一重要研究方向,它对自然语言处理的许多领域都有极其重要的研究意义,比如机器翻译、问答系统、信息检索等方向。目前国内的研究主要集中在对事件以及命名实体的抽取上,对该方向的研究并不是很多,其抽取方法也同样集中在两个方面,一是基于规则的方法,根据数值信息本身的特点以及上下文环境,结合内部和外部的特征制定相应的规则进行抽取,虽然准确率很高但可移植性不强。另一方面是基于统计的方法,最常用的就是HMM、Entropy Model还有CRF等,统计的方法大多是基于模型的方法,可移植性强,相对付出的代价小,因此也是自然语言处理中常用的方法。本文的主要研究工作有以下几个方面:(1)用1998年1月份人民日报语料作为测试语料,搜集要抽取的第一类数值信息的特征,挑选出合适的特征并建立规则集。(2)对于第二类数值信息,从语料中找出可以决定事件发生的触发词,并抽取该触发词的上下文特征,利用决策树的方法找出确定含有目标词的语句。(3)对抽取出的语句进行预处理,只保留分词后的结果,构建文本集。利用Stanford parser对文本集进行句法分析,生成句法树以及句法树的文本表示。(4)从句法树中找出要抽取数值信息的特征,从而进行相应的抽取,并对实验结果进行分析。本文中对两类数值信息分别采用不同的方法进行处理。对于有关实体特征的数值信息,由于特征明显我们使用规则的方法进行抽取;对于有关事件特征的数值信息,由于规则性不强,我们采用决策树和句法分析相结合的方法进行研究,实验结果表明该方法是可行的,在封闭测试中准确率和召回率均在70%左右,达到了比较好的结果。最后,本文对实验中的错误实例进行分析研究,找出问题所在并提出了相应的解决方案。在今后的研究中将会进一步扩大语料规模,对数值信息的抽取做更深入的研究。
其他文献
在当今信息时代,社会和个人对于数字信息保护及各种安全服务的需求越来越高。密码学为解决这些问题提供了关键技术,根据不同的应用场景设计了与之对应的密码学协议。在这些协议
当前随着病毒等恶意程序变得越来越复杂,保护计算机系统变得越来越困难,有时仅仅检测到这些恶意程序已经非常困难,而对某些恶意程序来说,清除它们而不破坏原有系统是不可能的
大规模水域的实时绘制不仅仅在计算机图形学、虚拟现实、网络游戏以及电影制作等众多领域具有很高的研究价值,并且对于海洋学、流体力学、水力学、波动力学等学科的发展都具
大规模真实感三维地形绘制技术在现实生活和虚拟世界中都具有非常重要的应用,人们对它的研究也在不断的深入和发展。如何实时、高效地绘制真实感三维地形是一个非常复杂的过
目前的人脸图像信息处理领域中,主要包含有人脸检测、人脸跟踪、人脸识别、表情识别等多个方向。视频序列中的人脸检测与跟踪是计算机视觉和模式识别领域的一个研究热点。它是
流体是自然界普遍存在的物理形态,流体仿真技术在游戏、影视、虚拟现实等领域有着广泛的应用。过程化流体简单、高效,能使美工人员不受束缚地发挥想象力。而基于流体力学的流体
不确定性问题知识表示和推理是人工智能领域中一个研究热点之一。贝叶斯网模型是解决这类问题的一个重要而有效的模型,它是图论与概率论相结合的产物,具有深厚的理论基础、清晰
由于矿井的环境恶劣,矿井生产安全一直是人们十分关注的问题。如果能够实现对井下工作人员的正确定位跟踪,使地面监控中心实时掌握井下人员的位置,随时保持联系,实现人员的调
随着科学技术的飞速发展,Internet已经融入了人们的生活,方便、快捷的特性使得它倍受青睐。然而,Internet的安全性成为了很大的问题。DNS是Internet上不可或缺的基础设施之一
近年来,我国食品安全领域多次出现问题,严重危害社会的发展和广大人民群众的利益。随着人们对食品安全问题越来越关注,消费者迫切需要有一个食品安全保障体系,能使食品生产和流通