基于开放语料库的模式自动生成的设计与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:pig2540840
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文首先介绍了信息抽取和模式生成领域的研究现状和发展方向,对典型的模式生成系统进行了比较和分析,然后讨论了在本系统所使用的关键技术、系统的总体框架和具体实现,随后分析了该方法在投资领域中的测试结果,并和国外的其他几个类似系统进行了比较。最后总结并对其存在的不足之处进行了讨论。 本文提出了一种基于开放语料库的模式自动生成方法。该方法借助于模式和实例之间的二元性,从一个较小的种子语料库和种子模式库出发,不断地从网络上查找新的语料。并利用语料自身所包含的信息来判断语料的正反性,从正例语料中生成新的模式,用反例语料对生成的新模式进行评价。 本文还着重研究了由于采用开放语料库而引出的对新实例的正反性判断问题。本文通过对单词/短语在不同位置的权重统计模型,并结合语句中的命名实体来对语料进行正反性的判断。测试结果表明该方法达到了和国外类似系统相当的准确度。 作者将这种方法应用到投资领域,设计并实现了一个小型的模式自动生成和信息抽取系统。该系统采用Jbuilder7.0开发,用XML 1.0构建模式库,用中科院计算所ICTCLAS汉语词法分析系统对语料进行切分,词性标注和浅层句法分析。
其他文献
随着Inernet技术的飞速发展,人们对数据通信、信息共享的需要日趋膨胀.传统的通信网主要提供话音业务,而今后的通信网将主要以传送数据和多媒体业务为主.基于软交换的下一代
随着科学技术的不断发展,大尺寸、高分辨率的显示设备在我们的日常学习、生活和工作中越来越普及,基于大屏幕的交互方式研究逐渐成为人机交互领域的研究热点。微软的Kinect体感
Web服务是一个封装成实体并发布到网络上以供其他程序使用的功能的集合,Web服务运行时,用户无需知道服务的实现机制,只需要知道服务接口即可实现服务调用.随着网络技术的衍生
该文提出了如何将具有各种运算符的正则表达式转化为查询自动机的方法.针对XPath规范中规定的"∥"操作符,即祖先—后代关系操作符,我们提出了一个称为模式自动机(Schema Auto
随着互联网技术的不断发展,不规范的网络行为业已成为一个很大的问题,必须对网络行为实施有效的管理和控制.网络行为监测技术是一个很有效的手段.但目前已有的网络行为监测方
随着电信产业的迅速发展,对电信网络的有效管理成为亟待解决的问题。研发通用的电信网管平台,通过计算机网络宋管理电信网络是可行的办法。通用网管平台理论上借鉴TMN规范;技术
随着移动终端设备和移动互联网络技术的快速发展和大规模应用,移动平台面临的信息安全威胁正愈发严峻。获得一个可信赖的移动计算执行环境以保障信息资产的机密性、完整性、隐
随着因特网技术的快速发展和企业信息化的不断加强,迫切要求总公司、分公司及移动用户之间的信息快速传递,以增强企业的竞争力.移动公司GPRS网络数据业务为这种需求提供了支
目标识别是智能化多源数据/信息融合中的重要组成部分,不仅是战场态势与威胁估计的基础,也是战场决策的重要依据.该文研究了数据融合系统中具有自适应推理能力的目标识别技术
随着中国移动用户的爆炸性增长,以及通信事业的迅猛发展,移动网络不断的延伸、扩容,这就使得网络规划问题显得日益突出.如何在保证网络服务等级(GoS)的前提下尽可能的降低成