论文部分内容阅读
论文首先介绍了信息抽取和模式生成领域的研究现状和发展方向,对典型的模式生成系统进行了比较和分析,然后讨论了在本系统所使用的关键技术、系统的总体框架和具体实现,随后分析了该方法在投资领域中的测试结果,并和国外的其他几个类似系统进行了比较。最后总结并对其存在的不足之处进行了讨论。
本文提出了一种基于开放语料库的模式自动生成方法。该方法借助于模式和实例之间的二元性,从一个较小的种子语料库和种子模式库出发,不断地从网络上查找新的语料。并利用语料自身所包含的信息来判断语料的正反性,从正例语料中生成新的模式,用反例语料对生成的新模式进行评价。
本文还着重研究了由于采用开放语料库而引出的对新实例的正反性判断问题。本文通过对单词/短语在不同位置的权重统计模型,并结合语句中的命名实体来对语料进行正反性的判断。测试结果表明该方法达到了和国外类似系统相当的准确度。
作者将这种方法应用到投资领域,设计并实现了一个小型的模式自动生成和信息抽取系统。该系统采用Jbuilder7.0开发,用XML 1.0构建模式库,用中科院计算所ICTCLAS汉语词法分析系统对语料进行切分,词性标注和浅层句法分析。