基于ontology的中文信息抽取系统的研究与实现

被引量 : 0次 | 上传用户:shengbangcl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先介绍了信息抽取技术及其产生背景和发展历史,分析了信息抽取系统体系结构、信息抽取的分类及信息抽取的关键技术和衡量指标。本文还介绍了ontology的基本知识。在此基础上,本文提出了一种基于ontology的信息抽取新方法。在本方法中,我们把信息抽取和ontology结合起来,先利用领域ontology里的概念、关系、关键字等自动生成抽取规则(Rule),然后对文章,句子进行语法分析预处理,再利用语法分析的结果和先前生成的抽取规则一起对文档进行信息抽取,最后把抽取的结果以记录的形式输出。 在本文中,我们根据上述方法并结合工程实际情况,设计了一个基于ontology的信息抽取系统并编写代码实现了这个系统。因此在本文中,我们详细介绍了系统的总体框架,系统的各主要模块的设计等。由于本系统是根据规则进行信息抽取的,所以本文还着重说明了一种基于Lex的信息抽取规则,介绍了它们的语法、抽取信息的方法以及自动产生抽取规则的算法等。 我们还详细介绍了本系统的实现方法,包括各个主要部分的数据结构,流程图等。最后利用此系统对一些样本进行抽取后的结果并对结果进行了分析。
其他文献
在中国的部分上市公司,由于董事会的“大股东控制”和“内部人控制”一度导致资本市场上利益冲突在1999年后极度激化,政府主导了董事会结构制度变迁并于2002年1月1日倡导正式实
胃癌是消化道最常见的恶性肿瘤,死亡率名列前茅。癌症致死的主要原因是癌细胞的转移,癌细胞的转移途径有:1、直接蔓延;2、种植性转移;3、血行转移;4、淋巴管转移,其中肿瘤细
<正>现代的多方位研究提示:穴位的功能活动是一个动态的概念,在生理状态下以"沉寂"为主,活动微弱甚至感觉不到它的存在,而在病理状态下则具有和生理状态完全不同的特征,穴区
跳频通信具有很强的抗干扰、抗衰落、抗截获能力,兼有能多址组网应用等诸多优点,在现代军事通信尤其是战术抗干扰电台当中,跳频通信技术获得了广泛的应用,用以保障部队在恶劣
目的: 研究膝关节骨关节炎(Knee Osteoarthritis,KOA)患者血清中TSF-α和IL-6水平与骨关节炎的病变严重程度的关系,探讨TNF-α和IL-6在骨关节炎发病中的作用及其在临床上反映
目的:研究环氧合酶-2(COX-2)和基质金属蛋白酶-2(MMP-2)的表达以及与胃癌浸润转移的关系,探讨二者间的相互关系。 方法:采用SP免疫组织化学技术,取武汉大学人民医院病理科存档
目的改进《中国药典》2010年版二部中盐酸金刚烷胺颗粒鉴别(1)和含量测定项的方法。方法将鉴别反应样品前处理取样量改为"相当于盐酸金刚烷胺0.01g,加水5m l溶解";含量测定改
本工程为印度古德洛尔一期2&#215;600MW机组锅炉汽包安装,锅炉采用哈尔滨锅炉厂制造的亚临界强制循环汽包炉、四角切圆燃烧方式。汽包吊装通道宽度23500mm小于汽包总长度2794
为了解决天然气资源利用问题,我国在广东、福建等沿海地区开始布局液化天然气(LNG)接受站,从国外输入LNG。LNG从输出地到输入地需要通过LNG船运输。为了解决LNG的运输需求,需要
本文总结了近年来我校木瓜蛋白酶的研究及应用进展。1)对国产木瓜乳汁粗酶进行了分离与纯化,得到了重结晶的木瓜蛋白酶和木瓜凝乳酶,结晶分别为柱状和针状;2)为了提高木瓜蛋