基于ontology的信息抽取系统的研究与实现

被引量 : 0次 | 上传用户:leon_xu23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Intenet的快速发展,web已经成为跨全球的信息源。使用传统的搜索引擎,用户要精确地找到所需信息往往十分困难。提高搜索引擎准确性的一个主要途径是使其在某种程度上理解信息源的内容。基于此,本文提出一种基于ontology信息抽取技术,它把ontology和信息处理技术结合起来,是现在信息抽取研究的一个热点,其最大的优点是对网页结构的依赖很少,只要事先创建的应用领域ontology足够强大,系统可以对该应用领域中各种文本实现信息抽取。这项技术对网络资源的分类、登记建档及进一步的监管和过滤具有重要意义。本文首先介绍了信息抽取技术及其产生背景和发展历史,分析了信息抽取系统体系结构、信息抽取的分类及信息抽取的关键技术和衡量指标,然后介绍了ontology的基本知识。在此基础上,本文提出了一种基于ontology的信息抽取新方法。在本方法中,把信息抽取和ontology结合起来,先利用领域ontology里的概念、关系、关键字等自动生成抽取规则(Rule),然后对文章、句子进行语法分析预处理,再利用语法分析的结果和先前生成的抽取规则一起对文档进行信息抽取,最后把抽取的结果以记录的形式输出。根据上述方法并结合工程实际情况,设计并实现了一个基于ontology的信息抽取系统。在本文中,对系统的总体框架、系统的各主要模块功能、基于Lex的信息抽取规则及自动产生抽取规则的算法进行了逐一阐述。在系统的实现中详细介绍了本系统的实现方法,包括各个主要部分的数据结构,流程图等。最后利用此系统对一些样本进行抽取后的结果并对结果进行了分析。
其他文献
通过对不同规格螺旋桩基础进行现场试验绘制出的各螺旋桩的Q—S曲线,判断得出各螺旋桩抗压承载力.再结合Q-S曲线,以叶片直径、叶片个数、桩径以及降水情况作为影响因素,讨论各影
根据第六届全国大学生工程实训大赛“双8字形”比赛项目的要求,设计并制作基于空间四杆机构的“双8字形”无碳小车。通过对小车轨迹基本规律计算,设计小车基本构件的相关数据
本课题研究了骨组织工程的三个基本要素:细胞支架、种子细胞和细胞因子,探索了采用机械化学法合成纳米磷酸钙颗粒,采用有机泡沫浸渍法构建纳米磷酸钙生物玻璃复合骨支架;探索了胎
张家山汉简中《二年律令》里的户律、傅律、置后律的内容与《唐律疏议》中的户婚律内容基本一致,但汉律律文性质多为民事性质与唐律的刑律有很大不同。本篇论文以实证研究的
施叔青是港台颇有影响的一位女作家,特别是她的“香港三部曲”堪称是对香港百年历史的寓言式书写。本文对施叔青的“香港三部曲”进行了深入的解读,从香港——被异化的“他者
论文对攀钢新1、2#焦炉四大机车计算机控制系统的技术实现进行了阐述。重点讨论了以下几个问题:1、使用编码电缆与计算机配合的长距离精确位置检测技术,解决攀钢煤化工公司新
城市快速路是城市道路网的主骨架,是城市交通的主动脉,但是近几年交通拥挤问题日益突出,严重影响了城市交通效率的发挥。本论文以城市快速路系统交通拥挤的直接起因——交通
对航空发动机低压涡轮单元体智能对接关键技术进行探讨。针对传统人工+吊车并使用专用工装的装配方法存在的装配过程一致性和稳定性差、装配效率低等问题,应用智能机器人技术
当今运用互联网进行交易,已成为企业另一条新的销售通路,举凡企业对企业电子商务或企业对消费者电子商务,都广泛地利用网络搜集信息及进行交易。不过,商机背后仍存在有交易争执的
道路交通安全问题已经成为全球关注的话题,交通事故不仅影响到人类的生命安全,而且会给整个社会带来严重的经济损失。在全世界发达国家和一些发展中国家交通事故处于下降的情