基于本体的Web信息抽取系统的研究与实现

被引量 : 0次 | 上传用户:angelasun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet上信息的迅猛增长,网络已成为最为重要的知识库,人们对高效率的信息获取技术的需求越来越迫切。因此,应用信息抽取技术,从网页中自动地抽取有用信息是智能信息处理的一个重要研究课题。信息抽取系统从Internet上抽取的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。目前,信息抽取技术的研究已成为国际上自然语言处理领域的研究热点之一。本文首先简述了信息抽取技术及其产生背景和发展历史,分析了信息抽取系统体系结构、信息抽取的分类及信息抽取的关键技术和衡量指标。本文还介绍了本体的基本知识,在此基础上,提出了一种基于本体的信息抽取方法。在本方法中,将信息抽取和本体结合起来,利用领域本体里的概念、关系、关键字等自动生成抽取规则,对文章,句子进行语法分析预处理,再利用语法分析的结果和先前生成的抽取规则一起对文档进行信息抽取,最后将抽取的结果以记录的形式输出。本文根据上述方法并结合工程实际情况,设计了一个基于本体的Web信息抽取系统并编写代码实现了这个系统。本文详细论述了系统的总体框架,系统的各主要模块的设计等。由于本系统是结合本体进行信息抽取的,所以本文还着重说明了如何使用DOM来解析OWL本体,并针对OWL本体类和属性的特点,提出了一种新的存储模式。本文还详细说明了本系统的实现方法,包括各个主要部分的数据结构,流程图等。最后利用此系统对一些样本进行抽取并对抽取后的结果进行了分析。
其他文献
从分析职教学生写作水平不高的原因入手,如学生整体素质的低下以及教材、教师本身的问题,针对这些问题并提出了几点看法,以期有利于职教语文写作教学效率的提升,即培养职教学
目的探讨低聚果糖(FOS)和植酸(PA)对小鼠矿物质吸收的影响及相互作用。方法FOS分为3个水平:0g/(kg.bw)、0.8g/(kg.bw)和2.5g/(kg.bw);PA分为2个水平:给予和不给予1%的植酸饲
中国古典园林的声境有着鲜明的独特性,在漫长的发展过程中形成独特的营造方式和手法,以其独特的美感和情境交融的特色在世界上独树一帜,是中国古典园林艺术辉煌成就的有机组
背景:目前艾滋病在全球迅速蔓延,HW检测咨询服务作为艾滋病防治工作的一项组成部分,意义重大。由医务人员主动提供的HIV检测咨询服务作为HIV检测咨询的一类服务形式,因其主动
目的探讨老年严重子宫脱垂伴全阴道膨出手术治疗的方法及疗效。方法对2008年7月至2011年1月在解放军202医院经阴道全子宫全阴道切除术治疗25例Ⅲ度子宫脱垂合并阴道膨出患者
企业安全文化建设应包括内部优化与外部耗散两个方向。从内部优化视角分析,企业安全文化系统应包括企业安全文化领导系统、企业安全文化动力系统、企业安全文化传播系统三大
本文以江苏省财会技能大赛项目为抓手,结合教学实践,分析了会计技能教学的现状,介绍了技能大赛与会计技能教学有效融合的"四化,四提高"策略,将技能大赛的内容融入课堂教学,推
罪犯人性化管理是行刑文明的体现,是贯彻我国罪犯教育改造工作方针的要求,对于提高罪犯的积极性和罪犯教育改造质量有重要意义。在罪犯人性化管理中,应准确把握罪犯人性化管
随着办公信息化的发展,电子档案的数量逐年增加,档案管理机构已经开始对电子档案的管理进行深入的分析和研究。加强对电子档案的管理,可以更好地利用电子档案,迅速提高档案的
西方女性主义翻译理论四女性主义与译学结合的产物。作为其中一个分支,性别差异不但见于描述翻译的隐喻,而且贯穿于翻译实践,表现在女性借以理解和从事她们的写作活动的特定