面向信息抽取的ontology设计与实现

被引量 : 0次 | 上传用户:yaya1717
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,Web 成为了网络信息的主要平台,是人们获取知识的主要来源。但是,由于Web 页面的无结构性、超链接的自由无序、以及Web 内容的海量性、多样性和动态变化,人们从Web 上搜索真正想要的信息其实并不容易。从长远看,解决上述矛盾的根本方法就是变无序数据为有序知识,让计算机能够理解Web 信息,同时理解使用这些信息的人。Web 创始人Tim Berners-Lee于1998 年提出了Semantic Web(语义Web,或语义网)的构想,它是当前Web的扩展,其中的信息被赋予定义良好的含义,使计算机可以理解,从而和人更好的协作。为了将目前无序的Web 改造成有序的计算机可理解的知识宝库,语义Web采用多层次的表示框架,ontology 位于从文档描述到知识推理转折的层次,因此ontology 的构建是实现语义Web 的关键环节。 ontology 就是用来描述某个领域(领域ontology)甚至更广范围(通用ontology)内的概念以及概念之间的联系,使得这些概念和联系在共享的范围内有着明确唯一的定义,达成一种共识,这样人和机器之间就可以进行交流。将ontology 和信息抽取技术相结合,基于ontology 的信息抽取最大的优点是抽取对Web 页面的结构没有依赖性。利用ontology 来描述和表达信息抽取的知识库,增强抽取模板的语义表达能力,将信息抽取的重点放在特定的领域,可以大大提高信息抽取的准确率。基于ontology 的抽取方法能将单词映射为概念实体,更加准确地体现文字的真实语义,同时通过ontology 的类继承关系可以体现单词与单词之间天然的联系,使原来基于关键字的信息抽取的功能大大增强。本文将基于ontology 的信息抽取技术应用于股票信息抽取。建立起股票ontology,利用领域ontology 中的概念、关系、关键字自动生成抽取规则,在对文章进行预处理后,利用生成的抽取规则对文章进行抽取,最后把结果存入数据库中,为用户提供查询和统计功能。本文首先介绍了信息抽取技术及其产生背景和发展历史。接着对语义Web和ontology 理论进行了较为全面和完整的介绍。在对从事研究所涉及的技术背景进行阐述后,第四章详细介绍了本项目基于ontology 的股票信息系统的框架结构和各部分的功能,并给出了一个实际抽取的例子。
其他文献
随着时代的发展和社会的进步,数学的教学也倡导在教学过程中采用创新的教学方法,培养学生创造性思维的教学方法使得学生的学习能够自主探索。它更有利于培养学生的探究能力和
目次一、集体成瘾?二、强迫性增长和金融危机(一)因果影响还是强迫性增长?(二)沟通中自我摧毁的增长动力学三、宪法时刻(一)触底反弹(二)微观结构上的宪法化(三)魔鬼(devil)
在点源污染逐步得到控制后,面源污染问题日益突出,在一定程度上已经严重影响到中国生态环境健康、良性发展,甚至在一定程度上制约了中国经济社会的可持续发展。结合30多年的
本试验旨在研究维生素E对秦川牛细管冷冻精液品质和精浆中抗氧化酶活性的影响。在稀释液中分别添加0.00、0.02、0.04、0.06、0.08、0.10 mg.mL^-1的维生素E,将细管冻精解冻(37
信访权利是公民的基本民主权利,有其权利界限和范围,信访人在此限度内行使权利,是信访权行使的正当性价值要求。涉法上访是信访权利的滥用,已成为影响社会稳定的重要因素,其
红豆杉是一种珍贵的药用植物,富含紫杉醇,以及其它紫杉烷类化合物,但在成分多糖的提取纯化研究上尚无先例。本文以红豆杉叶为原料,进行了系统的提取和纯化研究,并对其中一单
煤炭作为一种能源矿产,是工农业生产和社会经济发展必不可少的物质基础,是社会财富的重要源泉。煤炭资源的开发利用在给人类带来巨大经济效益的同时,不可避免地对煤矿区生态
中药现代化面临的主要问题是物质结构的鉴定、有效成分筛选以及中药药理的建立。现代药物筛选手段并不适用于多成分、多靶点、组合药效的中药活性成分筛选,因此针对中药的筛
胃癌在世界上的恶性肿瘤中占第二位,在我国居各类恶性肿瘤之首。尽管胃癌病因复杂,但是这些因素最终都在不同阶段作用于不同基因,引起相关基因的结构及表达水平改变,这些基因