基于本体的Web非规范知识处理中信息抽取技术研究

被引量 : 0次 | 上传用户：heruoss

【摘要】

：

随着Internet的快速发展,互联网的信息以每四到六个月翻一倍的速度迅猛增长,传统的依靠浏览器以及关键字检索查询的搜索引擎已经越来越难满足人们对互联网信息服务的需要,如

【作者】

：

刘艺琴

【发表日期】

：

2005年期

【关键词】

：

信息抽取 Ontology 规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的快速发展,互联网的信息以每四到六个月翻一倍的速度迅猛增长,传统的依靠浏览器以及关键字检索查询的搜索引擎已经越来越难满足人们对互联网信息服务的需要,如何帮助人们准确有效地找出自己所需要的信息资料,已经越来越迫切的摆在我们的面前。针对Internet上文本的半结构化和无结构化的特点,我们在信息抽取中引入了Ontology(本体)的技术,提出了一种基于Ontology,能处理语义的Web信息抽取(Information Extraction,缩写为IE)技术。该技术通过将互联网上以不同形式分散在不同网站上的同一主题的信息收集在一起,并用结构化形式存储,从而为用户提供简洁、准确的信息。信息抽取技术是一种面向具体任务的实用的文档理解技术。与复杂的自然语言理解技术不同,IE技术通常采用浅层的文本分析技术,提取出设计者关注的特定主题领域的信息。该技术适用于具有特定主题及对相对确定的信息结构的文档如广告,新闻,旅游,股票、会议日程等。自动信息抽取技术是近十年来发展起来的。有两个因素对其发展有重要的影响:一是在线和离线文本数量的几何级增加,另一是“消息理解研讨会”(MUC)近十几年来对该领域的关注和推动。根据各种工具所采用的原理将现有的工具分为以下5类:基于自然语言处理方式的信息抽取、包装器归纳方式的信息抽取、基于HTML结构的信息抽取和基于Web查询的信息抽取、基于Ontology方式的信息抽取。基于自然语言处理方式的信息抽取在一定程度上借鉴了自然语言处理技术,利用子句结构,短语和子句间的关系建立基于语法和语义的抽取规则实现信息抽取,该种抽取方法的实现非常复杂,抽取效率也比较低;包装器归纳方式的信息抽取根据事先由用户标记好的样本实例应用机器学习方式的归纳算法,生成基于定界符的抽取规则,该种信息抽取方法需要大量的样本文本。基于HTML结构的信息抽取技术特点是,根据Web页面的结构定位信息,在信息抽取之前通过解析器将Web文档解析成语法树,通过半自动化的方式产生抽取规则,将信息抽取转化为对语法树的操作实现信息抽取,这种信息抽取方法对文本结构的要求比较严格,同一抽取系统只能应用于相同或类似结构的文本;基于Web查询的信息抽取将Web信息抽取转化为使用标准的Web查询语言对Web文档的查询,具有通性。但该种方法需要先把Web信息转化为符合XML文法的形势,然后再根据其结构写查询语句,另外这种方法对文本格式的要求也比较严格。本文应用的基于Ontology的信息抽取主要是利用本身的描述信息实现抽取。这种信息抽取方法是首先建立领域本体,然后根据领域本体的关键字和概念属性建立抽取规则,根据领域本体

其他文献

高新技术产业政策制定与评估研究

20 世纪中后期以来,高新技术产业迅猛发展,成为各国新的经济增长点。高新技术产业发展程度决定着一个国家国际竞争力的大小和国际地位的高低。优先扶持和发展高新技术产业,已

学位

高新技术产业产业政策政策制定政策评估评估模型

培养学生开发与利用生物课程资源的主体意识

随着我国新一轮基础教育课程改革的不断深入实施,课程资源的开发与利用越来越受到人们的关注。在新型知识观和课程观的理论影响下,人们对课程资源的认识越来越科学、理解越来

学位

生物课程资源开发与利用主体意识

高中数学合作学习有效性的实证研究

合作学习(Cooperative Learning)是“当代教育理论、研究和实践中影响最大和成果最多的领域之一”(Johnson、Johnson & Stanne),也是我国数学新课程改革大力倡导的一种重要学

学位

合作学习有效性教学策略高中数学

任务型教学在高中英语口语教学中的应用

任务型教学是20世纪80年代语言教学研究者经过大量的研究和实践提出的一个具有重要影响的语言教学模式,是交际教学思想的一种发展形态,它遵循“做中学”的原则,把语言运用的

学位

任务型教学英语口语教学任务

顺铂及注射用顺铂含量测定方法研究

顺铂为抗肿瘤药物,临床上主要用于治疗睾丸肿瘤及头颈部肿瘤等.中国药典采用炽灼重量法测定其含量.本文参照BP及USP色谱条件,采用HPLC法测定含量,结果满意.

期刊

对照品含量测定方法溶液稳定性

新民主主义宪政研究

新民主主义宪政研究是新民主主义理论和实践研究的薄弱环节之一。从史论的角度研究者汗牛充栋,而以宪政的角度进行探讨者却门可罗雀,不能不视为一种缺憾。本文即是从宪政的角

学位

新民主主义宪政内涵意义

沙漠高速公路沥青路面耐久性研究

随着西部交通建设的发展,必然要在沙漠地区进行大规模高等级公路的建设,因此有必要进行沙漠地区高等级公路沥青路面修筑技术的研究。本文针对沙漠地区雨水集中、温差大、日照

学位

沙漠地区沥青路面耐久性水稳性热老化紫外线老化路用性能

基于.NET API和AutoCAD的盖梁CAD研究与开发

随着经济的快速增长,我国高速公路建设也步入了迅猛发展时期。高速公路建设中应用了大量的桥梁,而桥梁设计又是一项非常复杂而繁重的任务。为了提高桥梁设计质量和效率、降低

学位

.NET API梁式桥盖梁计算机辅助设计普通钢筋图

电力职工职业道德研究

近年来,改革开放不断深入,尤其是社会主义市场经济体制的逐步建立和发展,带来了社会生活,尤其是经济领域生活方式和条件的深刻变化,使人们的价值取向和道德观念发生了急剧的

学位

电力职工职业道德建设

苯乙烯—丁二烯共聚弹性体改性沥青的研究

沥青作为粘弹材料,流变行为受温度和力的作用时间制约,低温下易变脆,高温下则变软,使用温度范围窄。采用聚合物改性能克服这些缺点, 显著提高沥青的高低温使用性能。聚合物在

学位

母体SBS 改性沥青增溶SBR 改性沥青交联

基于本体的Web非规范知识处理中信息抽取技术研究

与本文相关的学术论文