本体导向的对象信息抽取关键技术研究及实现

来源 :天津大学 | 被引量 : 0次 | 上传用户:hong_77521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从Web中抽取和聚合对象信息对于Web数据处理意义重大,因为通常同一类型的对象分布于不同的Web资源中,而这些资源的结构特征迥异,现有的Web信息抽取技术往往无法较好地完成Web对象的抽取,针对这一情况,本文提出了本体导向的对象信息抽取(OGOIE, Ontology Guided Object Information Extraction)框架,并对框架中的两个关键技术进行了设计与实现。OGOIE框架主要包括四个模块(网页分析器、对象类别识别器、对象元素识别器和对象判重器),两个输入资源库(领域本体和领域原始网页)和一个输出资源库(领域对象库)。从框架中引出的两个关键技术分别是新词识别, SVM分类器效率的改进(SRL,SVM的样本缩减算法)。其中新词识别隶属于网页分析器,是分词的后续修正过程,包括在线识别和离线识别两部分,主要目的是尽可能地减小分词误差对接下来工作的负面影响。第二项关键技术是对SVM分类器效率的改进,分类器在该框架中应用居多,对象类别和其元素属性的识别都有需要,本文考虑在分类之前借助于线性分类器(朴素贝叶斯和中心法)对训练样本进行缩减来达到降低SVM分类效率的目的,由此提出了基于线性分类器的SVM样本缩减算法(SRL,Sample Reduction for SVM by a Linear Classifier)。最后分别对新词识别和SRL算法进行了实验验证,其中新词识别以台风概念及其实例为例,实验结果表明通过新词识别能使分词后领域词的正确分词率有明显提高;另外,SRL在数据集20NG、WebKB4、Rel100上准确率和召回率的对比分析表面,它能在保持SVM较高精度的同时通过缩减训练样本来降低SVM的训练时间。后续还有很多工作有待完成,如OGOIE框架中其他部分的具体实现,以及当前实现技术的效率和效果的改进,不过实验结果和相关分析验证了OGOIE框架设计的可行性和关键技术实现的可用性。
其他文献
动态二进制翻译器中的Code Cache用于缓存翻译后的代码块,当代码块再次被执行时就可以直接使用缓存的代码块,而无须再次翻译。Code Cache的使用可以大大提高翻译器的性能。本
现如今恶意代码数量以爆炸式的速度增长、复杂度和破坏力不断增强、恶意代码技术创新越来越频繁,使得传统的以人为监控资源操作的恶意代码分类越来越困难,能够自动化分析、高效
PaaS云作为一种重要的云计算模式,通常以可编程容器的形式交付一组软件和基础设施供云租户开发、托管及部署应用程序或服务。PaaS平台自身负责维护资源的动态扩展,可极大降低应
在移动通讯市场经过多年大规模网络建设、终端高度普及之后,移动运营商眼下都将精力集中于对现有网络整合、业务模式创新、服务质量提高和开拓新的用户市场上,以期实现快速的
近年来随着深度学习方法的发展以及GPGPU大规模并行计算技术的成熟,深度学习在学术界和工业界得到了广泛应用,2012年深度学习相继在图像分类和语音识别领域取得了突破性成果。
网格将用通信手段连接起来的资源无缝集成为一个有机的整体。它给用户提供一种基于国际互联网的新型计算平台,在这个平台上对来自客户的请求和提供资源的能力之间进行合理的
随着我国经济不断发展,信用贷款市场不断扩大,大量信用贷款平台应运而生,越来越多的小微企业及个体商户需要通过互联网信用贷款平台申请贷款满足其资金需求。由此信用贷款风险控制成为信用贷款行业的热门研究领域,信用贷款风险控制领域的主要研究问题之一是信用风险分类问题。随着机器学习方法在信用贷款风险控制领域应用日渐成熟,大量的信贷风控问题已经从原来的人工审核或者统计学习解决方式转由计算智能解决方式。使用计算智
学位
随着现代社会对无线移动网络的需求迅速增长,基于无固定基础设施的、自组织、自适应的移动AdHoc网络在军事和民用上得到了快速发展,人们对其研究也持续升温。其中,AdHoc网络路由
近年来,移动互联网发展迅速,基于智能手机的应用越来越丰富,以智能手机为计算中心的移动医疗也依托这一势头发展迅猛。另一方面,我国人口结构进入了快速老龄化的阶段,心脑血管疾病
在目前的残疾人高等教育中,针对听障学生开展的计算机编程语言的教学存在许多难点。由于施教学生的特殊性——听力障碍所造成的沟通困难,常规的教学方式在听障学生教学中无法使