基于本体的自动语义标注方法研究

来源 :兰州理工大学 | 被引量 : 2次 | 上传用户:jiu0703
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息内容的增多,人们要准确、快速、全面的获取所需信息更加困难。传统的方法是对网页信息进行人工语义标注,而对现有海量网页进行手工语义标注显然并不可行,因此如何提高自动语义标注质量是研究的重点。由于本体在语义和知识概念方面可以更好地描述信息,所以将本体引入到传统的语义标注方法中。通过对语义标注方法的分析和探讨,理解自然语言信息抽取和标注算法是提高语义标注准确率的关键。深入探讨自然语言关系抽取方法和语义标注算法后,本文主要研究了在本体知识库构建时如何高效抽取概念属性间的语义关系;并通过改进语义标注算法达到提高标注准确率的目的。本文所做的主要工作如下:(1)对中文文本关系难以抽取的问题进行深入研究,提出一个新的关系抽取方法。为了缓解关系三元组抽取困难的问题,提出基于属性和概念实例的关系三元组构造方法,抽取到的大量概念实例关系三元组中不仅包含显式关系三元组还包含隐式关系三元组。针对抽取到的关系三元组含有噪声和错误的问题,使用基于Adaboost迭代算法的协同训练方法对关系抽取模型进行强化。以大学类别领域百科条目文本作为实验材料进行实验,结果表明该方法能够取得较好的抽取性能。(2)在语义标注过程中,为了消除文本中给定的命名实体与知识库中实体映射过程中出现的歧义问题,提出了一种基于上下文信息相似度值排序的消歧方法。消岐方法包括实体表示预处理、候选实体列表构建和相似度值排序算法三部分。针对命名实体指称多样性问题,使用实体表示预处理方法抽取标准实体。然后利用中文在线百科构建本体知识库,得到标准实体的语义列表。同时提出利用相似度值排序方法解决标准实体与语义列表映射的指称歧义性问题,对于未找到语义的实体采用HAC聚类算法进行消岐处理。实验结果表明,提出的消歧方法能够有效的把中文网页真实数据集中文档的实体映射到本体库中对应无歧义的实体上。
其他文献
针对当代大学生理想信念教育现状,文章认为应从学生发展的本质需求和规律出发,围绕理想信念的特定功能,强化价值导向,激发学习动机,选择成长路径,建立文化力、学习力、创新力
目的建立多囊卵巢综合征(PCOS)大鼠模型。方法通过皮下埋置17-炔诺酮硅胶棒联合皮下注射HCG(Bogovich法)诱导PCOS大鼠模型。测定血清睾酮(T)空腹血糖(FPG)及胰岛素(FIns)水平
我国中小企业在消防安全投入方面存在主观意识薄弱、物力投入过少、政府监管不到位等问题,其中政府监管是保障企业消防安全投入的重要手段。在目前我国政府监管体系不完善的
宗军:当前对于宏观经济走势的判断,市场上出现了一些分歧,有观点认为已经走过了调整的拐点,也有观点认为今年将是前高后低。各位专家对此怎么看?吴之雄:总体上看,今年国内宏观经
近年来,宁夏经济进入了快速发展的新阶段,经济的综合实力不断加强,生态环境发生了历史性转变。但是宁夏经济发展和生态环境建设仍存在诸如产业结构不合理,环境治理成本较大等
为进一步优化畜牧业产业结构,控制畜牧产业发展总量,近期我国畜牧业开始实施限养、禁养以及适养区的划分。南明区作为云贵高原东北部的重要区县单位之一,所辖区域属于限养禁养区
目前经内镜逆行性胰胆管造影(endoscopic retrograde cholangiopancreatography,ERCP)是诊治胆胰疾病最常用的方法之一.但多年来,人们尽可能地避免在妊娠期间行ERCP检查和治
48V微混系统是当前混合动力技术研发热点,为了降低整车油耗,提升系统效率,需要开发有效的整车控制策略。硬件在环台架技术是一种先进的仿真技术,可以模拟出车辆的各种运行工
中国人民银行、银监会、证监会、保监会、国家标准委等5部委联合发布《金融业标准化体系建设发展规划(2016-2020年)》。规划确立了“十三五”金融业标准化的发展目标,包括制修订国家标准和行业标准110项以上,推动3个以上金融业社会团体发布团体标准,金融业标准水平明显提高,新发布的重点金融业国家标准开展质量及效益评估的比例达到50%以上,金融业标准化机制更加完善,主导研制金融业国际标準取得实质性突破
2017年4月份,全国居民消费价格总水平同比上涨1.2%。其中,城市上涨1.3%,农村上涨0.8%;食品价格下降3.5%,非食品价格上涨2.4%;消费品价格上涨0.2%,服务价格上涨2.9%。1—4月平均,全国居民消费价格总水平比去年同期上涨1.4%。4月份,全国居民消费价格总水平环比上涨0.1%。其中,城市上涨0.1%,农村持平;食品价格下降0.6%,非食品價格上涨0.2%;消费品价格下降0.1