基于弱监督学习的实体关系抽取方法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:shabi12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据相关产业与技术的发展使得科技信息服务业面临前所未有的机遇和挑战,需要对现有的应用进行研究与改进,这些应用都广泛而深入的依赖知识图谱,如:搜索引擎、个人智能助手、机器翻译和问答系统等。  作为从无结构文本中构建知识图谱(或称知识库)的关键性步骤,上述应用从实体关系抽取中受益良多。而作为弱监督学习实体关系抽取的两种重要方法,Rel-LDA和Type-LDA,近年来颇受重视。但是,这两个模型继承了LDA模型的“词袋假设”,存在诸多限制。为打破这一限制,本文结合TNG模型的在多元语法特征方面的长处,提出了Rel-TNG和Type-TNG两个模型,并详细给出了两个模型的吉布斯采样算法。在此基础上,本文基于GENIA和EPI语料进行了试验。试验结果表明,虽然本文提出的模型和Rel-LDA、Type-LDA两个模型在表现方面的差异没有统计显著性,但是,当引入先验数据,Rel-TNG和Type-TNG的表现明显优于前者  主题模型实体关系抽取大规模应用的主要障碍是高昂的计算成本,在资源有限的情况下,这表现为模型训练速度缓慢。究其根本原因,相关的成本产生于:不同CPU上变量的同步以保持一致性;多种候选关系时的采样过程等。幸运的是,已有的一些研究可以大大降低计算成本。本文针对Rel-TNG和Type-TNG模型的大规模应用进行了具体分析,得出结论:1)Alias方法和稀疏性方法不适用于实体关系抽取主题模型;2)同步AD方法和异步AD方法作为近似方法,在模型的训练质量上与原始的采样方法存在可忽略的区别,而在训练速度上有显著提升。
其他文献
[目的/意义]在线学术社交为快速监测和深入理解学科发展态势及科学启示提供了有效途径与新颖视角.[方法/过程]提出基于学术社交的学科分析框架,在跟踪学科间关联轨迹基础上,
近年来,随着经济时代的快速发展,社会对于教育的重视程度越来越高.小学是学生思维成长的重要阶段,其中音乐教学有利于提高同学们的整体素养.而对于小学音乐教师来说,教学的重
小学体育教学不单是进行体育基础知识与技术的传授过程,从体育学科及授课对象的研究角度来说,它更加注重的是对小学生能力的培养.本文以个人的小学体育教学实践经验为基础,进
社会化标签是指互联网用户自由地对文档、图片、视频等资源对象定义的一个或多个描述,由于其个性化特点被广泛应用于各大网站系统。社会化标签对用户有着至关重要的意义,用户
电子商务的热度从2012年持续升温,过去的2014年,对于更多品牌厂家来讲,是电子商务的开局之年,这里的开局之年并非单纯所指开启电商渠道布局,而是在这一年,以各个促销节点的销
[目的/意义]如何满足短视频用户需求,刺激用户参与行为,成功留住用户成为短视频行业亟待解决的问题.现有文献缺乏对短视频用户参与行为方面的研究.因此,本文基于社会-技术理
【内容摘要】新媒体环境对教育电视新闻采编人员提出了全新的要求,本文分析了新媒体环境下教育电视采编人员面临的挑战,探析了新媒体时代教育电视新闻采编人员职业素养提升的路径。  【关键词】新媒体;教育电视;新闻采编;职业素养  新媒体改变了新闻的传播方式,也改变了新闻采编人员传统的工作方式。强化互联网思维,以先进技术为支撑、内容建设为根本、机制创新为动力,央媒率先开展了传统媒体与新兴媒体融合发展的改革。
打开微信,“养生文章”、“致癌提醒”、“民间偏方”等各类信息扑面而来,大量被朋友圈转发。不仅仅是社交平台,整个网络环境都凸显着一种氛围—大家异常重视网络健康信息。
[目的/意义]以均等化视角对美国公共图书馆发展现状进行分析,辨析其对我国公共图书馆均等化发展的启示,以期为我国公共图书馆服务均等化发展提供参考借鉴.[方法/过程]对《201
[目的/意义]调查并分析美国公共图书馆年长者健康信息服务现况,为我国公共图书馆开展相关服务提供参考.[方法/过程]利用网络调查法,结合文献调查、访谈和案例分析,选择服务人