基于框架的科技文献中事件知识抽取

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:syh95815
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字图书馆作为学术成果的知识库,其保存的海量科技文献作为人类的知识宝藏,成为人们补给知识的重要途径,用户可以不受时空限制及时获取所需知识。然而,随着知识经济时代的到来,人们对知识的需求日益迫切化、专业化、微观化和精准化。目前,传统的以篇章为单位的知识服务导致用户不得不花费大量的时间定位所需知识;并且在深入文献内容研究方面,文本内容划分模糊,最终也会导致知识服务产生了模糊。因此,为满足知识经济时代人们新的知识需求,迎接大数据对数字图书馆科技文献知识服务的影响和挑战,解决科技文献存在的服务粒度过大、内容划分边界模糊等问题,本研究将科技文献知识服务的单位由文献单元深入到文献内容本身,并对它们进行整理、筛选、分析乃至评价等,从而将最相关的知识以最精简的方式提供给用户,满足用户的知识需求。事件知识作为人类认识和理解世界的基本的单元,是人们进行思维活动的基本单元。基于上述分析,本研究以数字图书馆馆藏科技文献中的事件知识为研究对象,运用多种相关理论和研究方法,首先,基于描述规则抽取科技文献中的元事件;然后,对元事件数据集进行聚类分析,识别每一个类簇的表示框架,即事件知识表示框架;最后,基于事件知识表示框架抽取科技文献中的事件知识,以为用户提供精准知识服务。主要研究内容为:第一,科技文献中元事件抽取研究。为提高元事件抽取的准确性和完整性,为后续事件知识的抽取提供事件数据集。本研究提出了基于描述规则的元事件抽取,主要为两个阶段:初始元事件描述规则的半自动化抽取、元事件自动化抽取及其描述规则的自动更新。第一阶段的主要目的是在人工的帮助下半自动化生成高质量的元事件描述规则,以为元事件的自动抽取奠定基础;第二阶段首先使用正则表达式,基于初始描述规则抽取科技文献中的元事件,然后引入Prefixspan算法,以机器为主对科技文献中的元事件描述规则进行更新完善,并存入描述规则数据库。第二,科技文献中事件知识的抽取。首先,本研究基于k-means聚类对元事件数据集进行划分,以识别各个事件知识的主题;然后,根据不同类型的事件知识构件组成不同,引入语义依存分析,对触发词和论元进行联合约束聚类,以得到论元簇,进而识别出具有语义关系的组成事件知识的构件;然后基于框架抽取事件知识框架中的构件值。第三,科技文献中事件知识抽取的实证分析。以数字图书馆馆藏科技文献为实证对象,以人工标注的数据为标准参考数据集,借助精准率P,召回率R和F均值以验证基于描述规则的科技文献中元事件抽取的性能和事件知识抽取的性能,通过对比数据验证方法的有效性。
其他文献
为了使广告窗更加智能化、人性化,更吸引人,提升广告宣传效果的作用,设计了一种智能语音滚动式广告窗。该广告窗以Arduino UNO为控制中心,使用HC-SR04超声波模块检测广告窗正面是否有人停留,如果有人停留,则BY8001-16P语音模块播放与广告窗展示广告相匹配的信息;如果没有人停留,则采用Arduino UNO通过TB6600驱动器控制42BYGH34步进电机按照预定的时间周期带动主动轴滚
期刊
针对目前研究的电力终端负荷预测方法在预测过程中,未考虑负荷终端时序性和非线性的特点,存在预测精度较低,速度较慢的问题,提出了基于FCN和LSTM深度学习模型的电力终端负荷预测方法。利用循环神经网络,建立电力终端负荷预测模型,分析记忆状态,对电力终端数据进行预处理,并编码非数字特征,确定预测模型。利用均方误差公式得到的电力终端负荷预测模型的损失函数,通过数据预处理、优化数据参数、训练电力终端负荷预测
期刊
在互联网迅速发展以及人们对自身健康日益关注的背景下,国内外近几年有关医疗健康的网络社区不断涌现,发展迅速,用户量大且不断攀升。网络健康社区以其方便便利、自主性强、无地域差异及高度整合医疗资源的优势,成为人们管理自我健康的平台。因此,通过相关研究来加深对网络健康社区的认识和了解显得尤为重要。本文总结前人对网络健康社区的研究,选取三九健康网的肿瘤问答版块的数据,从网络健康社区的主题和情感角度切入,分别
学位
目的:基于R语言数据挖掘技术分析针灸治疗咳嗽变异性哮喘的取穴规律,为临床治疗方案的制定和优化提供参考。方法:计算机检索PubMed、EMbase、The Cochrane Library、中国知网、万方数据库、中文科技期刊数据库,筛选针灸治疗咳嗽变异性哮喘相关文献,依据标准方案提取针灸处方,建立针灸治疗咳嗽变异性哮喘处方信息数据库;基于R语言对数据库取穴频次、聚类和关联等情况进行规律挖掘。结果:共
期刊
<正>胆囊息肉在临床十分常见,近年来随着人们生活方式、饮食习惯的变化,该疾病的发病率呈现逐年升高的趋势。同时,随着体检的普及以及B超等诊断技术的广泛应用,胆囊息肉的检出率也在不断升高。但很多人对胆囊息肉并不了解,或是觉得无所谓而不加以治疗,或是病急乱投医,都会威胁到患者的健康。下面,我们就一起了解它的形成及治疗,正确认识胆囊息肉。
期刊
知识经济时代下,科技、文化、经济等各个领域都迎来了迅猛发展的时机,但与此同时各个领域都面临着数据量激增、数据质量良莠不齐、数据缺失重复等一系列棘手问题的挑战,其中数据异构的问题更是一大难点,除了制定具有公信力的行业标准、打破垄断等解决方法之外,数据融合分析也成了科研工作者关注的一大热点。文物信息资源建设与数字化保护工作呈现异构化、碎片化态势,一方面,资源建设标准各异,不同的机构往往采用不同的资源标
学位
态度是特定主体对特定对象的评价,体现了特定主体的心理反应倾向。政府新闻文本依托于新闻发布制度产生,能有效表明政府立场,体现政府态度。当前学界开展的政府态度研究主要采用量表法、逻辑推理法以及内容分析法,研究方法的智能性有待提升。因此,引入文本挖掘方法对新闻文本中蕴含的政府态度进行识别,有效扩充了该领域的研究方法,提升了政府态度识别的效率,为情报分析工作提供决策支持,具备较强的理论意义与现实意义。在系
学位
伴随我国电子商务产业爆发式发展,电子商务服务业作为电子商务产业的重要组成部分,市场规模迅速扩大,成为国民经济新的重要增长点。电子商务服务业在创造就业、搞活流通、推动区域协调发展、提高社会创新能力等方面有巨大作用,经济和社会价值显著。政府出台了大量政策法规,对电子商务服务业的发展高度重视。如今,电子商务服务业进入转型发展时期,面临着国内逐步升级的用户需求和激烈的市场竞争的挑战,以及来自国际市场的压力
学位
以数字化、网络化、智能化为特征的信息技术不断发展,使人们的生产与生活方式发生了深刻的变化,这对政府治理提出了更高的要求,而建立“数字政府”正是政府对信息时代治理和服务需求的主动响应和自我革新。“数字政府”是数据支持服务的新型政府运行模式,在线审批服务则是“数字政府”服务的重点内容和薄弱环节。在线审批服务具有无差别化、标准化和协同化的特点,其实质是实现政府服务从“群众跑腿”到“数据跑腿”的转变。当前
学位
公共交通是一个城市、一个地区文明程度的窗口,又以保障百姓最基本的出行权利,而成为民生服务的重要内容。优先发展城市公共交通是国务院作出的重大战略部署,对于配置城市交通资源、治理城市拥堵问题、促进绿色交通发展有着重要意义。公交车作为已经发展超过半个世纪的公共交通出行方式,广泛分布在各个城市中,有着深厚的群众基础。但是,在公交发展的过程中,也存在一些尚不如人意的问题,影响着乘客的满意度,导致公交出行的吸
学位