科学引文的情感类型识别研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:dongdongthere
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学文献是科研工作者分享研究成果的学术交流过程,而引文则是关联这些研究成果的主要途径。科学工作者通过引文表达对他人研究成果的认同,提供原始知识源,获得同行支持,还能在其中表达他们的想法和意见。这些想法和意见是非常宝贵的学术资源,科学引文的情感分析旨在了解作者对科学引文的想法和意见。科学文献中的引文情感,通常被认为是中性的,要么是客观地描述了一种算法或方法,要么是被用于支持事实或陈述。这可能是作者为了避免引发来自社会的公开批评而采取的公关策略。但是,积极和消极情绪仍然存在,并且是可以被读者发现的,这种情绪以一种微妙的方式表达出来。虽然措辞模糊,但是科学引文中隐藏了作者对被引文献的情感表达。然而,目前国内只有少量论文关注科学引文的情感倾向,尤其对引文的细粒度情感类型缺乏深入调查和研究。基于上述背景,本文围绕科学引文的情感分类和情感识别展开了研究。主要内容如下:第一章为绪论。主要包括研究背景和研究意义、国内外研究现状和述评、本文的研究思路、研究方法、研究特色和创新点。第二章概述了理论和技术基础。介绍了引用行为理论和引文分析方法,并对信息抽取技术进行了总结,梳理了情感分析技术的主要方法。第三章构建了科学引文的情感分类模型。将科学引文的情感细粒度地分为情感极性和情感强度两个维度,情感极性包括正向、负向和中立三种类型;根据情感强度进一步细分为正向、弱正向、中立、弱负向、负向五种类型。情感极性的决定因素与引用动机有关,引用动机可划分为显性支持、隐性支持、他人信誉、否定评价、比较评价、混合评价、事实数据、历史背景、行业共识和个人偏好十种类型。将引文划分为功能引用和社交引用、必要引用和辅助引用、基本引用和敷衍引用、高水平引用和低水平引用,从而帮助判别引文的情感强度。本章设计了科学引文的情感标注框架,提出将同属心理活动范畴的引用动机和引文情感进行同步标注。引文情感标注框架包括引文情感标注体系、引文位置标注体系和引文元数据标注体系。最后,采集了科学文献数据集并人工标注,证实了科学引文情感标注框架的合理性和稳定性。第四章提出了科学引文的内容抽取方法,首次挑战了面向中文科学文献的引文上下文提取任务。本文将引文内容抽取任务分为引文句子抽取、引文元数据抽取和引文上下文抽取三个子任务。根据国内科学文献参考文献著录规则,制定了引文标识符转化规则,用于抽取引文句子;解析了参考文献信息的顺序和格式,利用正则匹配析出参考文献;借鉴自然语言处理的指代消解方法抽取引文上下文。该方法经过人工标注数据集测评,证实能有效提取引文内容。第五章生成了科学引文情感分类算法。首先,创新地尝试了构建面向科学引文的情感词表。由于缺乏规范、全面、适用的中文情感词典,自行抽取情感词构建情感词表。主要研究思路是,在实验数据集上直接抽取情感词、并判定其情感极性。该方法借助权威语义知识库WordNet,以及该资源的汉化版本汉语开放词网COW,参考其情感资源SentiWordNet为每个情感词设置情感分数。然后,根据引文句子中每个单词的情感分数,结合中文语言学规则和语义标签,计算每个句子的情感得分。累积引文句子和上下文的情感分数,得到引文情感分值。该数字结果离散化后,进行细粒度的情感分类,包括二分类、三分类和五分类。此外,本章研究了科学引文的细粒度情感分类方法。在科学引文数据集中应用了监督机器学习方法,比较了朴素贝叶斯和支持向量机在引文情感分析中的表现。结果显示,SVM分类器采用词袋特征或词频特征的情感分析性能都更优于NB分类器。此外,借助科学引文的情感评分,为SVM添加情感特征可进一步提高分类效果。实验结果显示,与简单的机器学习方法相比,融入引文情感评分的混合方法表现最佳。第六章为总结与展望。对研究的主要成果进行总结,并指出研究的局限和后续进一步改进的方向。
其他文献
公共资源景区作为旅游业接待的主体之一,对区域旅游目的地建设和经济发展产生了积极推动作用。公共资源景区经过70多年的发展,正从封闭的门票经济模式向开放、共享的全域旅游发展模式转变。自1999年公共资源景区定价权下放到地方政府,以门票经济为导向的发展模式不仅削弱了社会、生态等效益的发挥,而且有悖于公共资源景区公益性的本质。为进一步明确公共资源景区定位,规范景区管理,充分体现社会效益、经济效益与生态效益
学位
近年来,随着人工智能、物联网、5G、开源代码等技术的发展,使得企业的营销环境变得更为复杂。2020年新冠疫情的突然爆发,迫使企业加速采用数字化营销战略,进而使得数字营销环境的复杂性和不确定性变得尤为突出。虽然国内企业迅速“上线”自救,但是大部分企业因自身在经营、渠道、管理、营销等核心环节存在着严重的数字化战略的“隐性缺陷”,最终导致很多企业“上线”自救失败。这一现象迅速地推动了业界对数字生态化和平
学位
我国在核心素养的教学过程中,与以往相比,自身的教学体系明显增强。因此,在后续针对学生的培养中,可以使学生具备发展的品格以及能力,实现全面成长,迎合目前历史教学的迫切需求。
期刊
当前,新一代信息技术以及新一轮产业革命正在推动传统制造向服务型制造转型发展。制造企业通过提供“产品”向提供“产品+服务”的商业模式的转变,延伸了企业的价值链,获得了新的利润增长点。在众多的耐用产品服务中,产品的售后支持、维修服务在产品生命周期中所占的时间最长。但随着现代社会经济的快速发展,汽车、空调、电脑等耐用消费品逐渐普及,产品质保期与其使用寿命之间的差距进一步扩大,超过质保期后各种零部件损坏的
学位
本研究依据北京市基础教育科研先进学校材料,重点针对学校科研管理、科研实践、科研成效等方面情况,结合实际案例,进行了梳理、总结,总体反映了学校教育科研现状情况。同时提出了科研管理水平不均、主动性不强;机构职能缺乏决策权和评价权;课题研究与规划缺乏系统思考;先进校的引领作用发挥不够等存在的问题。明确提出教育科研必须不断探索坚持创新、加强协调、注重实效、追求共享的未来发展趋势。
期刊
进入21世纪以来,随着传感器技术、嵌入式系统、分布式计算和无线通信技术的迅猛发展和日趋成熟,一项集感知、计算和通信能力于一体的跨学科、多元技术融合领域——无线传感器网络(Wireless SensorNetworks,WSNs)应运而生。无线传感器节点通常采用电池供电,有限的电量存储制约着其使用寿命。因此,如何对WSNs中的路由算法进行优化,以选择最短的路由进行数据传输并降低网络能耗,是WSNs中
学位
随着微博、微信的迅猛发展与广泛应用,政府各部门也相继推出与实施政务“双微”,即开展以“微博+微信”为主要平台的电子政务2.0模式下的公共管理方式,在社会管理创新、政府信息公开、新闻舆论引导、倾听民众呼声、树立政府形象、群众政治参与等方面起到了积极的作用。但政务微博与政务微信在平台属性、受众形态、话语权分布、信息质量、内容制造、传播有效性等方面都存在着差异性,在实践中还存在不联动、不协同的方面,无法
学位
随着经济社会的快速发展,特别是脱贫攻坚取得决定性胜利,社会公众的生理需求和安全需求得到充分保障,如何高质量健康生活、如何获取健康信息已成为当前社会公众关注的热点,受到前所未有的重视。由于社会公众对健康信息关注度的提高,在面对健康风险时,无论是使用PC端,还是移动终端,都会及时浏览和搜寻健康相关问题,关注健康信息。微博作为社交媒体时代的重要传播媒介之一,微博平台所拥有的海量用户数据和健康信息,使其在
学位
快速有效的雷达波形识别是电子战中的一个关键环节,在电子侦察系统中发挥着重要作用。随着军事技术的不断发展,电子对抗领域的竞争愈演愈烈,战场电磁环境日益复杂,并且随着以低截获概率雷达为代表的各种新体制雷达不断装备应用,使得在低信噪比条件下雷达信号的分选与识别面临诸多问题和挑战。本文研究了强背景噪声下的雷达波形识别问题,重点对雷达侦察接收机输出端的信号进行特征提取和分类识别。噪声信号采用加性高斯白噪声进
学位
《共产党宣言》在为无产阶级指明消灭资产阶级的革命方向和实践路径的同时,也绘就了未来美好生活的画卷并提出了实现人民美好生活的思想。无论过去还是现在,为人民谋幸福始终是党的初心与使命。《共产党宣言》中对美好生活观的阐释内在的包含三重维度:基础维度,要有高度发达的生产力与充足的物质生活资料保障;主体维度,要实现以人民为主体的美好生活;目标维度,最终的美好生活要指向人的自由而全面的发展。在社会主义现代化步
期刊