社交媒体文本的作者归属问题研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:mkkkj2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作者归属指通过测量一些文本特征用以区分不同作者写的文本,是自然语言处理的一个重要分支。随着信息技术的显著增长,作者归属的实际应用数量已经在几个不同的领域增长,如刑法,民法,以及计算机安全。每个作者都拥有影响其书面作品形式和内容的特殊习惯,这些特点往往可以用机器学习算法来量化和测量。早期的研究中主要针对这些特点手工设计特征,但是手工设计的特征往往只能提取一部分特征作为写作风格特征。由于深度学习方法能自动提取文本丰富的特征,近几年越来越多的研究使用深度学习方法来解决作者归属问题,但是大多数方研究只在长文本的数据集上验证了算法的效果。在短文本数据集上研究的方法中,有的只使用字符n-grams特征提取文本的内容特征,单一的特征并不能完全代表写作风格特征;有的使用字符n-grams特征作为内容特征和成分树特征作为句法特征来解决作者归属问题,但是在短文本上,成分树的路径较短,这无疑会影响句法特征的丰富度。目前的方法中,大多都没有关注文本的句法特征或者只提取了浅层次的句法特征。针对以上问题,本文提出了基于句法依赖树和句法成分树的作者归属模型。首先,使用依赖树提取的结构特征可以解决短文本的成分树路径较短的问题,而使用成分树可以解决依赖树的词嵌入向量没有句法特征的问题,这两种树优劣互补。其次,本文提出了一种新颖的树结构特征来丰富句法特征。本文为树中的每个节点编号,根据树的双亲表示法,可以使用树的节点编号和父节点编号恢复成一棵树。最后使用字符2-grams特征提取的内容特征和句法特征相融合作为写作风格特征并在多个数据集上进行实验验证本文模型的有效性。针对目前的方法没有在作者归属任务上深入探讨注意力的问题,本文提出了联合多种注意力的模型。本文使用自注意力、分层的注意力和图注意力分别关注文本的不同特征对写作风格特征的影响,注意力可以对重要的特征加以重视,忽视不重要的特征。本文在多个数据集上验证了本文的方法的优越性。最后,基于作者归属目前的研究现状,本文进一步探讨了作者归属领域的挑战和未来发展趋势。
其他文献
近年来,随着城市的进一步发展,城市规模增大,老城区旧改和新的拆迁安置项目发展迅速,大批拆迁安置项目进行的如火如荼。对于此类项目,通常由政府主导,统一进行拆迁、统一安置,并且一般会选择EPC模式进行项目招标。在EPC模式下,总承包商承担着该项目全部核心工作,一个EPC项目的成功与否,总承包商扮演着不可或缺的角色。因此,如何客观综合的全面评价总承包商的综合实力,对总承包商进行优选,具有十分重要的现实意
学位
随着社会经济的快速发展,人们的生活水平不断提高,生命安全和环境保护的重要性日益凸显。对生物体、环境中的污染物进行准确检测关系到人类的生存也影响着经济发展。因此,设计灵敏度高、选择性好、响应速度快和操作简单的荧光传感器有着极其重要的意义。卟啉基金属有机框架(MOFs),不仅拥有卟啉分子优异的光学性质,又具有MOFs的诸多特点,已成为荧光传感领域研究的热点。本文设计和合成两种卟啉MOFs荧光探针,分别
学位
目的:胰岛微囊化能够降低异种移植胰岛的免疫原性,同时帮助异种胰岛免受或降低受体细胞攻击,是治疗1型糖尿病的一种方法。因此该实验探讨了Alg/PEI微囊化大鼠胰岛并移植到1型糖尿病小鼠腹腔内,在没有免疫抑制剂治疗下,微囊化胰岛能否控制血糖,维持胰岛对葡萄糖反应和产生胰岛素功能。方法:(1)大鼠胰岛分离及微囊化:采用胶原酶P灌注消化法及3种不连续密度梯度纯化液(Ficoll-400、Histopaqu
学位
本翻译实践报告是基于笔者对美国畅销书作者凯瑟琳·瑞恩·海德(Catherine Ryan Hyde)于2020年发表的爱情小说《我叫安东》(第十至十二章)英译汉翻译实践的分析和总结。该小说内容充实、情节生动、情感丰富,作者以第三人称视角讲述了男女主角在爱情中获得力量,相互救赎,开启崭新人生的动人故事。此次英译汉翻译实践是在乔治·斯坦纳的阐释学翻译理论指导下完成,笔者运用阐释学翻译理论四步骤来解决翻
学位
基本公共教育是我国基本公共服务的重要组成部分,是政府服务职能的重要事项,国家、省、市各级人民政府相继出台相关文件,强调发挥义务教育在实现中华民族伟大复兴中国梦中的奠基作用。随着国家“单独二孩”“全面二孩”等人口政策的实施,义务教育阶段供需矛盾突显,此外城市的动态发展也需要义务教育发展适时应对。笔者结合自身工作,从教育规划管理的视角,选取在城市发展上具有代表性的南京江北新区直管区为研究范围,以城市地
学位
电子设备在小型化、集成化的同时,也增加了其对强电磁脉冲干扰的敏感性。高功率微波(HPM)作为一种强电磁脉冲,其具备前沿小、脉宽窄、峰值功率高等特点,可以对电子系统敏感元件造成电磁毁伤。因此,针对HPM电磁环境相关防护技术及防护机理研究受到世界各地学者的密切关注。铁氧体是一种重要的微波功能材料,大功率微波场作用下可激发铁氧体内部自旋波不稳定性过程,被激发的自旋波幅度随时间呈指数增长的机制可导致对输入
学位
城市化的发展带来生活便利的同时也带来了很多噪声问题。使用吸声材料是控制噪声的一种有效手段,但在吸收中低频噪声时往往需要厚重的多孔吸声材料才能达到理想的吸声效果,部分纤维类吸声材料还可能损害人体健康。微穿孔板作为一种绿色、轻质、高效的共振型吸声材料,在控制中低频噪声方面有非常大的优势,其吸声效果不受自身材料的限制,且结构轻薄,应用前景广泛。但传统的微穿孔板吸声结构存在吸声频带较窄的问题,且吸收中低频
学位
可充电水系锌离子电池因为其安全环保的电解质,对大规模储能技术具有广泛的吸引力。但这并不代表锌离子电池不存在安全隐患,电池剩余使用寿命(Remaining Useful Life,RUL)预测是保障其进一步安全使用的关键技术。随着机器学习的兴起,越来越多的研究开始用机器学习预测电池的RUL,但是准确地预测每一个电池RUL仍然是困难的事情,这是因为电池的退化过程很复杂,其内部的化学反应具有很大的随机性
学位
祥瑞图像源于汉代儒家思想中的天人感应学说,是汉代墓室画像中常见的题材。梳理现今研究成果,发现目前学者对祥瑞图像的界定不统一,对准确理解祥瑞的功用等造成了一定的影响。本文通过梳理文献材料、考古资料,结合前人的研究成果,总结归纳出三个判定标准,据此标准,将汉代祥瑞图像分为标准祥瑞图、祥瑞装饰图两大类。标准祥瑞图发现数量少,有固定的格式与范本,呈“图录式”排列。整幅图有若干单元组成,每个单元内绘制祥瑞物
学位
随着工业化的发展,能源损耗与环境的污染使得人们急需开发新的清洁能源。光催化剂可以通过一系列氧化还原反应可以将广泛而又丰富的太阳能转化为氢能这种新的绿色清洁能源,因此越来越多的科学家致力于可见光催化分解水产氢的研究中。此外,在发光领域,白光发光二极管这一新型固态照明方式因其卓越的发光效率、低功耗、可靠性和环境友好性而备受关注。而在追求发光效率更高性能更好的白光发光二极管过程中,稀土掺杂荧光粉对其发展
学位