中文即时通讯消息的作者身份识别研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yingchali
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本作者身份识别是一种从已知文本中提取作者文体风格特征,识别未知文本作者身份的技术,在文学分析、司法鉴证、信息安全等领域具有广阔的应用前景。近年来,这一领域研究取得了长足进展,证明了一系列文体特征和识别方法的有效性。但当前主流研究多是基于英文,一些基于字母、单词等的语言特征无法在中文文本中使用。且大多数研究基于小说等长文本,在即时通讯消息等短文本上会面临特征稀疏的问题。随着我国互联网发展,针对中文即时通讯消息文本的作者识别需求越来越多,相关研究具有较高的应用价值。作者身份识别可分为作者归属和作者验证两种任务,作者归属是从从候选作者中找出未知文档的真实作者,作者验证是判断一对文档是否由同一作者编写。本文分别提出了一种中文即时通讯消息的作者归属模型和作者验证模型,并在此基础上开发了一套作者身份识别系统。主要工作如下:(1)提出了一种基于样本拼接的集成学习作者归属模型。模型使用多种方法对即时消息样本进行拼接,充分提取网络对话环境下短文本的结构特征。同时设计了多个特征提取器,结合中文分词、中文语法分析、特殊文本实体、表情符号等预处理程序,提取多种中文语言和即时通讯消息文本特有的文体特征,每种特征单独使用一个分类器进行训练,最后通过集成的方式预测未知样本属于哪位已知的候选作者。该模型在中文公共聊天群组的数据集上进行了测试,在测试集上取得了最高0.97的F1分数。(2)提出了一种基于语言模型的孪生网络作者验证模型。该模型设计了一个孪生神经网络结构,在不使用特征工程的情况下,借助预训练语言模型BERT,从较短的中文文本中有效提取文体特征信息。对多条消息文本分别截取前N个字符进行处理和拼接,经池化和全连接层得到特征向量。通过计算两个样本特征向量之间的距离度量,来判断两个文本是否为同一作者书写。该模型在中文公共聊天群组的数据集上进行了测试,在测试集上取得了最高0.95的F1分数。(3)基于以上模型开发了一套作者身份识别原型系统,可以对中文即时通讯消息文本进行作者归属和作者验证。系统基于Layui和Python Flask框架开发,提供便于操作的UI界面,具有一定的实际应用价值。
其他文献
随着我国汽车保有量的逐年上升,所面临的道路安全及油耗问题日益严峻。其中,行驶工况对于普通燃油车的排放与经济性等整车性能评估起着重要的作用,但对于电动车电池能耗、续航里程等性能评估方面,燃油车行驶工况不适用;另外,驾驶员驾驶风格的变化对交通环境以及电车能耗也有着重要影响。所以,开展行驶工况研究及驾驶员驾驶风格的识别,对电动汽车技术深入研究具有重要的指导意义及实际的应用价值。本文以某型电动汽车为研究对
学位
当前新能源电源侧配储能、火储联合等新型储能商业模式盈利性不强,独立共享储能等新模式仍处于试点探索阶段。为进一步发挥新型储能在电力系统中的价值,需基于中国电力市场改革背景,厘清现有及潜在的新型储能商业模式。首先,分析新型储能作为独立主体参与市场化交易的潜在运营模式,梳理各模式运作流程和具体实践;其次,分别探讨源、网、荷侧的新型储能商业模式,为市场参与主体提供参考。由此可预见,随着电力市场化改革的深入
期刊
利用PHC桩试桩报告中的静载荷试验原始数据和地层资料,结合规范,利用反分析的方法确定各地层的极限端阻力标准值qpk和极限侧阻力标准值qsik。可将试桩成果推广应用到场地附近任意桩长桩径的桩型设计中。
期刊
CT骨骼区域的提取算法可作为骨病灶检测及诊断的基础,排除非骨组织区域的干扰,减少骨病灶误检。由于骨骼内部区域与周围代谢组织CT值的相近,且骨骼轮廓存在边界模糊问题,因此现有的CT骨骼区域提取算法难以在两者差异性缺失的情况下对目标范围进行充分界定。此外,基于深度学习的分割方法可以有效提取高维特征,提高分割效率,但缺乏大规模的CT骨骼区域标注数据集作为有监督条件,导致分割精度不足。然而,医学数据的标注
学位
移动应用闪屏是指在用户使用智能手机启动应用程序时出现的缓冲界面。随着应用版本更迭速度加快、宣传内容增多,移动应用闪屏往往需要频繁更新。目前该类闪屏大多由专业人员进行排版布局且通常涉及复杂的设计类先验知识,整个流程高度依赖人工。近年来,研究人员尝试使用人工智能算法解决图形布局生成问题,以实现闪屏类图像的自动生成。目前,图形布局生成研究主要面临挑战有:一是不同布局所涉及的美学概念大多比较主观,计算机难
学位
<正>据报道,钙钛矿材料因性能优异、成本低廉等突出特点而成为了当前光伏领域发展的重要方向之一。南京工业大学科研团队联合我国相关学者在钙钛矿薄膜制备领域取得突破,首次实现了丝网印刷钙钛矿油墨和薄膜的可控制备,并首次制备出高效稳定的全丝网印刷钙钛矿光伏器件。相关成果于2022年11月9日在线发表于国际期刊《自然》。钙钛矿薄膜沉积有旋涂法、刮涂法、喷墨印刷和丝网印刷等方法,其中,丝网印刷是指利用丝网镂孔
期刊
随着电子技术的发展,汽车电子控制技术得到广泛应用,给消费者带来便利的同时,新的安全问题也随之而来。大量电控单元的应用使汽车构成了一个复杂的电子电气系统,电子产品失效所带来的危害逐渐成为汽车产品研发过程中炙手可热的话题。针对汽车电子失效问题,ISO 26262功能安全标准对汽车电子产品的开发过程进行了规范和指导。EMCVT作为车辆传动系统中的重要组成部分,对整车的安全性起着举足轻重的作用,因此在TC
学位
为实现对变电站作业人员的精确立体定位,提出了一种基于机器视觉的立体定位方法,通过机器视觉算法在二维图像中对目标进行识别与定位,得到二维目标位置信息,基于相机标定构建的映射模型投影至三维空间中,经过校正畸变与优化对目标进行立体定位。测试结果表明,该算法对于人员具有较高的识别与定位能力,目标识别平均置信度为0.93,识别准确率为100%,平均定位误差为0.26 m,测试相对误差为1.3%,可以满足变电
期刊
名城制度自1982年建立至今已有40年,清华大学的梁思成、吴良镛、朱自煊等先驱从1940年代就开始引领历史城市整体保护与发展。清华团队也积极持续开展历史城市整体保护理论的研究与实践探索,强化价值评估的多维度和综合性,引领市域文化遗产的整体保护方法创新,积极利用文化景观视角及保护规划方法,并且基于真实性和多样性进行风貌保护传承,在尊重地域特色的前提下进行建筑织补和风貌延续,为城市遗产的整体保护和文化
期刊
江苏省苏州市吴江区立足江南河湖众多的水乡特点,按照建成长三角水利一体化发展示范区、高质量发展样板区的总体要求,依托水系连通及农村水系综合整治试点开展水美乡村建设,集中连片统筹规划,科学制定治理方案,通过水系连通、河道清障、清淤疏浚等综合整治,打造安全生态绿色的农村幸福河湖,实现河湖生态资源向高质量发展新动能的转化,助力长三角生态绿色一体化发展示范区建设,建成具有地域特色的县域综合治水示范样板。
期刊