【摘 要】
:
文本作者身份识别一直是自然语言处理工作中的研究重点,有着广阔的前景。在信息安全领域其可以用于作品版权的保护;在公安行业和文检工作中也可以用于有害信息的作者身份认定,为破案提供一定的思路和技术支持。目前对于文本作者身份识别而言,缺乏统一的写作风格特征集,人工参与程度高,语料依赖性强,筛选过程客观性不足。为实现自动化特征提取,提高识别准确率,本文基于深度学习做出如下工作与创新:首先针对作者语言风格建模
论文部分内容阅读
文本作者身份识别一直是自然语言处理工作中的研究重点,有着广阔的前景。在信息安全领域其可以用于作品版权的保护;在公安行业和文检工作中也可以用于有害信息的作者身份认定,为破案提供一定的思路和技术支持。目前对于文本作者身份识别而言,缺乏统一的写作风格特征集,人工参与程度高,语料依赖性强,筛选过程客观性不足。为实现自动化特征提取,提高识别准确率,本文基于深度学习做出如下工作与创新:首先针对作者语言风格建模过程中,不同语料需要建设不同的特征工程,特征提取繁琐且没有普适性的问题。本文基于深度学习框架,在无需专家进行特征建模的情况下,提出了CABLSTM中文文本作者身份识别模型。为最大化的提取短文本特征,该模型利用卷积神经网络的卷积特效融合注意力机制并去除池化层以防止部分特征被丢弃,构成文本特征提取器,通过输入双向长短期记忆神经网络获取上下文时序文本特征,最后将身份识别结果通过Softmax层进行输出。其次本文基于以上模型设计并实现了文本作者身份识别系统,该系统可以对测试文本进行文本分析,通过本文提出的TankRank-LL算法计算输出文本关键词、短语、摘要;通过百度AI情绪分析输出文本情绪倾向;通过CABLSTM模型输出识别作者。最后本文以中文微博为语料进行了以下实验:分词准确率实验;与传统身份识别算法、深度学习算法的身份识别对照实验;关键词抽取改进实验。通过在准确率、召回率、F值方面的比较,从而验证本文提出的算法、模型、系统的优越性。
其他文献
压电陶瓷作为21世纪一种重要的信息功能材料,在人类生产生活的各个领域受到非常广泛的应用。随着社会的不断发展,人们对压电陶瓷材料性能的要求也越来越高,开发具有高性能的
发酵食品是微生物发酵而成的一种口味独特、营养价值高的食品,是食品产业的重要组成。有效的微生物分离、分析方法对于保证发酵食品的质量稳定和安全尤为重要。针对现有的微
<正>招聘工作是企业人力资源管理中最基础性的工作之一,是人力资源管理的第一关口。我们企业许多传统的作法已经无法适应现在的人才市场形势,而一些跨国企业在招聘思想和招聘
我国目前在建的台山核电站采用了欧洲压水堆(European pressurized water reactor,EPR)三代核电技术。与CPR1000核电工程相比,EPR机组使用了全新的仪控设计特性。文章描述了
研究目的构建靶向大鼠paralemmin-3(PALM3)基因的短发夹RNA(shRNA)重组腺病毒载体,以所构建的重组腺病毒载体感染大鼠Ⅱ型肺泡上皮细胞和大鼠,在体内和体外实验中探讨PALM3在
<正>组织要实现长远的发展,做好员工招聘工作是关键。随着人才市场的竞争日益激烈,企业也出现了不同的招聘新方式,引发了一场新的人才招聘革命。一般来说,企业采用的比较传统
随着社会发展,人们交流的频繁,地域的概念逐渐淡化,古筝流派的差异也逐渐减弱。古筝左手"颤音"技法,是古筝艺术"以韵补声"一个最具特色的重要技法,它不仅丰富了古筝的音色,还
研究目的:结肠癌(colon cancer)是消化系统常见的恶性肿瘤,发病率正逐年攀升。早中期结肠癌患者首选手术治疗,并根据术后病理分期决定化疗方案,但晚期结肠癌患者的生存期及预
不同形态的企业,采取何种运营模式,决定着企业是否良性可持续发展。本文借以江铃汽车集团实业有限公司(以下简称江铃实业公司)为实体,从企业集团公司运营管理控制基本理论及