基于深度学习的幽默文本识别和生成研究

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:sfgidtfdxv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
幽默是人类生活中不可或缺的一部分。作为人类交流沟通中的工具,它能够使人们在交往的过程中打破隔阂、消除沟通的界限。人们通过幽默诙谐的方式可以化解交往中的尴尬,促进人际关系形成,从而能够建立良好的个人社会关系。随着机器学习和深度学习的发展,自然语言处理研究不仅在学术界取得巨大进展,在工业界也促进了“小爱同学”、“微软小冰”等带有情感的智能产品走进人们日常生活。若能赋予计算机理解幽默的能力,将会进一步实现人工智能。因此幽默计算已经成为人工智能领域中一个颇有前景的方向。本文构建了一个中文幽默语料库,利用该语料重点研究了幽默识别任务和幽默生成任务。本文的主要贡献如下:(1)针对中文幽默数据集匮乏的问题,提出了一种基于中文幽默理论的数据标注流程。通过语料收集、筛选标注、分析应用等过程,构建了中文幽默语料数据集Humordata,该数据集幽默类型丰富、笑点明显,可用于一般性中文幽默生成任务,共35667条幽默文本。针对不同任务类型的幽默识别任务,构建了幽默数据集Aindata和AMQ-GANdata。数据集Aindata来源于社交媒体的用户对话,可用于日常对话幽默识别任务,共43922条文本,其中包含幽默文本25605条。数据集AMQ-GANdata中幽默和非幽默文本之间的语义关联明显,识别难度较大,可用于检验幽默识别模型的泛化能力,共61454条文本,其中包含幽默文本30727条。以上数据集的幽默文本均具有简短、通俗易懂等特征,能够为不同类型的中文幽默计算任务提供数据支撑。(2)针对幽默文本识别任务,即判断一段文字是否是幽默文本,提出了基于BERT-Text CNN的多特征融合幽默文本识别模型(Multi-Feature Fusion Humor Text Recognition Model Based on BERT-Text CNN,MFF)。该方法针对多个基于BERT的预训练模型进行微调,得到了更加贴近幽默文本属性的词向量表示。通过Text-CNN网络提高了模型对幽默特征的提取能力。通过融合幽默的局部特征和全局特征,学习上下文信息,提高了模型对幽默文本的识别能力。实验证明,本文在自行构建的中文幽默数据集相比当前最佳方法提升了2.54%,在公开的中文幽默文本数据集上比当前最佳方法提升了2.67%。(3)针对开放式幽默短文本生成问题,提出了一个新的幽默文本生成任务:毒鸡汤类型文本的自动生成。针对此任务,提出了基于生成对抗网络的毒鸡汤幽默文本生成模型(Anti-Motivational Quotes GAN,AMQ-GAN)。该模型通过引入幽默模板和对比学习方法极大发挥了预训练模型的作用,提高了对幽默特征的自主学习能力。同时在对抗生成网络中,通过加入语义特征判别器和幽默特征判别器,更好的兼顾了文本对主题约束、行文通顺以及幽默的要求。此外,根据幽默生成任务的特点,本文提出了包含语义通顺、主题一致、幽默程度的人工评价指标。实验结果表明,该模型在BLEU指标达到30.4%,人工评判的幽默文本生成比例为20.6%,均优于当前最佳方法。
其他文献
探讨单孔腹腔镜与多孔腹腔镜下直肠癌根治手术对患者免疫状况的影响。2015年6月—2018年6月,行腹腔镜直肠癌根治术的患者83例,根据手术方法的不同分为观察组(53例)和对照组(30例),观察组行单孔腹腔镜直肠癌根治手术,对照组行传统根治术。比较两组手术指标及白细胞介素-6(IL-6)、肿瘤坏死因子(TNF-α)和C反应蛋白(CRP)等炎症因子水平和细胞免疫功能。结果显示,观察组术中出血量较低;术
本文选取Y外贸企业作为研究对象,结合有关理论文献和本人MBA学习的成果,深入分析该企业客户关系管理方面的相关问题,同时研究了提升客户关系管理能力的具体方案。针对该企业大客户稳定性维护,本文进行了详细探讨,明确了其中所存在的问题,并从战略高度提出了具体的改进方案,为该企业提升大客户维护能力提供了借鉴,增强了客户对该企业的认同与忠诚,增强了企业管理工作的现代化水平,为企业增加了利润收入,提高了其在市场
目的:探讨第二代抗精神病药物与精神分裂症住院患者肺部感染的相关性。方法:选择2018年1月~2020年12月本院2328例精神分裂症住院患者为研究对象,采集相关资料进行单因素分析,通过Logistic回归分析、Kendallτ相关系数评估,探讨第二代抗精神病药物与肺部感染的相关性。结果:精神分裂症住院患者使用多种第二代抗精神病药,使用氯氮平是肺部感染的独立危险因素,呈正相关,相关性显著。结论:第二
<正>《义务教育语文课程标准》(2022年版,下称“新课标”)指出,作为一门运用祖国通用语言文字的综合性、实践性课程,语文课程需要基于课程内容的大力整合,学习方式的变革和评价导向功能的发挥等促进学生正确价值观、必备品格和关键能力的提高。其中语文课程的实践性指语文学科核心素养的获得需要基于学生对语言文字运用,即需要基于丰富的语言实践活动增强学生文化自信,发展学生语言运用力,提升学生思维水平和审美创造
期刊
基于2009—2018年中国省级面板数据,运用静态面板模型和面板门槛模型,分别验证全国、东部和中西部地区风险投资发展对技术创新的影响。研究结果表明,风险投资与技术创新的关系存在区域差异性,全国地区和中西部地区风险投资发展不利于创新产出的增加,东部地区风险投资对创新具有推动作用。研究还发现,全国和东部地区风险投资与技术创新存在门槛性。同时,各地区R&D经费支出和工资水平对区域技术创新水平的提高存在正
对抗样本的存在对自然语言处理领域的众多应用存在安全威胁,对抗攻击方法的研究有助于评估甚至提高深度神经网络模型的鲁棒性。现有的词级文本对抗攻击在生成对抗样本的过程中,依赖于单词重要性评分并排序,但效率低下,需要频繁访问目标模型来获取重要性分数。文章针对该问题,提出通过训练替代模型计算单词重要性分数,并结合语义相似度分层采样后得到的目标模型决策概率差值,对原始输入中的单词进行排序。在文本分类任务上的实
<正>魏徵升任尚书左丞那年,有传言说魏徵偏袒自己的亲戚。唐太宗派御史温颜博调查,证明传言不实。可温颜博奏报称:魏徵身为朝臣,应该检点自己的言谈举止。虽然在情理上他并没有徇私,但也有应该责备的地方。于是,太宗命温颜博去告诫魏徵:从今以后,不可不注意自己行为的影响。过了几天,魏徵入朝上奏道:臣听说君臣和谐默契,二者道义上如同一个整体,哪有弃公道于不顾,只追求个人行为影响的,希望陛下让臣做“良臣”。
期刊
目的:通过对比分析单孔加一腹腔镜与传统腹腔镜技术治疗结直肠癌的临床疗效,探究单孔加一腹腔镜应用于结直肠癌手术的安全性、可行性及其优势。方法:收集自2016年1月至2021年10月期间,在湖北民族大学民大医院胃肠外科行乙状结肠或中高位直肠癌根治术的患者临床资料56例。依据采取手术方式的不同,分为单孔加一组(SILS+1组)患者25例和传统腹腔镜组(CLS组)患者31例。比较并分析两组患者的一般病例资
风险投资被视为经济增长的引擎,推动了国民经济的发展,受到学术界越来越多的关注。本文基于企业创新视角,对风险投资影响企业价值的理论基础和实证研究进行了文献梳理与述评,并对未来的研究进行了展望,以期为风险投资、企业创新及企业价值的相关理论研究与实践提供借鉴和参考。
本文以截至2021年3月31日的科创板公司为样本,以风险投资参与度、是否有国际背景和持股比例为主要解释变量,结合Heckman两步分析等计量方法,检验科创板上市公司的IPO溢价现象。首先,风险投资参与投资与IPO抑价没有显著相关性。其次,风险投资机构的国际背景与IPO抑价正向显著相关。再次,风险投资的持股股数与IPO抑价显著正相关。最后,针对一级市场的企业、投资者和监管当局,本文提出相应的对策建议