人机对话系统中短文本性别分类及其应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yinyilin183
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人机对话系统是人工智能领域的重要研究问题。随着自然语言处理和深度学习技术的不断发展,人机对话系统的功能也日益强大。人们即可以用人机对话系统完成很多任务,还能闲聊打发时间。人机对话系统逐步从一个玩具发展成一个受人信赖的助手和可以倾诉的伙伴。与此同时,大家也对人机对话系统提出了更高的要求。人们希望与自己聊天的机器具有一定特色,例如带有某一性别特征。本文主要针对这一需求,设计了带性别特征的人机对话系统,并对这个系统的核心部分短文本的性别分类模型进行了探索。本文设计的人机对话系统主要由输入模块、语义理解模块、对话管理模块、性别判别模块和输出模块五个部分组成。与传统人机对话系统相比,主要的不同在于增加了性别判别模块。该模块通过一个神经网络分类模型,对候选回复进行性别判别,从中挑选出符合性别设定的回复进行输出。这样解决了传统人机对话系统输出文本性别随机的问题,提高了用户体验感。在性别判别模块,本文首先采用CNN作为基准模型,实现了文本的性别分类。在分析了其不足之处后,提出了 BERT-CNN模型,通过预训练和微调两步实现文本性别分类。BERT-CNN的设计沿用了迁移学习的思想,通过预训练模型学习通用的语言知识,然后迁移到微调模型上。微调模型融合了 BERT和CNN,提取的文本信息更加充分。本文针对模型训练所需要的大量带男女性别标签的训练数据,提出了非人工标注的解决办法。首先采用爬虫获取社交论坛的帖子及该帖子发帖人的性别,将其作为原始的弱标注数据。然后通过卡法检验和IDF特征,获得最能代表性别差异性的关键词。将原始弱标注数据中不含关键词的数据去掉,剩下的是相对干净的标注数据。本文引入标签平滑策略,从一定程度上解决了数据噪音问题。并通过模型迭代,增补数据,提升了分类准确率。
其他文献
视听作品作为一种载体、媒介,它可以对高校思想政治教育产生一定影响。一方面,视听作品可以充实高校思想政治教育的内容,丰富与创新高校思想政治教育的形式,促进高校思想政治教育载体的发展,深化高校思想政治教育对象的认知。另一方面,良莠不齐的视听作品也破坏高校思想政治教育环境,作品随意传播影响高校思想政治教育开展,整体冗杂的作品现状加大了教育者对作品鉴别与应用的难度,一些不良的作品内容会冲击教育对象的思想观
食品是人类生存和生活的必需品,食品安全关系到每个人的身体健康与生命安全。随着我国改革开放程度不断加大,人民的收入不断增加,生活水平也得到了很大的改善,人们对食物的要求也从简单的吃饱就好转向营养与安全。针对不断出现的食品安全问题,我国政府采取了一系列的措施,城市食品安全监管得到有效提高,但是农村食品安全形势依然严峻。因此,研究当前农村食品安全监管问题具有重大意义。本文紧紧围绕农村食品安全监管这一主题
同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术的目的是使机器人在未知的环境中,并且不明确自身位置的情况下可以同时进行自身定位与构建周围环境的地图。随着机器人领域的快速发展,对视觉SLAM技术的需求也不断增加,特别是近年来深度相机的广泛应用,极大的方便了视觉SLAM的实现。经典的视觉SLAM分为前端视觉里程计,后端优化,回环检测以及地图
随着物联网的快速发展,物联网设备的数量和传感数据呈指数形式增加。在此状态下,如何更加有效的安全保护这些传感数据的信息安全成为人们十分关切的重点。在物联网中,由于智能传感器具有智能开放的特性,感应数据在传输、存储和身份认证的过程中容易发生数据被盗窃、伪造、欺骗等安全性问题,一旦存储服务器受到恶意攻击者的攻击,那么物联网数据的安全性将会受到极大的威胁,特别是在集中式存储的服务器中。在此状态下,人们对物
区域创新驱动发展作为国家创新驱动发展体系的重要组成部分,关系到新常态下区域经济社会能否可以顺利地从以要素驱动型、投资驱动型为主向以创新驱动型为主的转变,直接关乎到未来的民生福祉能否持续提升。黑龙江省作为东北老工业基地之一,随着技术设备的老化以及化石燃料资源的逐渐枯竭,旧有的发展优势在新科技新产业新模式面前变得越加渺小。新时代的召唤下,黑龙江省应当如何推陈出新,使之能以科技创新高效地带动经济产业转型
中文分词是很多汉语自然语言处理任务的第一步,在自然语言处理中拥有举足轻重的地位。对中文分词算法的研究已经持续了数十年,研究表明,基于字标注思想的中文分词模型,在分词准确率和召回率方面,要优于传统的字符串匹配以及概率统计分词模型。近年来,对分词模型的研究聚焦于深度神经网络。相比于传统的基于字标注的机器学习分词模型,基于字标注的深度神经网络中文分词模型无需繁琐的特征工程,并且在分词准确率上也犹有过之。
Economic reforms are increasingly taking place worldwide in businesses.There are several reasons behind the rapid rise in economic growth,but globalization is one of the most significant.Trade is the
如今,区块链已成为互联网时代的里程碑的技术象征,身居互联网时代的各位学者都开始投身这一新兴技术的科研事业之中。目前突破区块链相关技术的难点并加之应用已成为一种重要趋势。同时,探索学习区块链技术在民生领域的运用,在医疗服务、养老、食品安全、商品防伪等领域中,区块链技术有着无限的潜力,需要相关技术人员去发现问题,发掘需求,从而逐步地实现改善民生,提供优质的社会服务的目标。在以往的医疗系统中,病人的个人
本文利用多项式完全判别系统方法和试探方程法给出了两个非线性物理模型方程的精确解的构造和分类.这些精确解将有助于描述这些方程所表示的具体物理模型的动力学行为.主要分为两部分,第一部分运用多项式完全判别系统研究非线性三维修正Korteweg-de vries-zakharov-kuznetsov(mKdV-ZK)方程,得到了该方程精确解的构造和分类.这些精确行波解包括有理函数型解,雅可比椭圆函数解,孤
微束等离子弧焊电弧是一种非转移型弧(维弧)与转移型弧(主弧)同时存在的混合型等离子弧,所以在实际焊接过程中通常需要有两个独立电源供电来分别产生这两个电弧。微束等离子