基于深度学习的中文短文本语义相似度计算方法的研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:lhmfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域中,随着网络的普及,研究者对中文短文本语义相似度计算方法的关注越来越多。中文是表意的文字,相对英文,中文没有严格的语法;短文本具有长度较短、表达方式多样化、文法结构不规范的特点。传统的处理方法存在文本特征表示稀疏、语义信息丢失等问题;现有深度学习方法解决了传统方法的部分问题,但忽略了中文短文本的特点。本文基于深度学习的方法,针对中文短文本的特点,主要做了以下工作:(1)建立了中文短文本语义相似度数据集管理系统并构建了数据集。深度学习模型的训练结果很大程度取决于训练数据集的质量。目前国内外有一些英文短文本相似度训练数据集,但缺乏中文短文本的训练数据集。因此,本文构建数据集管理系统,通过普通用户分享主句与回复主句的方式构建中文短文本语义相似度的训练、测试数据集。一条主句、一条回复和一个相似度值构成一组数据,共收集了 12769组数据。(2)构建了基于停用词与同义词词林的中文短文本语义相似度计算模型。目前,大部分短文本语义相似度计算模型的训练语料必须去掉停用词,但停用词对中文分词、语态分析、语义相似度计算有重要作用。因此,本文针对中文短文本的特点,在训练语料中保留停用词,在模型的训练语料中加入了同义词词林。根据测试结果,对比用Word2Vec和Glove训练词向量对模型结果的影响。结果显示,保留停用词,加入同义词词林后,模型准确度提高了 2%-3%。(3)构建了中文双序列短文本语义相似度计算模型。近几年,国内外的短文本语义相似度计算模型都是单序列,没有考虑同词异义、同义异词、短语词序等语义歧义现象。为了克服这些缺点,本文提出了中文双序列短文本语义相似度计算模型,采用结构、参数完全相同的两个LSTM处理文本序列,并加入结果的乘积和方差,放大文本的相同点和差异性。最后,比较本模型与基于CNN的语义相似度计算模型、百度语义相似度计算模型的测试结果,结果显示,本模型在准确率、召回率等方面优于二者6%以上。
其他文献
近3年来,笔者应用化瘀解毒汤治疗职业性慢性铅中毒,取得较好效果,现报道如下.
<正>小学生对形式单一的家庭作业不乐意接受,不认真对待。怎样才能让学生愿意接受家庭作业,并轻松、愉快地完成呢?笔者认为:家庭作业要形式多样化,要适合学生的年龄特点,让学
会议
在外在刺激下,星型胶质细胞和小神经胶质细胞的溶酶体能够通过钙离子调节的胞吐作用释放信号分子ATP,其它细胞(例如,He La细胞)是否也具有释放ATP的功能有待进一步研究。目前,
教学策略,是指在教学过程中,为完成特定的目标,依据教学的主客观条件,特别是学生的实际学习情况,对所选用的教学顺序、教学活动程序、教学组织形式、教学方法和教学媒体等的
研究目的:2006年12月,教育部、国家体育总局、共青团中央共同发布的《关于开展全国亿万学生阳光体育运动的通知》中提到要认真组织实施"全国中小学生课外文体活动工程",大力
采用电化学抛光方法对银进行了表面处理,考察了抛光液各组分以及主要工艺参数对抛光效果的影响。结果表明,经本工艺抛光后的银表面光亮、清洁,达到镜面效果。抛光液组成简单,维护
通过对热处理裂纹、磨削裂纹、电镀氢脆的分析以及对卡尺尺框镀前、镀后的裂纹试验,认为电镀后裂纹产生的原因是由于热处理的热应力和磨削应力的叠加,电镀生产过程中的渗氢是在
食品辐射技术是一项食品加工处理的新技术。本文阐述了食品辐射的原理、作用,以及辐射在食品上的应用过程,并提出了食品辐射有关的安全和生产问题。
近年来,伴随经济发展、社会转型,突发公共危机事件频发,严重威胁民众的人身和财产安全、社会稳定、国家进步。有效地预防是解决危机的最好办法,健全的突发公共危机预案机制对
20110206高强度热浸镀锌钢板的制造方法该发明专利提供了一种高强度热浸镀锌钢板的制造方法,欲热浸镀锌的钢板组成为:0.005%~0.120%碳,0.7%~1.8%硅,0.5%~2.8%锰,0~0.1%磷,0~0.07%硫,0~1.0%铝,0~0.008%氮,其余为铁