建议识别的分类模型与文本增强

来源 :云南大学 | 被引量 : 0次 | 上传用户:linlinlin123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的发展,客户留言的价值逐步突显。从结构化、半结构的文本数据中获取高质量相关建议信息,呈现不可估量的商业发展前景。建议识别是自然语言处理中文本分类的一个应用场景,旨在利用自然语言处理技术,挖掘客户留言构成的自然文本,从而准确识别出哪些文本具有建议的属性,让商家聚焦这些建议内容,改进服务质量。本文从深度学习技术入手,探究如何建立有效的识别模型,如何利用文本蕴含的特征来增强建议识别模型的准确性。本文的主要工作如下:(1)将建议识别作为一个分类问题进行研究,构建基于深度神经网络的分类模型BERT-CNN,描述其设计原理、损失函数和优化方法。对构成建议识别模型的文本表示与特征学习两个模块,分别进行消融研究,尝试不同词向量或语言模型,如Word2Vec、Glo Ve、Fasttext、ELMO、BERT与基本神经网络组件,如GRU、LSTM、Bi LSTM、Bi LSTM-Att、CNN-Att、CNN的组合,探究不同的文本表示方法和特征学习模块对分类模型效果的贡献情况,证明BERT-CNN模型在建议识别中效果优于其他模型并进行超参数分析。(2)研究建议识别文本特征增强的方法,分别提出了文本词扩充与文本表示扩充两种建议文本增强的方法增强模型效果。文本词扩充通过TF-IDF识别重要词汇,计算总文本中权重较大的重要词汇,然后引用Microsoft概念标记模型数据库,补充重要词汇相关特征,完成对原始文本的扩充,有效地补充了文本特征。文本表示扩充使用图卷积技术提取文本特征,将获得的文档表示与BERT-CNN得到的文本表示进行融合,充分利用词之间的共现关系,文档和文档之间的共现关系等信息,实现文本表示的增强。实验证明,这两种文本增强的方法有效地提升了建议识别模型精度。
其他文献
长期以来中国多采用两种不同仪器(20cm口径蒸发皿和E601型蒸发皿)观测的蒸发量整合所得资料用于分析蒸发皿蒸发量变化趋势。两种蒸发仪器无论设计安装还是受环境影响都存在显著差异。本研究基于能量守恒定律建立不同蒸发皿蒸发物理模型,分析了不同蒸发皿与环境相互作用的物理过程差异。之后利用野外观测试验不同蒸发皿观测的小时蒸发量、浙江省使用20cm蒸发皿以及距离较近的处于同一气候区的利用E601蒸发皿观测的
地貌主要是气候与地质共同作用的产物。传统的地貌研究往往割裂气候作用与地质作用的内在联系,将两者分开来讨论。然而根据长时间尺度河流阶地序列研究表明,晚新生代气候变冷与地壳抬升速率增大在时间上存在一致性,因此地貌可能是气候-地质耦合作用的结果。气候作用与软流圈流动之间的耦合关系已为人所熟知,但是许多地区的地貌发育历史并不能用该模式加以解释。本文介绍了一种气候作用-下地壳流动耦合的地貌发育模式,并在陇中
已有研究证据表明,青藏高原的多次隆升与第四纪气候的反复波动造成了高原及其邻近地区大量的异域物种分化,使得该地区具有极为丰富的物种多样性。然而,由于自然生态系统中的建群物种可以更加快速地适应气候以及其它生境条件的变化,在一些地质历史事件的间隔期或者间冰期,这些类群可能会发生较为明显的分布变迁,进而减弱之前的异域分化。本论文以青藏高原广布灌木金露梅属植物为研究对象,进行谱系地理学研究,进而验证上述假设
本文主要研究C2中完备的拉格朗日ξ-子流形与完备的拉格朗日ξ-平移子的分类问题.众所周知,自收缩子和平移子对平均曲率流的研究非常重要,因为它们分别刻画了平均曲率流方程解的第一类奇点和第二类奇点.因此,众多学者对这两类孤立子进行了广泛深入的研究,并得到了许多重要而有趣的结果,包括若干分类定理、刚性定理和伯恩斯坦型定理等.作为自收缩子概念的自然推广,成庆明和魏国新引入了λ-超曲面的概念,并研究了λ-超
GCr15轴承钢是一种合金元素较少、具有良好性能的高碳钢,被广泛应用于制造轴承等机械零部件。由于轴承零件的工作环境较为恶劣,在服役过程中长期受到周期性交变负荷的影响,甚至有时无法得到良好的润滑,导致表面很容易发生失效从而降低轴承零部件的服役寿命。因此通过强化研磨加工技术对GCr15轴承钢材料进行表面强化处理,改善其耐磨性能,从而达到延长轴承等零部件的使用寿命的目的。本文首先对强化研磨加工过程以及磨
随着有机光电材料的不断发展,有机材料的种类也不断增多,高性能的光电器件需要根据器件的不同要求选择不同特性的光电材料。对于有机太阳能电池来说,开发最佳匹配的给-受体光电材料,就可以实现高的光电转换效率和较长期的器件使用寿命。而对于光电探测器来说,并不需要具有高光电效率的材料,而需要较高的响应特性比如高灵敏度、高光响应速度、宽光电线性范围和较低的噪声电流。同样,要能够广泛的应用到商业生产中,新材料合成
随着现代无线通信的发展以及人们对通信质量要求的不断提高,小型化、高性能、低成本的微波多工器受到研究者越来越多的关注。微波多工器是将多个滤波器利用一定的匹配网络连接起来,因此它不仅具有单个微波滤波器的良好性能,而且还能够用作隔离元器件连接接收与发射系统。为了适应软件无线电技术对可重构射频前端的需求,对于多工器可重构化的研究也日益重要。本文主要的研究工作如下:第一部分是基于阶梯阻抗谐振器的星点馈电结构
压气机是燃气轮机研制的核心之一,压气机导叶可调可以增加喘振裕度、提高非设计工况效率、改善燃机的起动和加速性,因而深入探究和研究压气机导叶调节规律具有理论和应用上的双重价值。本文主要通过数值模拟和实验两种方法以2.5级跨音速轴流压气机为研究对象,在0.6n工况不同背压下的可转导叶调节规律进行研究,同时对3种导叶安装角的内部流场进行数值模拟计算和实验测量。由于压气机内部流动本质是三维、黏性、非定常的,
细胞壁是植物、细菌、真菌细胞膜外的一层具有弹性的多糖聚合物为主要骨架的结构物质,对于维持细胞形态、抵御外界理化胁迫、调控细胞生长具有重要作用。目前,关于细胞壁主要组成成分及相对含量研究方法的建立已经相对成熟,原子力显微镜、透射电镜、场发射扫描电镜等高分辨显微成像技术对于细胞壁超微结构的解析起到重要的先导作用。然而,这些方法不适用于在活体水平揭示细胞壁原始结构。本研究着眼于利用光学显微镜可对活细胞进
无线传感器网络(Wireless Sensor Networks,WSN)在众多领域有着广泛的应用,但由于其受到带宽限制、有限电池电量和动态拓扑等特性的影响易受到一系列安全攻击,尤其是虫洞攻击。虫洞攻击者通过对不在彼此通信范围内的节点建立伪造邻居关系并由此破坏网络功能。如何对虫洞攻击进行有效的安全检测并删除网络中的伪造邻居关系是无线传感器网络应用过程中亟需解决的问题。针对上述问题,本文提出一种基于