基于同异性迁移学习的短文本分类技术研究与应用

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:luoboge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能及自然语言处理技术的快速发展,智能客服系统在学术与工业界获得了越来越多的关注。其中,基于常见问题及解答库(Frequently Asked Question,FAQ)的智能客服系统,由于其简单、高效、正确率高等优点,被广泛应用于许多商业服务。目前,基于FAQ的智能客服系统所依赖的短文本分类技术已取得长足进步,尤其在具有大规模平衡数据的前提下有良好表现。然而,实际的FAQ数据往往是不平衡的,即一些标准问题具有多个扩展问题,而另一些标准问题只有极少数甚至无扩展问题,这就导致依赖大规模平衡数据的短文本分类技术在实际的智能客服系统中难以取得令人满意的效果。本文提出了一种基于同异性迁移学习的短文本分类技术。通过发现大样本和小样本间的共同性和差异性,生成小样本的虚拟样本,进而缓解数据不平衡的现状,提升短文本分类正确率,最终提升智能客服系统的性能。具体说来,首先采用文本相似度度量技术,为小样本发现可迁移的大样本;接着构建基于词模板的样本生成器得到基础虚拟样本;然后以小样本和相似大样本为输入、以基础虚拟样本为输出,训练一个基于编解码框架的虚拟样本生成器,为更多的小样本生成大量的虚拟样本;最后将模型自动生成的虚拟样本做为小样本的扩充数据添加至训练语料,用于训练最终的短文本分类器。实验表明,本文提出的方法在英文和中文两个不同的数据集上,对短文本分类的性能尤其是小样本分类的性能提升效果显著,其中英文小样本上正确率由7.46%提升至59.34%,中文小样本上正确率由1.96%提升至42.67%。此外,本文还深入研究和对比了不同假设下生成的虚拟样本的质量及其对最终分类性能的影响,从多个角度验证了方法的有效性和鲁棒性。基于上述研究,本文实现了一个基于FAQ的智能客服系统,实验测试表明,通过迁移学习技术,该系统可以为小样本问题提供更加精准的回答。
其他文献
在企业日常经营管理活动中,财务管理具有核心作用,甚至决定了企业经营的成败。伴随互联网与信息技术近年来的不断发展,其对传统的开展财务管理的模式带来了极大的冲击。文章
目的探讨多层螺旋CT(MSCT)对溃疡性结肠炎(UC)的诊断价值。方法回顾性分析2006年1月至2010年5月经手术、内镜活检或临床证实为UC并行MSCT检查且资料完整的48例患者的资料。48
本研究以山茶油作为护肤霜的主要基质油,加入铁甲草提取物、枸杞多糖等天然成分旨在研制成一款具有较强抗氧化性能的护肤霜,本研究通过正交设计的方法探究了护肤霜各成分的比
研究评价6周游泳运动对载脂蛋白E(apoE-/-)敲除的6周龄大鼠脂质代谢和动脉粥样硬化的影响。大鼠分为对照组(n=7)和运动组(n=7)。运动组大鼠进行6周递增负荷游泳运动,每周均按
目的探讨血清高敏C反应蛋白、脂蛋白(a)及尿酸水平变化与老年高血压病患者颈动脉粥样硬化程度的关系。方法选取老年高血压病患者64例。根据颈动脉粥样硬化的程度分为颈动脉内
瞬时受体电位通道( transient receptor potential channel , TRPC)是近年来研究较多的一类非选择性阳离子通道,许多阳离子如钙离子、钾离子及钠离子等细胞内流、外流调控均受其
<正>经历了一场理财思路的转变,桂东县小水电撑起财政收入的三分之一的天空。"虽然危机来了,我们还是不太担心没工作没钱挣。"6月初,湖南桂东县贝溪乡南边村的老李对记者说。
将高性能混凝土应用于高速铁路的建设中,不仅有助于满足高速铁路的高平顺性、稳定性要求,也有助于延长高速铁路的使用寿命,提高资金和资源的使用效率。基于此,通过介绍高性能
目的调查分析北京市卫生局眼科住院医师规范化培训现状,结合自身培训经历,进一步探索具有北京市卫生系统特色的培训模式,提高培训的效率和质量。方法自行设计调查问卷,对8所
在高中的数学中涉及到或转化成y=x+a/x(a>0)模型的有关问题屡见不鲜,在高考中也经常出现,貌似很新颖很复杂的许多例题,实质是有关y=x+a/x(a>0)模型的化身,而解决这样模型的方