基于词对句交互机制与多任务学习的论坛重复问题检测算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:seanray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区问答论坛——如Stack Overflow,Stack Exchange,教育论坛——如大规模在线公开课(Massive Open Online Course,简称MOOC)论坛是网民学习交流中重要的媒介。人们对信息质量、信息时效性和反馈效率的追求,促使论坛管理的不断完善。对论坛中重复问题的检测识别是论坛管理中面对的主要任务之一。重复问题的精准识别和检测对构建常见问题库有重要意义,且影响着论坛平台能否有效地为用户检索相关答案,影响着能否为资深用户或论坛“领袖”推荐一些有挑战性、未被提问过的问题,这与用户的体验密切相关,甚至影响着用户的去留。借助语义匹配模型,可以解析问题对的释义,以识别问题对的语义是否对等,从而实现对重复问题的检测和判别,减少人工标记和管理的成本。但多数网络论坛分学科、分领域,领域数据不足等领域特殊性问题使现有语义匹配模型很少能直接应用于此类具有领域特殊性的论坛。为解决上述问题,本文提出将语义匹配模型与多任务学习集成的解决方案,多任务学习采用基于参数软共享的方法,利用大规模数据辅助目标领域任务,实现多学科、多领域论坛的重复问题检测。针对现有语义匹配模型对句子级别语义解析的缺陷,本文提出结合词对句交互机制的混合CNN(hybrid CNN,简称h CNN)模型h CNN-I和h CNNII,词对句交互机制在h CNN的基础上,可通过词与词之间的关系,进一步抽象出句子级别的语义,从句子级别的语义选择性地忽略或注意潜在的相似词、关键词,从而更好地识别问题对的释义是否等同。本文在公开基准数据集和中英文MOOC论坛数据集上实验对比多种迁移策略,讨论重复问题检测面临的领域特殊性问题,验证本文多任务学习方法的有效性。在基于参数软共享的多任务学习框架下,实现多种经典对比算法,验证对比本文模型与经典语义匹配模型的效果。实验表明,通过与多任务学习方法结合,h CNN-I和h CNN-II语义匹配模型相较于经典语义匹配模型在多领域、多学科论坛的重复问题检测任务中取得较优效果,且词对句交互机制是有效的。通过可视化分析,本文进一步解析参数软共享多任务学习和词对句交互机制的工作原理,侧面验证了本文方法的有效性。
其他文献
滚动轴承作为旋转机械的重要零部件之一,其故障诊断对于机械设备安全运行具有重要意义。由于滚动轴承作业环境较为复杂,采集到的振动信号中包含大量噪声,如何在噪声环境中提
现阶段,室内饰品的选择和布局通常通过用户手工完成。从海量的饰品模型中挑选出合适的饰品,挑选速度慢、过程长,需要大量的人力成本,挑选出的饰品质量不可控。因此设计一种能
科学技术的进步与提高,使得人机交互显得额外普遍与重要。手势的灵活、便捷等特点,使得它逐渐地成为了人机交互的主要桥梁。但是自然复杂环境下的手势识别受到诸多因素的干扰
水下目标位姿的准确估计,对于水下设备大对接、水下机械手末端空间操纵等方面具有重要的工程价值。基于视觉的目标位姿估计算法,在航空航天装备以及陆地地面设备上应用得比较成熟,具有位姿定位精度高的特点。由于水下环境的特殊性,如水中颗粒对光的散射以及水对光的吸收衰减现象,会导致水下摄像机系统采集获取的图像特征轮廓难以提取,使得该算法难以获得理想的位姿估计值。针对此问题,本文开展了以下工作。首先,研究了水下成
随着越来越多的手持电子设备以及工业自动化的蓬勃发展,印制线路板(PCB)得到了广泛的应用。在整个PCB的加工生产过程当中,钻孔加工是必不可少的。钻孔加工是指在机床上用不同
我国现行的环境侵害救济以民事赔偿责任机制占主导地位,环境侵害的社会化责任机制尚不健全。在环境问题较为突出的当代社会,环境侵害的国家赔偿已经成为许多国家既有制度。作为环境侵害救济途径之一的国家赔偿主要是针对国家机关及其工作人员在行使国家职权过程中由于违法或过错,致使公民、法人或其他组织遭受环境损害时的一种救济路径。但是,在我国,长期以来人们对于可归责于政府的环境监管失职致人损害的国家赔偿责任问题缺乏
近年来,随着社会的不断发展和信息技术的不断进步,人类的衣食住行更加智能化,生活环境中摄像机监控系统日益普遍。行人重识别和多目标跟踪作为关键技术对于视频监控系统智能
目前深度学习在各个领域取得巨大的成功,例如图像识别、目标检测和自然语言处理等任务,但是这些任务取得成功的前提是拥有大量的数据标签,然而在实际应用中,有些任务较难获取
海洋环境大数据处理是建设智慧海洋的重要组成部分,在合理地开发海洋资源、准确地预测预警海洋灾害、有效地保护海洋环境等方面具有重要的现实意义。因此将我国某海海域环境
视觉SLAM是智能机器人和无人驾驶汽车在未知环境中实现完全自主导航的关键技术。传统的视觉SLAM重在几何的定位和建图,没有感知环境的语义信息,因此,在其基础上,能够构建具有