基于预训练模型的房产行业即时通讯聊天问答匹配

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lyling0411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展以及5G时代的来临,即时通讯(Instant Message,IM)渗透到越来越多的应用场景。作为房产行业的一项需求,在客户和房产经纪人的即时通讯对话中,平台需要准确找出服务者是否回答了客户的问题。由于真实聊天的随意性和碎片化,以及各地语言习惯不同,真实场景下的匹配需求难以被满足。BERT系列模型表现良好,但在下游任务上的泛化性有提升空间,并且没有利用到候选回答之间的上下文信息。为此,本文在BERT系列中文预训练模型微调的基础上提出两方面的改进,使模型在聊天问答匹配任务上的精度更佳。首先,对于预训练模型在聊天问答匹配任务上的微调,本文采用对抗训练来提高模型泛化性,即训练模型时对输入添加扰动。另外,针对构建的混合对抗训练目标函数的正则化强度问题,本文提出了增量对抗训练(Incremental Adversarial Training,IAT)来适应训练过程中模型拟合程度的增加,以提高问答匹配的精度。其次,针对即时通讯聊天场景,考虑到问题的多个候选回答能够互相提供丰富的上下文信息,本文提出了序列式上下文候选匹配(Serial Contextual Candidate Matching,SCCM)系列模型,其中的多候选匹配结合了抽取式任务的思想,比单候选匹配效果更佳,且能一次性训练或推理包含多个样本的一组数据。为了充分利用有限的训练数据,在二阶段训练基础上引入新的训练阶段,针对提出的匹配模型设计的序列适应性训练(Serial Adaptive Training,SAT),从而进一步提升匹配效果。综上所述,本文基于中文预训练模型,从两个角度进行了改进,通过对抗训练和利用回复的上下文关系,提升了房产行业即时通信问答匹配的精度。
其他文献
在工业生产中,基于机器视觉的表面缺陷检测是保证产品质量的重要手段之一。虽然基于监督学习的检测算法在诸多工业检测任务中取得了突出的表现,但是在许多场景下,想要获得大量带有标注的已知缺陷样本来进行学习往往是不可能的。针对许多工业场景中存在的正常样本可以大量获得而缺陷样本十分稀少,监督学习方法效果严重受限的问题,本文聚焦于各种纹理对象以及大致对齐的物件对象的无监督表面缺陷检测及定位的任务,设计了一种简单
学位
微能源系统是以分布式可控电源为支撑,聚合多种可再生能源和多类能源供应需求的微型多能联供系统。基于多能互补与能源梯级利用技术,微能源系统能够实现供能的节能高效与清洁环保,是构建新一代可持续能源电力系统的重要选择。与此同时,随着我国电力体制改革的不断推进,以市场化交易机制促进能源电力行业进一步发展亦成为必然趋势。在能源市场放松管制与能源产业变革的双重推动下,各类型能源系统逐步由物理网络的交互发展到多重
学位
肿瘤免疫疗法作为有前景的肿瘤治疗策略,面临治疗响应率不高、免疫药物在正常组织毒副作用较大的问题。结合光动力疗法(Photodynamic Therapy,PDT)和肿瘤免疫疗法能有效提高肿瘤治疗疗效。然而,当前PDT存在光敏剂靶向能力与生物相容性差、激发光源组织穿透深度有限的缺陷。基因编码光敏剂是光遗传领域中受光激活产生活性氧的一类光敏蛋白,具有无法比拟的生物相容性、组织特异性和时空可控性。本文利
学位
Fe基非晶涂层是一类兼具优异耐蚀与耐磨性能的新型表面材料,在海洋工程领域具有重要的应用前景。然而,涂层在海洋环境中服役不仅涉及腐蚀问题,还需考虑生物污损问题。目前,有关Fe基非晶涂层的生物污损性能鲜有报道,如何设计出防腐防污一体化非晶涂层是一项具有挑战的研究课题。本论文采用了超疏水涂层、注入润滑剂的光滑多孔表面(SLIPS)、水凝胶防污涂层3种不同的技术对Fe基非晶涂层进行表面改性,并系统地研究了
学位
生物传感技术的发展使人们能够定量检测与疾病和健康状况相关的生物标志物。表面等离激元共振(Surface Plasmon Resonance,SPR)生物传感器因其实时、无需标记、高分辨率以及无背景干扰等优点,现已广泛应用于基础分子生物学、药物筛选和疾病分子标志物研究当中。本文基于金-钛等离子体纳米孔阵列成像传感器,研究芯片显微成像分析的新实验检测方法,以实现在通用光学测量仪器上提高SPR生物分子传
学位
火棘(Pyracantha fortuneana(Maxim.)Li)是蔷薇科苹果亚科火棘属的一种常绿灌木或小乔木,其果实火棘果在我国野生资源丰富,拥有1700多年的药食两用历史。已报道火棘果醇提物(PFE)对高脂膳食诱导的肥胖大鼠具有显著的减肥降脂、修护肠屏障等功效,且与其富含的多酚、三萜等抗氧化成分密切相关,显示出火棘果可作为功能食品的优良开发潜力。但对PFE的主要降脂化合物及其作用途径尚缺乏
学位
多输入多输出系统(Multi-input Multi-output,MIMO)作为5G的关键基础技术,不仅可以提高信道容量,也可以提高信道的可靠性。如何在MIMO接收端进行信号检测,是MIMO系统的关键,传统的方法使用导频训练序列通过信道估计来获取信道状态信息,继而进行信号检测。然而,导频的使用降低了频谱效率,带来较大的资源消耗,削弱了 MIMO系统的好处。因此,使用盲源分离和独立成分分析的方法,
学位
蛋白质结构域是研究蛋白质进化、结构、功能的基本单元,可以作为蛋白质设计的元件,进而辅助药物设计。结构域的正确划分对于复杂蛋白质的结构预测及解析十分关键。结构域的划分通常从蛋白质三维结构出发,以人工划分为主,计算手段为辅。目前蛋白质数据库中仍存在着大量结构未知的蛋白序列,因此从序列出发进行结构域预测,能够为蛋白质结构域的研究提供有效的数据支持,对于蛋白质分类及其进化机制的研究有着重要意义。同时,蛋白
学位
随着高通量测序技术的快速发展,生物数据的数量和维度呈爆发式增长,给传统分析方法带来了严峻的挑战。近年来,深度学习的兴起为复杂、多维的生物数据分析提供了有力工具。得益于此,与癌症相关的研究也迎来了迅猛发展。作为其中的一个重要研究方向,癌症分类对指导临床治疗意义重大。尽管越来越多的癌症分类研究开始尝试采用深度学习算法去处理大批量的测序或病理切片数据,但由于特征集种类单一和数据集内存在信息冗余等问题,没
学位
随着无线通信业务需求的快速增长,频谱资源越来越稀缺,频率可重构天线可以根据不同应用场景灵活地切换工作频率,提高频谱资源利用率。且可减少系统中所需天线的数量,从而节约空间,降低成本。因此研究频率可重构天线具有实际意义。本文提出了三款不同的频率可重构天线:(1)为了提高频谱利用率,提出了一款用于认知无线电的频率可重构天线。该天线利用PIN二极管和寄生辐射单元实现了频率可重构,天线能够切换超宽带感知模式
学位