基于强化学习的文本语义匹配

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xiawayu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的飞速发展,互联网的信息量呈现爆炸式增长。信息量的增加既为人们的生活带来了便捷,也给人们提出了巨大的挑战。在海量的信息面前如何高效的获取信息以及如何去除冗余信息成了很多人需要面对的问题。文本匹配作为信息检索和冗余文本消除的基础技术手段,一直受到学术界和工业界的高度重视。同时许多自然语言处理中的任务例如信息获取,问答系统,机器翻译,对话系统等等,都可以被视为文本匹配问题。  传统的文本匹配算法往往基于人工抽取的规则进行模式匹配,这导致规则复杂而且难以管理;因此目前对文本匹配的研究大都试图通过深度神经网络理解文本语义进行语义匹配。  近年来,深度学习的进展大大增强了强化学习的表达能力。强化学习已经在围棋,游戏等方面达到甚至超越人类的水准。这给基于文本语义匹配带来了新的可能性。利用强化学习强大的表达能力,我们可以较少的计算量下得到更好的效果。  本文针对文本匹配的特定场景,设计了面向马尔科夫决策过程的文本匹配算法。传统的强化学习算法往往基于贪心的思想进行预测,很容易陷入局部最优。为了避免这种情况,本文引入了蒙特卡罗树搜索对马尔科夫决策过程进行训练和预测。由于强化学习算法的运行速度通常较慢,因此针对本文提出的算法进行了并行实现以提高算法的运行速度。  本文进行的研究工作如下:  (1)利用马尔科夫决策过程设计了文本匹配的强化学习  一个强化学习过程包括状态、动作、转移概率、奖励和策略。强化学习过程的设计会直接影响算法的效率和最终结果。针对于文本匹配场景,本文设计了强化学习中的状态、动作以及奖励函数,并基于值迭代和策略梯度进行实现求解。通过这一方法,建模了文本匹配中的交互规则。本文设计的强化学习过程在大数据集场景下的准确率和auc均优于其他经典文本匹配算法的效果。  (2)引入蒙特卡罗树搜索增强模型的泛化能力  基于值迭代的文本匹配模型虽然可以建模文本匹配中的交互规则,但是基于贪心的方法对于语言的组合结构问题有着天生的缺陷,同时在小数据集上需要精细的调参已达到最优效果。蒙特卡罗树搜索算法向前看k步的设计降低了局部最优解出现的可能性,因此本文基于蒙特卡罗树搜索算法设计了文本匹配模型,并与其他经典算法进行了对比。实现结果表明,基于蒙特卡罗树搜索的文本匹配模型具有一定的优势。  (3)对本文提出的算法进行并行化实现  强化学习虽然拥有强大的建模能力,但是其算法本身的特点导致了它难以加速,且极难利用GPU进行并行计算。而蒙特卡罗树搜索本身的特点则进一步增长了算法的运行时间。因此对强化学习算法进行加速以加快训练速度,降低推导延迟是必不可少的。本文结合蒙特卡罗树搜索以及文本匹配的特点设计了文本匹配算法,在多线程环境下取得了较好的效果。
其他文献
随着集成电路制造工艺向超深亚微米和纳米级推进,芯片集成度大幅提高,嵌入式随机访问存储器(RAM)逐渐成为集成电路芯片的主体。由于高密度嵌入式RAM的成品率直接影响着芯片的成
随着社会、经济的发展,人们认识问题的复杂性、不确定性持续增加,这就导致表征事物行为特征的数据往往不是一些确切的数,而是一些带有一定误差的取值范围,我们称之为区间数,
随着机器人研究的深入和机器人领域的拓展,许多恶劣、危险环境下的作业,都需要由作机器人完成。这些作业一般都比较复杂,由于受机器人技术水平的限制,目前机器人很难自主完成这些
软件成本估算领域经过四十余年的发展,涌现出一大批估算理论与方法,但都没有在现实环境中的软件企业中得到广泛应用,在项目早期进行软件成本估算仍旧是一件非常难的任务。由于估
社会网络分析(Social Network Analysis,SNA)是使用量化方法对社会网络进行分析,研究其中个体和网络特性的学科。近年来,随着Internet的发展,大量社会网络数据的出现,尤其是由网络行
逆向工程以其在产品设计和研发中的独特优势,得到了广泛的研究和应用。作为其中的两项关键技术,点云数据简化和曲面重建具有重要研究价值。如何有效地缩减点云数据的规模并在
ICRH(Ion Cyclotron Resonance Heating)天馈线远程控制与状态检测系统是EAST-ICRH控制子系统之一。基于FPGA的天馈线远程控制与状态检测系统实现解决了新型ICRH天线和传输系
射频识别(RFID)是一种利用无线射频的远距离通信方式实现的非接触式的自动识别技术,和其它识别系统相比较具有速度快、实时性强、采集准确性高等优点。随着技术的发展,RFID系
语音识别技术具有重要的理论价值和广阔的应用前景,近年来受到了人们的广泛重视。随着电子计算机的不断应用与发展以及人工智能的不断进步与完善,人们越来越希望让机器能够理解
近年来,关于分布式哈希表(DHT)的研究非常多,有通过模拟仿真、理论分析等方法的,也有从实际测量角度出发的。eMule中基于Kademlia算法的KAD网络是当前最大规模的DHT实现,任何时刻