基于神经网络与排序学习的智能文本挖掘

来源 :科技信息·中旬刊 | 被引量 : 0次 | 上传用户:ykq1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着电子书阅读的增加,人们往往需要从大量文本中抽取部分有用信息。基于文本信息检索问题,首先对文本进行预处理,通过连续空间词向量模型生成了文本词向量,并利用剪支卷积神经网络建立了问句向量的生成模型,之后通过长短期记忆卷积神经网络对问题完成分类,再利用文档列表法让计算机通过排序学习对剩下的数据进行训练打分。最后通过不断训练调整得到训练结果最好的参数,将该参数下的打分函数投入到测试数据计算结果,并通过阈值计算和归一化处理最终得到所有测试数据的标签输出,最终答案检索的排名第一的准确率为65%以上,排名第二的答案准确率达到80%以上,一定程度上能够达到辅助阅读的作用。
  关键词:神经网络;排序学习;文本检索;阈值
  引言
  日常生活中人们要阅读大量的txt文本,其内容可能是小说、教程、文集、词典等。很多情况下我们只是需要从文本中查找某一些片段来解决我们的问题。比如,通过查找法律文献中的一些段落来解决我们的法律疑惑,这时并不需要精读整个法律文献。因此我们希望智能阅读技术能够在这方面提供一些帮助。为此需将自然语言类的文本材料和相关问题转化成计算机可识别语言,再通过对问题的分类和分析,实现计算机对自然语言问题[1-2]的读取和理解,然后建立可靠模型对相关文本材料进行智能检索[3-4],最终稳定地实现计算机对正确答案的准确定位,以满足用户的实际需求。
  1 词向量与问句向量
  在进行所有操作前,首先对所有文本内容尤其是问题进行分词、去停顿词处理以及词性标注等预处理工作。
  由于计算机不能直接识别自然语言,因此将文本内容转化成计算机可识别语言是必要的也是关键的一步。词向量技术就是一种将单词表征成为多维空间向量的方法,本文所采用的词向量生成方法主要是由Mikolov等人提出的连续空间词向量技术[5],该模型有效的避免了向量稀疏性和高维性等问题,具体方法是,首先随机初始化训练样本中出现过单词的向量,其次从训练样本中的第一个单词开始,用训练单词的上下文单词的向量更新训练单词的向量。
  由于需要对文本进行检索,因而对于问句也需要生成對应的向量。相比于图像和语音识别领域,在自然语言处理中卷积神经网络不需要表征那么复杂的信息,语句用浅层网络表示即可。采用的问句向量生成模型对传统卷积神经网络进行了剪支处理,只保留了输入层、卷积层、采样层和输出层四层卷积神经网络[6]。问句向量生成模型的训练目标下所示:
  式中:为由卷积神经网络生成的问句向量;为与向量属于同一类的抽样向量; 为不属于向量所属类的抽样向量。
  问句向量由采样层经过全连接神经网络转换得到,采样层变换到传输层的函数[]。
  式中:表示输出向量;表示采样层向量;表示加权变换时的权值信息。
  2 答案检索
  2.1 排序学习
  进行答案检索前,采用的是一种基于长短期记忆卷积神经网络(LSTM-MFCNN)的方法[7]对问题进行聚类,以减少候选答案的选择空间。排序学习[8]是指在排序生成和排序整合中用于构建排序模型的机器学习方法,旨在使用机器学习的方法,根据有标签的数据解决排序问题。
  对此针对性地采用了文档列表方法进行排序。将每个查询对应的搜索结果列表作为一个训练样例,通过优化最优评分函数F,对应新的查询,评分F对每个文档打分,然后根据得分由高到低排序,产生最终的结果,对于训练集中的数据,通过排序学习对每个问题所对应的不同文档中的各个段落不断进行打分,通过不断调整参数最终得到各段落的打分结果与段落0、1标签匹配程度最高的评分函数F,用于测试阶段对测试数据的打分排序操作。
  2.2 参数训练
  通过排序学习对文档进行评分之后,需要评定问题的答案是否位于该行,因而需要确定评分的阈值以完成对文档行的标记,即评分大于等于阈值,标记为1;评分小于阈值,标记为0。阈值的计算公式如下:
  式中:为i个问题对应的评分阈值,为第i个问题最高分,为i个问题最低分,为权重且。
  显然对于不同的问题,阈值选取并不相同,但要求使得整体的准确率较高,即:
  因而需要对进行确定。评估指标F1为:
  式中:为预测标签为的材料数,为真实标签为1的材料数。
  3 结果展示
  本文数据源于2018年第六届泰迪杯数据挖掘竞赛官网。
  3.1 参数训练结果
  对文本进行处理后,通过排序学习对问题进行检索,进而可对应生成各个passage的评分,同时还必须对对应passage进行标记,对于上优化模型,通过训练集中的3万条问题,通过排序学习生成评分,进而导入到优化模型,训练得到L值与F1的关系如下图。
  显然根据图像,当L位于0.5-0.6之间时评价指标F1能够达到最大,具体计算求得L=0.55,F1max=0.54。
  3.2 结果分析
  针对问题的文档进行评分,显然按照评分进行排序,评分越高,则其为正确答案概率就越高,则理应作为最佳推荐结果,但实际上在排序中发现,当某些文档评分最高时,其却往往不对应为正确答案,进而讨论排名处于前三的为正确答案的比率,如下图所示。
  排名前三的累积答案准确率如下图。
  显然,由图可知排名为第一的对应答案准确率为65%以上,在排名前二答案中答案准确率超过80%,对于问题基本能够满足要求。
  4 结语
  结合数据,确定得分结果与标签最佳匹配状态下的最优参数,从而得到所有测试数据的标签输出。结果表明:得分最高的答案是正确解的比例达到 56.3%;得分前三包含正确解的概率达到83.8%,得分前五包含正确解的概率达到 92.9%。最终得到训练集的F1值为 0.54。对于文本存在多选答案的情况,能够起到较好的阅读辅助作用。
  参考文献:
  [1] 高明霞,刘椿年. 基于约束的自然语言问题到OWL的语义映射方法研究[J]. 电子学报,2007,35(8):1598-1602.
  [2] 张琪玉. 关于自然语言检索问题[J]. 图书馆论坛,2004,24(6):211-213.
  [3] 郭庆琳,樊孝忠. 自然语言理解与智能检索[J]. 信息与控制,2004,33(1):120-123.
  [4] 晏创业,张玉峰. 智能检索中的网络数据挖掘技术探索[J]. 中国图书馆学报,2002,28(3):49-51.
  [5] 胡学钢,董学春,谢飞. 基于词向量空间模型的中文文本分类方法[J]. 合肥工业大学学报(自然科学版),2007,30(10):1261-1264.
  [6] 邢超. 智能问答系统的设计与实现[D]. 北京交通大学,2015:6-28.
  [7] 谢逸,饶文碧,段鹏飞,等. 基于CNN和LSTM混合模型的中文词性标注[J].武汉大学学报(理学版),2017,63(3):246-250.
  [8] 李超,柴玉梅,南晓斐,等. 基于深度学习的问题分类方法研究[J]. 计算机科 ,2016,43(12):115-119.
  作者简介:
  李海阔,男,1997,四川南充人,主要从事应用数学研究,15328079311,LHKfromswpu@163.com
其他文献
摘要:随着互联网技术的快速发展,智能化控制技术也得到了显著的进步,并且在机电一体化系统中的应用进一步深化。智能化控制技术对传统的控制技术带来了极大的条韩,逐步在社会中的各行各业发挥着愈加重要的作用,不仅弥补了传统控制技术生产方面的缺陷,而且还能够明显地提高生产效率,智能化控制技术促进了机电一体化系统向更稳定、更高效的方向不断地发展。本文主要论述了智能控制技术的特点和控制理论,并且对比了其于传统控制
期刊
摘要:近场测试因其保密性高、测试距离短等优点在天线测试中被广泛应用。但是,由于天线时域近场测试技术对误差体系研究的缺失,导致测试结果的不确定度分析一直无法完成。基于此,本文针对时域平面近场测试技术进行误差分析,在给出误差项后,对误差的产生机理进行了讨论,通过仿真和实测给出了误差对测试结果的影响。  关键词:时域;近场测试;误差分析;不确定度分析  1、天线时域平面近场测试误差  时域近场测试导致的
期刊
摘要:作为新一代光源的LED具有着节能环保、寿命长、响应快速的优点,在交通信号、应急照明、大型屏幕显示等领域应用越来越广泛。本文主要探讨了一种LED路灯光照强度自适应控制方法,可为在道路照明中推行LED路灯提供一定参考。  关键词:LED路灯;光照强度;自适应  一、LED路灯在道路照明中的特点分析  首先,LED路灯发射的灯光能够定向,不会出现光慢反应现象,可以很好的达到节能减耗的效果.其次,L
期刊
摘要:在科技不断发展的基础上,在GPS定位技术之后又推出了三维激光扫描技术,随着三维激光扫描技术在各类测量工作中的广泛应用,其自身的扫描速度、测量准确度和信息处理能力等方面的优势也逐渐显现,对于一些对精确度和测量效率要求较高的测量工作来说,可以为其提供良好的技术支持。三维激光扫描技术在实际应用的过程中,可以有效降低测量成本,提升测量效率,同时,较于原有的测量技术来说,可以充分发挥自身的数据获取和信
期刊
摘要:燃气热水器恒温性能是用户关注的焦点,各燃气热水器生产企业围绕恒温的研究提出多种解决方案,但是不能从根本上解决出热水等待时间长、出水温度忽冷忽热、二次开水不出夹生水等行业难题。针对如上问题,本文提出一种改变燃气热水器的管路设计和控制系统的研究方法。通过该方法,可实现开机后出水温度稳定时间不大于8s,出热水温度变化控制在±1℃。  关键词:燃气热水器;恒温性能;优化;提升  燃气热水器凭借出水速
期刊
摘要:加强反腐倡廉建设是一项长期的复杂的系统工程,必须建立和完善反腐倡廉的长效机制。建立和完善反腐倡廉建设的长效机制,就要建立和完善教育机制、预防机制、权力制约机制、监督机制、制度机制和惩处机制。  关键词:国有企业;建立完善反腐倡廉建设;长效机制  中共中央颁布了《建立健全教育、监督并重的惩治和预防腐败体系实施纲要》,深刻阐述了建立健全惩治和预防腐败体系的重大意义,总结了党风廉政建设的基本经验,
期刊
摘要:现有部分回转阀门的开关力矩由供电电压决定,在开关过程中电动装置输出的转矩为一个定值。当阀门关到位或开到位后,根据位置传感器的信号来断开阀门电装供电,阀门动作停止。在阀门多次动作后,阀瓣的阻力矩会变小。在关阀时,有可能出现电机输出的力矩较大,导致阀门卡滞,无法连续可靠动作。本文针对DN125屏蔽电动球阀电动装置开展了电磁方案研究,完成了结构参数设计和电磁参数设计。利用ANSOFT软件对电动装置
期刊
摘要:倒虹管是渠道工程建设中的重要节点,在遇到河道、涵洞等障碍物时起到衔接上下游管道的重要作用。对此,本文首先对倒虹管进行了介绍,然后对渠道工程倒虹管布置要点进行了分析,并结合工程实例,对该渠道工程渠道工程倒虹管布置形式进行了详细探究。  关键词:渠道;倒虹管;管材  1 引言  在水利工程建设中,倒虹管技术发展比较成熟,当当供水渠道遇到河流、洼地等地下构筑物的阻碍作用时,很难根据平坦区域坡度以及
期刊
摘要:薪酬满意度是电力企业提高员工工作效率以及稳定员工工作心态的重要措施,把薪酬水平维持在员工满意度水平对电力企业的稳定发展来说极其重要。本文以陕西地方电力企业为例,分析当前影响企业员工薪酬满意度的相关因素,并给出有效的改善措施,望借此给实际的工作提供参考的依据。  关键词:电力企业;薪酬满意度;提高策略  1引言  员工是电力企业发展的基础,也是源动力,确保员工薪酬的满意度,不但能够为企业建立良
期刊
摘要:截至2017 年12 月底,全国设市城市、县(以下简称城镇,不含其它建制镇)累计建成污水处理厂5027 座,污水处理能力达1.88 亿立方米/日,年产生含水量80%的污泥5000 多万吨。《水污染防治行动计划》(简称“水十条”)规定,地级及以上城市污泥无害化处理处置率应于2020 年底前达到90%以上。“水十条”从颁布到现在,很大程度上促进了我国污水处理和污泥处理处置设施的建设与污泥处理处置
期刊