基于深度学习的中文文档检索的应用

被引量 : 0次 | 上传用户:ponny2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会的进步往往伴随着生产资料的提高,人们通过各种各样的社会手段不断来满足自身的需求的方式也变得越来越智能。随着近些年互联网技术的普及,人们从网络上搜寻所需求的信息的机会也就越来越多。随着人们需求的提高,信息检索技术也就广大的人民大众摆在了聚光灯下。特别是近10年以来,随着大数据时代的到来,文本、图片、语音等等越来越多的资源不断地填充着网络数据库,有资料表明,这10年产生的数据是人类历史上产生数据之和[1]。这样就带来了一个问题,如何从浩瀚的数据中快速高效地挖取有用的信息。很显然,传统老套的信息检索模型已经难以满足广大人群的迫切需求,人们需要找寻另一种方式来处理,机器学习技术应运而生。本文针对大数据背景下平行文档难以快速被挖掘的问题,提出了机器学习技术中最前沿的深度学习技术,用于快速准确抽取中文相关性文档,并且充分分析了实际检索系统中可能出现的一些情况的影响。首先,分析中文平行文档的特性,接着全面解析深度学习技术的特点。并通过实验了解传统信息检索模型和目前使用较为广泛的信息检索模型在应对中文平行文档检索的优缺点,以及各方面的效率。接着通过实验验证深度神经网络在这个方面的各项指标;实验证明通过控制隐藏层的层数,和每一层的结点个数可以更加准确,全面的检索大量含有隐含信息的中文平行文档。其次,本文将深度学习技术与传统信息检索模型相结合的新模型来解决深度学习模型训练时间较长的问题。本文通过参数调整具体包括调整深度神经网络中隐藏层的个数及其每一个隐藏层所对应的结点的个数,来优化整个神经网络。最后本文提出利用Google最新深度学习工具Doc2Vec,将每一篇文章都转化为词向量的形式,通过深度神经网络重新训练,结果表明通过将文章转化为词向量的形式可以在某些方面更好反映出文档内在具体含义,从而更加准确、全面地检索出平行文档针对某一个特定的用户返回与其对应的个性化检索信息。最后,通过可视化编程设计并实现了基于深度学习的中文平行文档的信息检索系统。该系统支持用户通过某些检索词,更加快速全面地检索出所需要的中文平行文档。
其他文献
对于“个人信息”的定义,世界各国和各地区,并没有一个统一的说法,除了“个人信息”之外,“个人数据”以及“个人隐私”也常用来表示个人信息。我国学者齐爱民认为:个人信息指
我捧着《边城》,思量着沈从文笔下的《边城》能带给我什么?读完后,终于体会到:沈从文的文笔真有一种说不出的妙处——茶峒山之美、水之美、人性之美,在他的笔下展现得淋漓尽致,不禁
期刊
为了解决传统PC端武器故障诊断专家系统移动性能较差、不易携带等问题,文中设计了基于Android平台的武器故障诊断专家系统。通过Okhttp框架实现了Android系统客户端与服务器
20世纪60年代,一部荣获奥斯卡最佳视觉效果大奖的科幻电影《神奇旅程》描述了科学家驾驶"微型潜水艇"在人体内的冒险之旅,将大众的视线转移到了神奇的微观世界。现实世界中,在
实现我国法律援助新发展需要以创新作为驱动力。如何实现创新?根据笔者的研究,认为需要具备以下几个条件:第一,要具有世界眼光。决策者视野要开阔,视角要多维,见识要广博,没有
引入改进的PSO-RBF模型,并结合辽宁中部土壤水观测试验区的试验数据,对Grenn-Ampt土壤水入渗模型参数进行非线性预测研究。结果表明:改进的PSO-RBF模型对土壤入渗参数非线性预
李清照是中国文学史上杰出的女词人。她在苏轼的豪放、柳永的世俗与周邦彦的格律之外独树一帜,形成了自己别具一格的词风,创立了有名的"易安体"。李清照的词有如此大的魅力,
通过理论分析,导出了硫酸生产中SO2氧化转化率的精确计算公式,其精确度比原计式更高,可供设计和生产使用。
信号控制作为解决交叉口交通冲突的主要手段,从时空上实现了对冲突的交通流的分离。但在我国城市道路交叉口中,由于受基础条件的限制出现无左转专用相位的现象是常见的。在无左
本实验建立了保健食品中维生素K1的测定方法。采用Kromasil C18柱,以纯甲醇为流动相,流速1.0mLomin-1,检测波长为248nm。回收率在96~101%之间,RSD(n=6)为2.24%。实验结果表明