论文部分内容阅读
社会的进步往往伴随着生产资料的提高,人们通过各种各样的社会手段不断来满足自身的需求的方式也变得越来越智能。随着近些年互联网技术的普及,人们从网络上搜寻所需求的信息的机会也就越来越多。随着人们需求的提高,信息检索技术也就广大的人民大众摆在了聚光灯下。特别是近10年以来,随着大数据时代的到来,文本、图片、语音等等越来越多的资源不断地填充着网络数据库,有资料表明,这10年产生的数据是人类历史上产生数据之和[1]。这样就带来了一个问题,如何从浩瀚的数据中快速高效地挖取有用的信息。很显然,传统老套的信息检索模型已经难以满足广大人群的迫切需求,人们需要找寻另一种方式来处理,机器学习技术应运而生。本文针对大数据背景下平行文档难以快速被挖掘的问题,提出了机器学习技术中最前沿的深度学习技术,用于快速准确抽取中文相关性文档,并且充分分析了实际检索系统中可能出现的一些情况的影响。首先,分析中文平行文档的特性,接着全面解析深度学习技术的特点。并通过实验了解传统信息检索模型和目前使用较为广泛的信息检索模型在应对中文平行文档检索的优缺点,以及各方面的效率。接着通过实验验证深度神经网络在这个方面的各项指标;实验证明通过控制隐藏层的层数,和每一层的结点个数可以更加准确,全面的检索大量含有隐含信息的中文平行文档。其次,本文将深度学习技术与传统信息检索模型相结合的新模型来解决深度学习模型训练时间较长的问题。本文通过参数调整具体包括调整深度神经网络中隐藏层的个数及其每一个隐藏层所对应的结点的个数,来优化整个神经网络。最后本文提出利用Google最新深度学习工具Doc2Vec,将每一篇文章都转化为词向量的形式,通过深度神经网络重新训练,结果表明通过将文章转化为词向量的形式可以在某些方面更好反映出文档内在具体含义,从而更加准确、全面地检索出平行文档针对某一个特定的用户返回与其对应的个性化检索信息。最后,通过可视化编程设计并实现了基于深度学习的中文平行文档的信息检索系统。该系统支持用户通过某些检索词,更加快速全面地检索出所需要的中文平行文档。