基于深度语义学习的跨媒体教育大数据智能搜索研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zhoulei1964
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,互联网与大数据技术的快速发展,已经渗透到了社会生活的方方面面,并对社会生活产生重要影响。在教育领域,发展教育大数据已经成为推进我国数字校园建设与教育改革的重要战略选择,教育大数据成为了教育领域不可忽视的新型驱动力。互联网+社会的快速发展,使得互联网+产品不断涌现,人们不仅仅局限于从互联网上获取信息,同时也通过互联网向外界分享信息。在此基础上,网络用户不仅对信息资源的实时性提出了更高的要求,而且要求返回更加个性化与精准的搜索结果。因此,针对网络中涌现的大量文本、图像等跨媒体信息,需要深度挖掘信息中蕴含的语义,从用户真正的需求出发,提升搜索的质量以及其结果的准确性,以实现跨媒体深度语义理解的智能搜索。本文完成的工作主要包括以下四个方面:(1)在跨媒体教育大数据的获取和特征学习方面,针对现有教育领域网络平台中,数据存在着的冗余、富含噪声等问题,提出了一种跨媒体教育大数据的获取模型;针对现有跨媒体特征学习方法中,仅仅能获取全局语义信息而忽略细粒度信息的缺点,提出了一种基于双路注意力的跨媒体特征学习方法。对于跨媒体教育大数据的获取,首先构建与教育资源相关的关键词词库,然后爬取相关资源并进行清洗、以及进一步内容的提炼,最终获取到了有关教育领域的数据包含图像-文本对27000余对。针对跨媒体教育大数据的特征学习,融合深度卷积神经网络、注意力机制、循环神经网络,提出了基于双路注意力的跨媒体特征学习模型,充分学习跨媒体教育大数据的细粒度特征与上下文特征。实验表明,该模型相对于其他特征学习方法在跨媒体搜索任务上的MAP性能有明显提升。(2)在跨媒体教育大数据的深度语义相关性学习方面,针对目前跨媒体语义学习中难以跨越的语义鸿沟的关键问题,提出了 一种基于双路注意力特征的监督对抗哈希模型。基于已有的双路注意力的特征学习模型,结合生成对抗网络、语义哈希等技术,深度挖掘了不同媒体数据之间的语义关联,并将特征学习与对抗学习、哈希学习等融合在一起,构建不同媒体数据的统一语义空间。实验结果表明,本文提出的模型不仅在公共数据集上,有显著的性能提升;并且在构建的教育领域数据集上也有明显的性能提升,即在NUS-WIDE、MirFlickr25K、教育领域数据集上,MAP性能均有明显提升。(3)在基于深度语义学习的跨媒体教育大数据智能搜索方面,针对现有搜索引擎中用户查询仅仅从关键词的角度出发,并未完全理解用户的搜索意图的问题,提出了一种基于嵌入主题模型的查询语义扩展方法。将嵌入主题模型与查询语义扩展方法融合起来,对用户查询进行扩展,充分理解用户的搜索意图。此外,将语义扩展方法与深度语义学习相结合,提出了基于语义扩展和深度语义学习的跨媒体教育大数据智能搜索算法,并在公共数据集以及构建的教育领域数据集上进行了实验验证。实验结果表明,本文提出的算法,与对比算法相比,其MAP有明显的提升。(4)结合跨媒体教育大数据的获取与特征学习、跨媒体教育大数据的深度语义相关性学习,以及基于深度语义学习的跨媒体教育大数据智能搜索,这三部分的研究内容,设计并实现了基于深度语义学习的跨媒体教育大数据智能搜索系统。该系统包括三个功能模块:跨媒体教育大数据的特征学习模块、跨媒体教育大数据的深度语义相关性学习模块、基于深度语义学习的跨媒体教育大数据智能搜索模块。实现了跨媒体教育大数据的特征学习模块中对于不同模态数据的细粒度特征与上下文特征的提取的功能。实现了跨媒体教育大数据的深度语义相关性学习模块中,不同模态数据之间的深度语义相关性的学习的功能。实现了基于深度语义学习的跨媒体教育大数据智能搜索模块中,对于不同模态数据的语义扩展并进行跨媒体搜索的功能。本文实现了跨媒体教育大数据的获取和特征学习、跨媒体教育大数据的深度语义相关性学习,以及基于深度语义学习的跨媒体教育大数据智能搜索,设计并开发了一个基于深度语义学习的跨媒体教育大数据的智能搜索系统。实验和测试结果均表明该系统实现了对教育大数据的深度语义学习和智能精准搜索,设计了容易扩展的算法接口和用户友好的交互界面,对各个模块功能的运行结果进行了全面展示。
其他文献
报纸
近年来,在人口老龄化趋势逐渐显现的同时,年轻人猝死和患癌的新闻也层出不穷。随着亚健康人群比例的逐年增高,我们的医疗资源却远远不能满足人们现有的需求,让每个人都经常去正规医疗机构检测是不现实的,与此同时,我国2019年在国家规划层面也将医疗物联网的发展政策纳入了基于健康中国总体规划的智慧医疗互联网医疗政策体系。故而结合物联网技术的智慧医疗平台的设计不管是对个人还是对国家都是具有重大意义的。论文针对以
近年来,随着信息技术的快速发展和国际化交流的不断深入,多语言交流需求在不断增大,语种识别技术在智能语音领域中的重要性也在不断提高。然而,当前的语种识别技术主要停留在算法研究阶段,已有的语种识别系统也主要依赖用户上传的语音文件进行识别,交互方式单一且繁琐。若能实现一个方便高效的语种识别系统,能使语种识别技术向应用化更近一步。本文针对目前语种识别系统级实现较少且已有系统交互方式单一且繁琐的问题,设计并
随着智能家居在实际生活中的应用普及,使用智能浇灌系统养殖花草成为众多居家养花养草人群的新需求。本文通过系统调研,分析总结了现有自动浇灌系统的不足,设计实现了个性化家居植物浇灌系统。本文的主要内容包括:一、研究了机器学习回归算法的原理,在Linux操作系统环境训练得到预测植物土壤湿度模型,并应用在ESP8266单片机,支撑边缘侧浇灌电子设备的离线自治。二、提出在家居植物自动浇灌系统运用边缘计算与云计
近年来,随着生活水平的提高以及饮食结构的改变,心脑血管疾病在人群中的发病率不断提高。同时我国医疗资源分布不均,许多人不能享受到良好的医疗资源,无法很好地了解自身的健康状况。随着我国移动互联网的发展,智能手机进入我们的生活,手机的功能日益丰富,与医疗相关的APP、小程序层出不穷,如何在有限的医疗资源下,利用移动互联网为广大民众提供心脑血管健康管理服务成为当前研究的热点。因此,本文根据软件项目开发的相
在学生学习过程中,学生的注意力是否集中在教学活动上是研究学生学习效率和教学质量的一个重要指标。传统意义上的教师观察学生们状态的方式因为学生数量众多而不能对每个学生面面俱到,而且教师的个人主观因素和学生的故意的行为可能会导致一些错误评判的现象发生。随着人工智能、机器学习等相关互联网技术的飞速发展,利用互联网实现自动检测分析学生学习中的专注度情况成为了可能。因此,本文基于深度学习相关的检测算法,设计并
近年来国内地铁行业发展迅速,大量地铁线路不断的开始投入运营使用。一些开通较早的地铁线路中部分设备即将到达使用寿命,再加上为提高运营维护效率而在信号系统中不断引入新设备和新技术,导致地铁运营线路信号设备面临着大量的局部更新改造工程。而信号系统作为控制列车运行的安全关键系统,对于地铁运营有着不可替代的作用。因此,针对地铁信号设备的更新改造项目,需要加强风险管理,保证项目可以安全顺利的实施。本文将项目风
农业是我国传统的基础行业,在传统农业中试验田规划是农业育种环节中的重要一环,科学合理的试验田规划有利于减少农业耕地的浪费、提高农作物生产量、促进经济的可持续发展,如何将传统农业规划与计算机信息技术相结合,以此推动传统行业的发展是当前我国建设社会主义的重要问题。传统的农田规划大多采用人工现场操作,在纸上进行作业,工作人员需要亲自到农田中,根据试验田实际情况,在纸上完成本年度的种植规划工作。此外,对于
随着互联网与通信技术的不断发展,人们已经从PC互联网时代进入了移动互联网时代,智能手机已经在人们的日常生活中占据了重要地位。手机应用商店是一个应用分发平台,用以展示、下载应用软件,方便人们根据需求选择合适的应用,而应用商店的软件评论是人们在选择软件时较为看中的参照标准,给用户提供了许多参考价值。但由于互联网的开放性,有些用户会发表一些垃圾评论,这些评论不仅仅影响用户体验,还不利于信息资源的整合,因
随着私家车的不断增加,城市交通面临压力越来越大。作为城市基础建设中的公交系统具有运载量大、效率高、对道路资源的占有量少等优点,经验证明,公交系统对减少城市的拥堵、提供多种出行方式、优化城市客运结构以及提高城市生活质量等具有重要的作用。实施公交优先战略,大力发展公共交通已经成为城市交通发展的必然要求。平面交叉口是交通流的交汇部位,交通量较大的交叉口需要设置信号灯来实现不同方向交通流的时空分隔,信号交