【摘 要】
:
在如今的大数据时代,文本信息错综复杂,如何在浩瀚的文本信息库中快速且准确的查询到所需要的文本为信息检索带来了挑战性难题。在选取准确的关键词和筛选限制条件问题上的困难,使得在大量文本信息中精准查找所需文本信息的任务变得枯燥乏味且费时费力。近年来,研究人员开始借助机器学习算法对文本信息进行分类从而帮助解决文本信息检索任务,但是运用机器学习算法为文本信息检索任务带来了新的挑战。首先,某个文本领域的专家可
论文部分内容阅读
在如今的大数据时代,文本信息错综复杂,如何在浩瀚的文本信息库中快速且准确的查询到所需要的文本为信息检索带来了挑战性难题。在选取准确的关键词和筛选限制条件问题上的困难,使得在大量文本信息中精准查找所需文本信息的任务变得枯燥乏味且费时费力。近年来,研究人员开始借助机器学习算法对文本信息进行分类从而帮助解决文本信息检索任务,但是运用机器学习算法为文本信息检索任务带来了新的挑战。首先,某个文本领域的专家可能并不精通机器学习甚至对机器学习领域毫无研究,而大多数分类方法需要不断地调节分类算法中的参数才能得到令人满意的分类准确率;其次,机器学习中的分类算法大多是有监督学习,然而让文本领域的专家对每个未标注的文本信息标注标签又是一项及其繁琐的任务。本课题试图解决上述两个约束,引入了语义交互和主动学习算法,构建了一个基于语义交互和主动学习的迭代式检索框架,并设计实现了一个交互式的信息检索可视分析系统:通过计算文本相似度获得初始训练数据集;利用卡方检验获取文本特征构建SVM分类器;利用主动学习查询SVM分界面附近的样本点进行标注,从而迭代优化分类器。并且构建了一个可以进行文档移动、高亮、检索、注释语义交互的力导向图,通过力导向图、t-SNE降维图、词云辅助用户了解文献信息并标注正确的标签。在案例研究中发现本方法中可视化系统以及实现了语义交互的力导向图可以清晰显示出文献间的关系,并提高用户标注的准确度;本方法的主动学习,降低了推荐系统的标注量,并加快了需求挖掘和样本学习的速度。在用户需求模糊的情况下,本方案可以快速且准确的查询到用户真正需求的文献。
其他文献
相对基于光强、光谱等信息的传统光学成像与测量技术而言,偏振成像和偏振测量技术利用光的偏振特性获取目标场景的偏振信息实现多维尺度的目标识别与探测,是一种高效的光学探测、识别技术。特别地,偏振成像技术与数字处理技术相结合可有效解决传统光学在目标检测和识别领域无法解决的问题,拓宽偏振光学的研究领域和应用场景。在各类偏振成像系统中,基于分焦平面(Division of Focal Plane,DoFP)线
目前在工业生产和制造领域,大量的零件X光影像数据都是以实体胶片的形式存放,而不是数字影像,不仅导致管理成本的不断增高,且无法挖掘存在的数据价值,造成了巨大的浪费。随着生产的推进和发展有更多的X光实体胶片产生,给企业的数据存储以及管理带来了较高的成本以及资源浪费,且经实体胶片转化后的数字影像也无法得到有效的管理和利用。最近几十年以来,计算机技术及其应用的高速发展,工厂使用计算机进行数字化信息管理的优
随着定位、导航、轨迹分析和轨迹预测等基于位置服务(LBS)的广泛应用,越来越多的智能手机用户安装基于位置服务的APP,这类APP产生的位置数据能够为交通研究者带来大量信息。如今,基于位置的服务已经成为广大交通研究者不断研究和突破的技术课题,而智能手机产生的位置数据与电子地图的校准则成为这些技术的核心环节。利用智能手机获取位置信息有三种方式,分别为手机GPS、手机基站以及利用Wi-Fi进行定位。然而
逼真的声音传播效果可以提高虚拟现实系统的沉浸感和交互性,声音传播模拟技术现已成为计算机图形学领域的一个重要分支。目前计算机图形学领域的声音传播模拟技术较少甚至没有考虑水下声传播的特殊性,因此难以直接应用于水下场景。本文提出了一个针对水下特殊环境的声音传播模型。将水声学领域中适用于计算水下声场的简正波方法与计算机图形学中可以捕捉场景几何信息的射线跟踪方法进行耦合。同时基于阈值参数控制射线模型的切换以
自动检测出通过一扇门的人员的身份和移动方向对于日常生活中很多的场景都具有实际意义。例如,它可以帮助跟踪多个房间的中工人分布情况,更好地确定任务分配。然而,现有的解决方案通常需要在很多的限制下才能发挥很好的效果,这在很多工业工厂是很难满足的。例如,基于计算机视觉的解决方案需要摄像机和人脸之间的视线之间不被物体遮挡;而生物识别技术需要非常干净的指纹等特征才可以发挥不错的作用。在本文中,我们利用RFID
复杂多变的光照给计算机视觉领域的研究带来了许多挑战,特别是对于实时单目视觉定位与建图算法(SLAM)。近年来,SLAM系统在普通光照环境下已经可以完成精准的定位建图任务,但在弱光照环境或者阴影环境下,前沿的SLAM系统也往往因为其视觉前端光照鲁棒性不足而导致跟踪出现问题。对于弱光照环境下的SLAM视觉前端鲁棒性问题,本文首先通过改进现有的成熟SLAM系统的视觉前端,提出了一种基于双特征算法的图像特
随着物联网、大数据和人工智能等技术的发展,视觉目标跟踪依然是计算机视觉领域热点研究方向,具有广泛的应用价值,如无人驾驶、智能监控、医疗诊断及行为分析等方面。视觉目标跟踪任务是在给定初始帧的目标位置信息的情况下,准确可靠地预测后续视频序列中目标的位置和大小。视觉目标跟踪过程中通常会面临许多挑战,如目标间遮挡、目标外观模糊、旋转及光照变化等,这些复杂的因素都对视觉目标跟踪算法的判别能力提出了更强的挑战
语言模型,尤其是神经网络语言模型,在自然语言处理和信息检索任务中至关重要。最近人们提出了量子语言模型(QLM),它使用相同的概率空间来统一单个单词和词组的表示,而不必像以前的研究那样人为地扩展词空间。神经网络类量子语言模型(NNQLM)将QLM扩展到端到端体系中,通过自下而上的方法来构建密度矩阵,替代了QLM复杂的迭代估计算法。众所周知位置信息对语言模型尤为重要,但无论是QLM还是NNQLM都仅是
近年来,随着网络发展的多元化,信息过载问题日益严重。分类目录和搜索引擎是早期出现的解决信息过载问题的两类主流方案。但是随着互联网规模的不断扩大,分类目录网站只能覆盖有限的热门网站,而搜索引擎则需要用户主动提供关键词来寻找信息,在用户不清楚自己需求的情况下具有很大的局限性。这时,个性化推荐技术应运而生。个性化推荐技术可以分析和挖掘用户潜在偏好,是解决大数据时代信息冗余问题、提高人们信息获取的效率和质
近年来,随着移动通信技术的迅速发展和计算机技术的普及,大多数智能设备都有安装全球定位系统GPS,所以在户外环境中(例如百度地图、谷歌地图、高德地图等)获取位置信息的服务需求与日俱增。然而,GPS对于建筑物、停车场以及靠近墙壁的地方等室内环境表现不佳,因为来自GPS的信号太弱,无法通过大多数建筑,从而使GPS难以进行室内定位。由于GPS定位技术受限于室内只能在室外提供精确定位信息,所以室内定位技术引