【摘 要】
:
当前互联网已经发展到移动互联网时代,不仅仅只有传统的PC机可以浏览互联网,手机、平板电脑等各种移动设备也可以接入互联网,计算机的信息处理已经进入大数据时代。而这些大
论文部分内容阅读
当前互联网已经发展到移动互联网时代,不仅仅只有传统的PC机可以浏览互联网,手机、平板电脑等各种移动设备也可以接入互联网,计算机的信息处理已经进入大数据时代。而这些大数据中,很多都是以文本的形式出现,比如Google每天的搜索日志,Twitter以及微博每天的更新评论数据,Facebook以及腾讯每天用户产生的新数据等,这些数据不是GB量级的,而是每天都是TB量级的数据,如何对这些浩瀚的文本进行分析挖掘以帮助企业决策或者提高产品的用户体验是当前文本挖掘的主要问题。本文的主要工作在于文本的相似度计算以及文本相似度计算的相关技术,主要的研究工作在于探讨一种鲁棒的相似度计算方法,使其应用范围尽可能的广泛。首先介绍了向量空间模型及其存在的问题,然后是探讨了针对这些问题的一些解决方案,主要工作如下:首先,简要介绍了向量空间模型的基本原理以及基于向量空间模型的相似度计算方法。接着以同样的方式简要介绍了一下主题模型以及基于主题模型的相似度计算方法。并且详细介绍了主题模型的集合意义和代数意义,从中可以看出主要模型较之向量空间模型有更加丰富的数学和统计基础。其次,简要介绍了LSI,pLSI,LDA模型以及它们的参数估计方法。LDA方法之后主题模型才刚刚兴起,本文介绍了当前针对主题模型一些研究进展情况,主要进展其中在加入新的可观测变量,面向特点任务,以及引入语义信息者三个方面。然后本文介绍了一种基于pLSI的词共现聚类算法,并在共现词组的基础上建模文本,认为文本的共现词组越多其相似度越大,基于这样的假设建立的相似度算法在实验上验证是有效的。最后提出了基于LDA模型的中文文本建模方法,实验Gibbs抽样算法得出文本的主题空间,并以文本的主题空间为相似度计算对象,运用JS距离度量文本的相似度,实验证明该方法比传统的基于向量空间模型的方法要好。
其他文献
当今电子商务推荐系统的应用日益广泛,推荐算法作为推荐系统的核心也得到广泛的研究,协同过滤推荐算法是目前应用最成功的推荐算法之一,但是传统的协同过滤推荐存在数据稀疏性、
变压器作为电力系统的关键设备,对电力系统的稳定性起着至关重要的作用。由于变压器自身结构和周围环境因素复杂,传统的故障诊断方法在多方面存在局限性,新型故障诊断方法的研究一直是业内的热门课题。多源信息融合技术具有强大的数据搜集、处理和决策能力。对实时的变压器油中溶解气体数据进行融合诊断,能准确、高效地判定变压器当前状态和故障类型,给变压器检修工作提供指导和建议。首先,本文提出了变压器故障分类模型,深入
随着人脸识别技术的逐步成熟,使得人脸识别技术在公安系统、证件身份验证和多媒体数据库等领域得到了广泛的应用。同时军队某些单位也提出了利用现有视频监控系统与人脸识别技
随着互联网的快速发展,IPv4协议暴露出越来越多的缺陷。计算机网络由IPv4技术向IPv6技术过渡是网络发展的必然趋势。同时这个过渡过程是一个循序渐进、相互共存的过程。由于
诞生于20世纪20年代的模式识别是一门研究对象描述和分类方法的学科。模式识别的方法主要有线性分类方法、神经网络算法和随机优化算法等。线性分类因其简单、易于分析和实现
在无线传感器网络(WSN)中,自主移动节点能够获知自身的运动信息,包括相对位移和相对偏转角度,其定位技术具有一定的独特性。本文主要针对无线传感器网络自主移动节点的定位及信标
为了适应不断变化的需求变更,软件只有不断地进行演化。在软件的演化过程中,软件体系结构将难以避免地发生改变,这可能会导致软件体系结构逐渐退化。而软件体系结构退化将致
图像匹配技术是图像处理技术领域的关键问题,图像匹配分为基于图像像素灰度的图像匹配方法和基于图像特征的图像匹配方法。本文针对基于局部视觉特征的图像匹配算法中存在的处
随着虚拟现实技术以及语义Web技术的深入研究与广泛应用,融合语义的虚拟环境成为虚拟现实领域的一个新的研究方向。语义虚拟环境技术通过为虚拟场景添加计算机可以理解的并自
图像的局部不变特征具备在多种图像变换(如几何变换,光照变换等)下的不变性、低冗余性、无需预先对图像分割以及独特性等特点,已经被广泛用于图像匹配、物体识别、图像分类及