基于词向量的大规模文档语义分析

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:leoki111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词向量是深度学习背景下的新兴技术,与传统词袋模型不同,词向量将每个词语映射到特殊的语义向量。本文对词向量技术进行系统研究,并通过主题评估的形式实现基于词向量的大规模文档语义分析。词袋模型作为传统文档挖掘的基础被应用于各项任务的文档表示环节,然而,词袋模型无法对文档中词语的顺序、语义和句法关系进行分析,而且会因为词汇表的不断增加最终导致维度灾难——这些不足都对大规模文档语义分析造成巨大挑战。另一方面,词向量建立于相似功能的词语拥有近似向量表达形式的假设,为每个词语分配一个定长实数向量,克服了词袋模型一些固有的不足。词向量能有效捕捉文本的语义和句法功能,并在一定程度上通过对词向量进行简单的代数运算发现对应词语的语言规律,参见“国王”+“男人”-“女人”=“女王”。  本文基于词向量提出一种新型方法,实现从大规模文档集合中有监督和无监督的主题生成,并根据生成结果对任意文档进行主题评估,该算法被整合到本文提出的语义框架MIND(mining documents)当中。具体而言,主题集合通过关键词特征提取和三重语义优化产生,具备良好的表达能力。一旦生成,主题集合即可用于评估当前文档的主题分布,这是本文中文档分析工作的基础。本文将演示MIND框架主题集合生成和评估的整个过程,并通过系列实验验证MIND框架的有效性,其中包括将主题分布近似为软文档分类,并与基于LDA的传统分类算法作比较。  实验数据表明,MIND框架在没有任何优化和背景知识的情况下,快速生成具有良好的表达能力的主题集合。在此基础上,本文对提出的MIND框架功能和应用进行更深入的探讨,包括自适应主题选择、无监督主题生成、错例修正等,并对词向量在不同维度和训练语料对文档分类的结果进行量化评估。本文实现了MIND框架的Java代码,仅用于研究目的。
其他文献
本文结合基于关键点路径的地形跟踪系统的自身特点,以飞行物为模拟物体,研究实现基于关键点路径的地形跟踪系统所需的相关技术,并进行系统原型设计和技术实现。全文主要内容如下
本文对粒子群优化算法的产生、发展进行了介绍,讨论了多目标演化算法的相关重要策略,并分析了多目标粒子群优化的发展现状。在此基础上,借助多目标演化算法的相关策略,设计了两种
本文在分析考察传统的金融预测分析方法的基础上,提出了一套面向期货市场分析、预测和决策,针对实盘真实数据操作,由BP神经网络和ARIMA时间序列模型组合的系统应用模板。该系统
如何将测试工作量合理分配到软件模块以有效检测缺陷是软件开发组织面临的重要挑战。结构复杂性导向(SCA,structural-complexity-guided allocation)和缺陷预测模型导向(FPA,
本文首先从集群系统的基本技术入手,介绍了Beowulf集群的基本体系结构,之后分析了南开之星集群的体系结构和关键技术,针对科学计算集群的特点,提出了科学计算集群性能监测系统的
本文通过一个基于MVC(Model-View-Controller)模式的J2EE项目来探讨体系结构级重用的可行性及实用性。 MVC模式把应用程序拆分成三个部分:模型、视图和控制器。其中模型表
对特定场景中的目标进行识别作为图像理解领域的一个主要研究方向,具有重要的理论研究价值和应用场景。现实世界中的目标具有多变性,比如尺度变化、旋转、光照、物体遮挡等,复杂
需求的频繁变更为软件项目带来很多困难,模型驱动开发方法(ModelDrivenDevelopment,MDD)的出现则为这种情况带来了转机。本文首先介绍了软件开发中模型的概念和发展历程,以及什
近年来,随着计算机科学技术,特别是Internet技术的飞速发展,软件运行的平台正由传统的静态封闭走向现在的动态开放,软件的计算模式也由已往的单个个体之间的串行进行发展到今天多
当前,随着计算机的处理能力增大,导致用户对它的期望更多,软件的趋势是朝着更大更复杂的系统发展。这样使得RUP(Rational统一过程)以及UML(统一建模语言)在软件开发中得到越来越