基于word2vec词向量的文本分类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:yh124712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类技术在文本挖掘、自然语言处理以及机器学习等领域具有重要地位,它为信息检索与文本管理提供了很多便利。近年来随着互联网技术的高速发展,文本数据每天都在迅速膨胀,比如用户所发的微博动态信息、各大新闻门户网站的新闻内容、用户来往的电子邮件信息以及论坛、博客的帖子等。自动文本分类恰好是处理和组织这些文本数据的有效工具,已经在许多方面得到了应用,如微博情感分类、垃圾邮件过滤以及新闻内容自动分发等。未来互联网上的文本数据还会不断增加,自动文本分类技术将在这些领域发挥越来越重要的作用。自动文本分类包括若干技术,比如文本预处理、文本表示、特征选择、特征抽取以及分类算法的选择等,其中文本表示与分类算法的研究是这些技术中的关键,它们将直接影响到自动文本分类的结果。目前大多数学者对文本分类技术的研究也主要侧重于文本的特征选择及抽取、文本表示以及分类算法的优化方面。在众多的文本表示模型中,基于词频-逆文本频率(TF-IDF)加权的向量空间模型(VSM)是一种主流的文本表示模型(简称VSM_TFIDF模型),它在学术界与工业界都有不错的表现,但该模型并不能很好的表示文本的语义信息,它无法将文本中特征词的上下文语义与句法信息考虑到模型之中。其次,常用的文本距离度量方式,比如欧氏距离、余弦距离等无法很好的衡量这类文本表示模型所表示的文本之间的相似度。针对以上问题,本文借助于Word2vec词向量将语义信息引入文本表示模型或文本距离度量方式之中,从而提升文本分类的效果。文中深入研究了Word2vec词向量的生成机制,包括它的两种训练模型(CBOW模型和Skip-gram模型),以及两套提升词向量训练效率的优化方案(Hierarchical Softmax和Negative Sampling)。在此基础上,本文将Word2vec词向量引入到对文本表示模型以及文本距离度量方式的研究之中,主要的工作包括如下2个方面:(1)提出了一种基于Word2vec词向量与VSM_TFIDF模型的多粒度多模型组合的文本表示模型——CombineTextVector。由于Word2vec词向量可以很好的表示特征词的语义信息,文中考虑将它与VSM_TFIDF模型结合起来,优势互补,提升文本表示的效果。文中首先将文本的类别信息嵌入TF-IDF加权公式,以提升加权因子的类别区分能力(我们将其命名为wTFIDF加权公式),然后与Word2vec词向量结合,构建了一种多粒度的文本表示模型Word2vec_wTFIDF,最后再将该模型与传统的VSM_TFIDF模型结合,构建CombineTextVector文本表示模型。为了验证新模型的性能,本文在复旦中文文本分类语料库上设计实验,并与多种主流的文本表示模型进行对比。实验结果证明,新模型均能取得较高的分类F1值。(2)提出了一种基于Word2vec词向量与EMD距离,并针对主题模型进行距离度量的方式——TopMD距离度量。文中首先分析了传统VSM_TFIDF模型和主题模型中常用的文本距离度量方式,针对文本间语义相似度无法很好度量的问题,将EMD度量方式与Word2vec词向量结合,提出了一种针对主题模型的TopMD距离度量方式。与常用度量方式相比,它能将更细粒度的特征词之间的相似度考虑到TopMD距离之中。为了验证所提方法的有效性,本文分别在中文和英文的语料库上进行实验,并与多种距离度量方式进行对比。实验结果证明,相对于传统方式,该方法可以提高主题模型的文本相似度度量效果。
其他文献
运用修正后的BBK理论计算了入射能E0=64.6eV,不共面对称等能条件下电子入射离化氦原子的三重微分截面,所得结果与实验进行比较,符合较好.指出:对3C波函数进行索末菲参量的修正是成
为了仿生莲藕内部的贯穿大孔结构,以生物相容性好的壳聚糖(CS)作为基质材料,利用冰粒致孔、石蜡模具和冰模具成型3种成型方法制备了分级多孔CS支架材料,然后与力学强度较高的
首先将超Poincaré不等式推广到Lp(μ)(p为正偶数)空间上,利用该不等式得到了Lp(μ)上紧半群的两个充要条件和一个扰动结果,推广了[5,8]中的相关结论.
指标为p的常曲率c(c〉0)的n+p维伪黎曼流形称为de Sitter空间,记为Sp^n+P(c).本文研究de Sitter空间中具有平行平均曲率向量的伪脐类空子流形,得到了这类空子流形的一个积分不等式及性
全文围绕着虚实结合的界面信息设计进行研究,分析了在虚实结合系统中虚实界面的设计方式,为后续进行虚实结合界面设计的设计开发人员提供了有价值的参考。增强现实技术是人机
目的观察动力灸治疗肝肾亏虚型膝骨关节炎(knee osteoarthritis,KOA)的临床疗效。方法将符合纳入标准的60例肝肾亏虚型KOA患者随机分为试验组与对照组,每组30例。试验组给予
南沙参用药历史比北沙参早2600多年;南沙参资源储备比北沙参丰富,分布也较广;南沙参功效较多,且其主治增加幅度多于北沙参。建议《中华人民共和国药典》收载沙参、杏叶沙参和
The fate of subducted carbonates in the lower mantle and at the core-mantle boundary was modelled via experiments in the MgCO3-Fe^0 system at 70-150 GPa and 800
目的:分析维持性血液透析患者的营养状况与预后的相关性。方法:选择2014年1月至2015年2月在我院进行维持性血液透析治疗的糖尿病肾病患者100例,收集患者的基本情况、主观综合
近年来,安徽省重点以深化行政审批制度改革突破口,推动权力清单、责任清单落地生效,加快推进全省的"放管服"和政府职能转变工作,并取得了一定成效。但同时在提高行政审批效率