词向量的动态加权及分布式学习策略

来源 :北京交通大学 | 被引量 : 3次 | 上传用户：zzzkkk

【摘要】

：

互联网的日益普及和迅速发展,催生了大规模的非结构化数据,在这些非结构化数据中,文本数据又是其中很重要的一类。如何从数据量庞大的文本数据中提取和学习有效的信息是当前

【作者】

：

徐惊秋

【出处】

：

北京交通大学

【发表日期】

：

2018年01期

【关键词】

：

文本分类文本表示词向量模型分类器集成

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的日益普及和迅速发展,催生了大规模的非结构化数据,在这些非结构化数据中,文本数据又是其中很重要的一类。如何从数据量庞大的文本数据中提取和学习有效的信息是当前热门的研究领域。其中,文本分类是文本挖掘领域一个重要的研究方向,并且有着广泛的应用场景。而文本分类本身是一个极具挑战性的问题。首先,传统的文本表示模型认为文本是由无数个单词构成,并基于特征词典采用one-hot编码的形式,用一个高维稀疏向量表示一篇文档,该方法由于向量的高稀疏度限制了文本分类的准确性。其次,传统的文本分类算法大部分都直接应用基本机器学习分类算法,模型过于简单导致其分类结果也并不理想。针对以上挑战,本文首先提出了一种文本表示模型;其次,基于该文本表示模型,利用分类器集成的方法,构建了一个高效的文本分类模型,实现了对文本更加准确地分类。本文研究了文本分类的原理和实现步骤,首先对中文文档进行了预处理,具体包括分词,去停词,然后对词进行特征选择,基于选取的特征词,提出了一种基于词向量Word2Vec动态加权的文本表示模型,充分考虑了不同语义特征在不同文章中的不同重要程度。基于该文本表示模型,本文提出了一种基于分类器集成思想的文本分类算法,提高了文本分类的准确率。本文提出的文本表示模型中,首先采用Word2Vec算法将文档特征词转换成固定维度的词向量,然后计算每个特征词在文档中的TF-IDF值,并以特征词的TF-IDF值作为权重,对所有特征词的词向量进行动态加权。该文本表示模型可以同时充分利用不同特征词在不同文档中的重要度信息和词向量的语义信息,实现了对文档的有效表示。实验结果表明,本文提出的基于词向量Word2Vec动态加权的文本表示模型较传统文本表示方法具有更好的文本特征表示效果。基于本文提出的文本表示模型,利用集成分类的思想,本文通过Bagging算法,提出了基于词向量动态加权模型的支持向量机集成方法,分别就不同基分类器数量的集成情况进行了对比实验,并与单个SVM分类效果进行了比较。实验验证了我们提出的基于词向量动态加权的分类器集成算法的有效性,并找出了基分类器个数的最优解。基于以上模型,本文在真实的微信公众号文章数据集上进行了实验验证,还设计并实现了一套基于微信公众号文章的分布式文本分类系统。该系统的功能还包括微信公众号文章抓取、类标自动标注,将文本分类技术应用到实际场景中。

其他文献

多重视野下的电影《天注定》解读

贾樟柯的电影《天注定》,作为现实主义题材,通过不同空间发生的四个悲剧故事,忠实地记录了繁华时代下社会弱势群体的不幸与抗争。电影通过多元的叙事维度、暴力美学的悲剧呈

期刊

《天注定》叙事维度暴力美学符号隐喻

我国资本市场长期投资者投资策略优化

资本市场长期投资者投资策略的优化是长期投资者培育的关键。针对目前长期投资者投资理念较为模糊、行业配置分布不均等多重阶段性特征,可以借鉴全国社保基金的投资理念,坚持

期刊

资本市场投资策略社保基金长期投资者

森林公园自行车专用道规划研究

随着国内旅游模式的改变,休闲旅游成为旅游市场热门的出游方式。绿道又是旅游的新业态,能够顺应社会绿色可持续发展的趋势。近年来骑行运动在我国兴起,骑行开始向集出行、健

学位

自行车专用道森林公园义乌廿三里华溪绿道规划设计

风险管理视角下的人民银行内部审计

随着内部审计理论和实践的发展,内部审计在风险管理中的作用日趋突出。本文分析了人民银行风险管理中内部审计的职能作用及其意义和参与方式,提出了在人民银行风险管理中进一

期刊

人民银行内部审计风险管理

油价波动背景下的煤制油产业竞争力分析

本文采用简化的动态经济评价方法,对不同情境下国际原油价格对煤制油项目经济性的影响进行了分析。分析结果表明:单纯的短期油价波动不会对煤制油项目的经济性造成决定性影响

期刊

煤制油国际原油价格经济评价投资规模效应

我国煤制油产业政策综述

煤制油已成为我国未来应对石油危机的重要途径之一。本文首先描述了煤制油技术及产业的现状,包括煤间接液化和煤直接液化。其次评述了近年国内与煤制油相关的产业政策。相关

期刊

煤制油产业政策

喹烯酮在刺参中的代谢物和代谢途径研究

建立高效液相色谱串联三重四极杆方法(HPLC-MS/MS),对喹烯酮在刺参体壁中的未知代谢物进行定性检测和结构解析。单次投喂刺参含喹烯酮20 mg/kg的饲料,24 h后转入清洁海水中72

期刊

高效液相色谱串联质谱喹烯酮Fullscan-Data Dependant scan刺参代谢物鉴定

刘志军、蒋洁敏、王益等都案发于审计审计长刘家义讲述审计秘闻

<正>刘志军落马源于对高铁的跟踪审计●对政府债务来一次彻底的摸底●中国审计模式推动联合国改革社会舆论认为他"低调",同事反映他"严格、务实",师友评价他"廉洁",而他最赞

期刊

刘家义世界审计组织高铁建设国家开发银行刘志军审计署

动态演化环境下SaaS服务相关性计算方法研究

SaaS软件以其“单实例,多租户”的特点,为SaaS软件提供商带来了较大的经济效益。当SaaS软件不能满足租户需求或因为其他原因,出现演化意图时,SaaS软件需要实施演化活动。因为

学位

软件演化服务相关性分析相关程度有色Petri网关联规则挖掘

增强忧患意识，防范化解风险挑战

<正>2019年9月3日,习近平总书记在中央党校(国家行政学院)中青年干部培训班开班式上发表重要讲话强调:"在前进道路上我们面临的风险考验只会越来越复杂,甚至会遇到难以想象的

期刊

风险挑战忧患意识防范化解

词向量的动态加权及分布式学习策略

与本文相关的学术论文