面向微博短文本分类的文本向量化方法比较研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:yancliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】利用Word2Vec和Sent2Vec算法生成新浪微博的文本的向量化表示形式,以期在文本分类时获得较低的计算成本和较高的分类效果。【方法】使用文本中词的0-1矩阵进行分类,将分类效果作为基准线;采用Word2Vec算法生成词向量并用不同方式合成句子的向量表示,进行文本分类,并与基准线进行对比;利用Sent2Vec算法直接生成句子向量进行分类,综合评价3种方法的优缺点。【结果】研究显示使用Word2Vec算法和Sent2Vec算法能够极大程度上压缩文本特征,对比于使用所有3万多个词作为特征,Word2Vec算法和Sent2Vec算法将特征数压缩在1 000以内。在分类准确率方面,Word2Vec算法的分类准确率比基准线低约3%,准确率为75.14%。Sent2Vec算法的分类效果远不如其他两种方法,准确率只有63.08%。【局限】由于语料有限,Word2Vec算法在计算词向量时可能缺少足够的语义信息,导致词向量的准确性不高,而Sent2Vec算法在中文文本语境下生成句向量的分类结果较差。【结论】Word2Vec算法更适用大规模语料文本分类,在文本量较少时应使用词为特征分类。
其他文献
随着我国经济的快速发展,国家越来越重视现有的并网光伏电站土建安装工程事宜。从现有的光伏电网土建安装工程的发展来 看,我国目前对于其建设质量的管控重点主要在于其安装
岚皋县供电分公司是陕西省地方电力(集团)有限公司安康供电分公司下属的二类供电企业,担负着岚皋以及毗邻的汉滨13个镇128个行政村18万多人口的供电任务。
平利县人大常委会为切实提高各工作委员会调研审议工作的质量,解决专委会人员结构单一、专业人才欠缺等问题,增强人大监督的针对性、实效性,更好地履行宪法和法律赋予的职权。近
中国致公党第十三次全国代表大会在圆满完成各项议程后,于12月21日在京胜利闭幕。会议认真学习了中共十七大精神,审议并通过了致公党第十二届 After the successful conclus
随着社会经济因素的不断变化与发展,电力能源工业的发展处于繁荣阶段,我国能源工程的建设势头越来越大,市场竞争日益 激烈。电力公司需要从细节上在竞争中发展核心技术,不断
白裤瑶民族生活在广西的西北地区,被世界赞誉为"人类文明的活化石"。白裤瑶属于偌大的瑶族中,布努瑶支系的一个分支,因男子身着白色并印有血手印的裤子而得名。他们勤劳朴实,
文章认为虽然将法治予以中国化已经成为法学家们的自觉意识,但在实际探讨中一些法学家却不自觉地以一些既有的理论范式来裁剪社会事实,而没能够抓住法治建设和中国共产党领导
2009年4月下旬,全国牛肉(新鲜去骨)平均价格为16.77元/斤,价格差为7.60元/斤。福建牛肉价格最高,达到21.60元/斤,河北牛肉价格最低,只有14元/斤。福建、广东、浙江、江西、湖南、海南和
目的:探讨关节镜下微骨折术治疗膝关节软骨损伤的疗效及预后。方法:收治膝关节软骨损伤患者80例。对照组采用常规关节清理术治疗,微骨折术组则采用关节镜下微骨折术治疗。结
采用毒性试验方法研究3种质量浓度(10.0,5.0和2.5 mg/L)下人工纳米材料多壁碳纳米管(MWCNTs)长时间暴露(28~35 d)对斑马鱼成鱼脑和肝组织中乙酰胆碱酯酶(AchE)、谷胱甘肽过氧