不同特征粒度在微博短文本分类中作用的比较研究

来源 :情报科学 | 被引量 : 0次 | 上传用户:jizhe1983621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的/意义】随着互联网产业的快速发展,各种社会化媒体应用应运而生,伴随着这些应用的发展,口语化短文本形式的信息也急速膨胀。如何从这些信息资源中挖掘出关键内容并实现自动分类已经成为文本挖掘领域的重要课题之一。【方法/过程】本文以微博为例,设置词和字两种特征粒度,选择信息增益、信息增益率、Word2vec和特征频度降低特征维度,重点探讨两种特征在口语化短文本分类中的特点和作用。【结果/结论】实验结果表明,对词特征进行筛选和提取之后的分类效果仍然不如字特征在微博文本分类中的表现。因此,在口语化短文本分类中选择字特征或许是一个较实用的、效果较好的方法。
其他文献
横向厚差是硅钢产品板形的一项关键指标。针对目前UCM轧机轧制无取向硅钢横向厚差大的问题,以涟钢五机架UCM冷连轧机组为研究对象,建立了六辊轧机辊系的二维变厚度有限元模型
<正>国家新医改实施中,落实基本药物制度和加强医院用药管理,改变以药养医是新医改能否顺利进行的关键。传统的医院药房工作对象是制剂和药品,基本功能是满足临床医疗对药品
利用遥感监测技术实时快速地获取作物长势参数和氮素营养状况,可以为作物的精确管理提供决策支持。在已有作物(小麦和水稻)生长监测模型的基础上,采用GDAL和GDI+信息处理方法
一部英文电影在面对中国观众的时候,语言和文化的差异会使其难以被理解和接受,而首当其冲的就是这部影片的片名。让观众被吸引并愿意走进影院观看这部影片,这是汉译英文片名的目
背景与目的:前列腺癌(PCa)是泌尿外科最常见的恶性肿瘤之一,危害着全世界男性健康。然而,PCa的发生与进展的详细机理尚未被完全了解。目前,长链非编码RNA(lncRNA)已经成为科
印地语民间戏剧姜景奎在印地语的各个方言区,从15世纪起就出现了民间舞台剧。这类戏剧多半是音乐、舞蹈、杂耍的结合,没有人物对白和复杂的剧情。“实际上,比起与音乐和舞蹈的关系
通过构建耦合协调模型并结合Arcgis10.1平台进行空间可视化分析,探索了长三角城市群16个核心城市的现代服务业发展水平与城市化进程之间的耦合协调关系和空间差异。结果表明:
随着全球经济的高速增长,人类对能源的需求越来越大,氢能由于其放热效率高、清洁和可再生等特点被视为21世纪最理想的清洁能源,因此,关于碳化硅(SiC)光解水制氢性能的研究受到了不少科研工作者的关注,但是,由于纯SiC在光解水制氢的过程中光生电子与空穴易复合,量子效率低,因此,需要对碳化硅进行改性、修饰或复合来提高其光解水制氢性能。本文通过将碳化硅与二氧化硅(SiO_2)进行复合,制备出具有核壳结构的
<正> 宫为端同志的《商代原始社会考》(载《宁夏社会科学》1986年第5期,以下简称《商》文)一文,“通过对一些考古资料的认真推敲”,“发现商代在很大程度上仍处于原始社会野
指出了土壤是多相多组分构成的复杂体系,有机污染物吸附在土壤有机质上,难以清除和降解。表面活性剂具有两性基团,溶于水中可形成胶束,包裹疏水性有机污染物,增加其溶解性,从