基于扩展短文本词特征向量的分类研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:yidingtongguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于短文本的文档长度较短,短文本中词语的共现信息非常匮乏,造成短文本信息稀疏性问题。信息稀疏性也成为了传统主题模型在短文本上难以取得突破性进展的瓶颈之一。针对短文本分类,如何充分利用短文本中的每一个词语并解决其稀疏性成为关键。为了解决这一问题,1)基于Word2vec模型对短文本进行词嵌入(word Embedding)扩展以解决其稀疏性,并将词向量转换成概率语义分布来测量语义关联性;2)针对短文本扩展后的特征向量,利用改进后的特征权重算法并引入语义相关度去处理扩展后的词特征向量。该方法可以区分出扩展后的短文本中词的重要程度,以便获得更准确的语义相关性。短文本分类研究采用KNN(K-NearestNeighbor)算法分类,实验结果表明,我们通过在外部语料集上学习得到的语义相关性扩展来处理短文本特征,可以有效提高短文本的分类效果。
其他文献
随着网络信息技术和新媒体技术日新月异的发展,自媒体以其快速的信息交互能力和应用的便捷性而得到以"00后"大学生为主的广泛关注和青睐。而良莠不齐的复杂信息,也给自媒体时
为了探讨山竹果酒发酵过程中活性物质变化和成品香气贡献,以山竹全果为原料发酵酿制山竹果酒,考察果酒(果肉和果壳)发酵过程中活性成分含量和多酚组成变化,并对成品果酒挥发
<正>梁志明,北京大学历史学系教授、博士生导师。北京大学东南亚学研究中心主任(2002.9~2013.4),中国东南亚研究会学术顾问,华侨历史学会荣誉理事,欧美同学会东南亚南亚分会
建立了测定水产品中甲基睾酮(MT)残留的间接竞争酶联免疫吸附法(ic ELISA)。采用琥珀酸酐法衍生化制备半抗原MT17,进一步偶联钥孔血蓝蛋白(KLH)制备免疫原MT17-KLH,经动物免
随着非酒精性脂肪性肝病发病率的逐年上升及其对健康的危害,包括3种类型:单纯性脂肪肝、脂肪性肝炎和脂肪性肝硬化已受到越来越多的重视,而非酒精性脂肪性肝炎是由单纯性脂肪
目的探究标准多导睡眠监测联合心理测评在临床诊疗中的应用。方法选取2016年8月1日~2017年6月30日我院收治的睡眠障碍患者和焦虑症患者各30例分别为睡眠障碍组和焦虑症组,应
印尼中小企业稳定成长本刊讯在印尼第6个5年计划期间,印尼中小企业在食品、成衣和皮制品、化学制品和建材、手工艺及金属制品等五大类产品的出口金额将会维持增长趋势。其中食品
期刊
<正> 1997年10月6日,秋高气爽。地处湘黔边界腊尔山深处的高寒苗寨——松桃苗族自治县盘石镇仁广村劈山修路的工地上,铁锤挥动,银锄飞舞,热火朝天。看到铜仁地委书记肖永安和
转化生长因子β(TGF-β)是一种多功能的细胞因子,与自身免疫等多种疾病的发生发展有着密切的关系。炎症性肠病(IBD)属于自身免疫性疾病之一,其发病机制尚未十分明确。此文就T