论文部分内容阅读
针对移动营销文本中长度偏短、用词多变、语句残缺等问题,提出了在文本表示过程中采用word2vec进行词项加权语义映射的方法。首先在全语料库中采用word2vec训练词向量,对整体词向量进行聚类操作来汇聚相近语义词语形成语义簇特征空间,在文本向量化过程中,将词语与聚类中心的相似度和词语本身权重结合完成特征权值计算,向量化之后的文本采用欧氏距离计算相似度。将该算法应用于移动营销短文本测试集,通过K近邻(KNN)分类实验表明,该方法在分类性能上比基于词统计特征的方法在各类的F1值有平均6%的提升,能够更有