基于特征词向量的短文本聚类算法

来源 :数据采集与处理 | 被引量 : 0次 | 上传用户:yuyangyy12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法。首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous skip-gram model)在大规模语料中训练得到表示特征词语义的词向量;最后,引入词语游走距离(Word mover′s distance,WMD)来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类。在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法,平均F值较次优结果提高了56.41%。
其他文献
关键词:提问意识;提问兴趣和习惯;提问强化训练;主动提问  中图分类号:G633.3文献标识码:B   文章编号:1009-010X(2007)10-0014-01  在语文教学中应鼓励学生主动提出问题。提出问题就意味着发现问题,这不仅意味着找到了学习中的难点和重点,更意味着学生的活跃思考状态和深化的思维方法与进程,表明学生掌握了学习的主动性和方法,因此,主动提出问题很重要。著名的英国物理学家牛顿
目的探讨细菌内毒素脂多糖(LPS)对SD大鼠肺泡巨噬细胞产生一氧化氮(NO)和氧化应激的影响。方法采用支气管肺泡灌洗和细胞差速贴壁的方法分离大鼠肺泡巨噬细胞(AM),分别测定AM培养上
自1897年合成阿司匹林以来,已发现阿司匹林在多种疾病中有明显疗效,并且这种新的效益还在持续增长中。阿司匹林广泛应用于心脑血管疾病和风湿性及类风湿性关节炎中,在缓解症状的
行政法上的比例原则和合理性原则都是对行政自由裁量行为的控制性原则,但二者仍有不同之处.比例原则包括三个子原则,即适当性原则、必要性原则和狭义比例原则,其更具有操作性.比例
目的:探讨服用利培酮伴发代谢综合征的精神分裂症患者换用齐拉西酮后代谢指标的变化。方法:将178例服用利培酮治疗,病情稳定(PANSS总分〈60分),同时符合代谢综合征诊断标准的精神分
目的:探讨如何运用中医内外并治的方法进行下肢溃疡的治疗。方法:利用回顾性分析的方法对我院于2009-2012年收治的60例下肢溃疡患者的临床资料进行分析,将患者按照辨证分型论
借新课程、新课标试行推广之契机,我们教师应正确透视、把握新课程标准,掌握新课程的学习方式、教学方式和评价方式,更好地拓展学生的思维能力,为学生的探索性、研究性学习插上想
目的探讨俯卧位通气联合控制性肺膨胀(sustained inflation,SI)对肺内源性急性呼吸窘迫综合征(ARDSp)和肺外源性急性呼吸窘迫综合征(ARDSexp)犬的气体交换的影响。方法健康杂种犬48
当前国内高校大学生课外活动内容丰富、形式多样,但也存在着不足。本文通过对高校大学生课外活动现状的调研,分析大学生课外活动中普遍存在的问题,认为大学生课外活动应与专
教师的作用关系到基础教育课程改革的成败。本文把新课程环境下的教师定位为学生学习的“保健者”,提倡在“四要素”上狠下功夫。