基于词向量和多特征语义距离的文本聚类算法

来源 :重庆科技学院学报:自然科学版 | 被引量 : 0次 | 上传用户:pgzwoaini1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统文本聚类算法中存在语义相似度计算向量维度高、忽视特征词词频、位置、词距和语义缺失等问题,提出了一种基于词向量和多特征语义距离的文本聚类算法(M-W2-KS)。首先使用Word2Vec训练语料库中的所有特征词,以向量形式进行表征;然后综合考虑特征词的词频、位置、词距信息以及特征词间的欧式距离,计算文本间的语义相似度,并将其应用到K-means算法中,实现文本的聚类。实验结果表明,运用M-W2-KS算法,可以有效提升聚类效果,使聚类结果更加准确。
其他文献
We describe a 77-year-old man with refractory gastric ulcer that worsened after Helicobacter pylori eradication therapy.Pathology showed marked infiltration of
期刊
AIM: To investigate nicotinamide’s action on glucose metabolism, and the association between niacin consumption and obesity prevalence. METHODS: Dynamic nicoti
期刊
Lipoma is relatively common in the colon but is less often in the small intestine. Most lipomas are incidentally detected at endoscopy and are usually small and
期刊
介绍了虚拟人的运动控制方法,提出了虚拟人运动控制需要解决的问题。
AIM:To establish a multidrug-resistant hepatoma cell line(SK-Hep-1),and to investigate its biological characteristics.METHODS:A highly invasive SK-Hep-1 cell li
期刊
根据钻井岩心资料,采用岩心观察和地球化学分析等方法,研究了中扬子地区水井沱组页岩岩相、地化特征、孔隙结构和含气量等特征。研究结果表明:水井沱组可以划分为泥页岩、白
针对渝东南地区页岩气井页岩层段井壁失稳的钻井工程技术难题,研究有机胺复配甲基葡萄糖甙的新型强抑制钻井液。一方面利用了有机胺对泥岩高效抑制性能,另一方面应用了甲基葡萄
有病了怎么办?上医院看病,太浪费时间;自己服药又难免担心,药品说明书上的副作用、禁忌症弄得人惊恐万分,药该怎么吃才算好呢?
结合英语写作课实践,探讨了有效的课堂讨论对帮助学生形成良好的讨论习惯,理解英语写作规范和要求,增强英语写作实践技能,提高学生英语写作能力的作用。