基于语义簇的中文文本聚类算法研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:c0128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本信息处理中,文本信息检索、文本聚类等方法的核心问题是对文本的语义表达。文本聚类是文本信息处理的主要方法,可以帮助人们发现数据中的统计规律。其中中文文本聚类分析是文本聚类分析中的重要组成部分。在中文文本聚类分析时,由于语义、语法、语境等因素的影响,使得文本向量对文本语义的表达不准确。而目前常使用的向量空间模型,在表征文本中的词时,所表征出的词向量是独立的,会忽视词之间以及文档之间的语义相关性,从而使文本聚类的准确率得不到保障。而应用Word2vec文本表示方法时,虽然考虑到上下文的语义关系,但由于其在不同文档中表征的文本向量不同,给文本聚类带来局限性,聚类效果不佳。针对上述问题,本文提出一种新的基于语义簇的文本向量构建方法,通过对所提取特征词的搭配向量进行层次聚类,利用向量的共性原理和语义相关性,获取语义簇。再对文本向量进行空间变换,计算搭配向量与所属语义簇中心的相似度,求得文档特征词的语义信息,并嵌入到文档特征词向量中,利用空间变换后构建的文本向量进行文本聚类。与传统的文本表示方法和Word2vec文本表示方法进行对比实验,测试结果表明本文方法能够有效地提高特征词向量对文本语义的逼近程度,同时相较于对比方法的文本聚类结果具备更高的准确率、召回率。该论文有图20幅,表8个,参考文献60篇。
其他文献
<正> “始终代表最广大人民的根本利益,是政府一切工作的根本出发点和落脚点。对人民负责的政府,必须是与时俱进的政府,依法行政的政府,务实高效的政府,诚信廉洁的政府,归根
平衡医学是中国人体抖研中心人体生态平衡研究所所长,电国中医研究院咨询专家、美国桑莫国际有限公司中药系列高级总工程师王佑三先生创立的。
记者:请您谈谈对全省民营经济工作会议主题报告的感想.陈:我认为会议的主题报告和有关文件很有创新精神,将有力地促进广东民营经济的大发展、大提高,表明广东向市场化又迈进
2015年是世界反法西斯战争胜利70周年,也是中国抗日战争胜利70周年。从2015年7开始,全国70家城市电视台联合推出了大型抗战主题节目《血铸河山》,在全国范围内掀起了纪念抗战胜利70周年的热潮。《血铸河山》共60集,每集30分钟,由中国广播电视协会城市台电视新闻委员会策划,由广州台、太原台、宁波台等13家城市电视台共同发起,参加联制联播的有北京、上海、天津、重庆等直辖市电视台,有香港、澳门和台
栏目剧由于其本土贴近性和运作上的诸多优势,对于电视频道和台吸引收视功不可没。要做好栏目剧,首先要理解栏目剧。本文结合实践经验,对栏目剧的特点和元素做了深入分析介绍。
近日从国家知识产权局传来好消息,新疆有色金属研究所申报的《高纯含铍反萃液及其制备方法、氟铍酸铵、氟化铍和金属铍的制备方法》发明专利经过两次答辩复审,历时两年多,最
1 蚕种催青测控技术的发展日本于上世纪70年代后期发明了蚕种催青箱,是以种子生产作坊为蓝本采取的暖种法催青,而独联体国家至今沿用中国上个世纪50~60年代的老法催青.上世纪8
目的:观察甲状腺次全切除术的护理效果。方法:25例甲状腺次全切术患者进行护理干预,分析护理效果。结果:所有患者手术顺利,切口均为Ⅰ期愈合,术后未见严重并发症及明显瘢痕。结论:甲
2008年以来,居民家庭部门的负债率越来越高,而居民的存款增速下滑严重,已从2008年的增速18%下降到2018年的增速7%,且近年来居民家庭的收入增速逐渐放缓,导致居民家庭负债问题越来越受到大家关注。现有文献虽然已经从微观层面研究了各方面影响家庭负债以及家庭过度负债的因素,但还未考虑到从城乡居民大病医疗保险的角度看待家庭负债问题。而在城乡居民大病医疗保险研究方面,现有文献研究了制度政策、保障范围
目的:研究黄芪甲苷(astragaloside IV)对大鼠心肌纤维化的影响和作用机制。方法:异丙肾上腺素腹腔注射造成心肌纤维化模型。大高鼠随机分为空白对照组、异丙肾上腺素模型组(1