基于语义特征抽取的文本聚类研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:liaotianeryi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈
其他文献
"穷则独善其身,达则兼济天下"一直是真维斯董事长杨勋的人生信条,也成为其30余年的创业写照。作为一家拥有千余家实体门店,更是80、90后"青春记忆"的服装品牌而言,面对这场突
研究了三价铒离子配合物在近红外区段的电致及光致发光特性。采用双层电致发光器件获得了铒离子位于 1 53 0nm的光发射 ,并通过改进后的三层结构器件使铒离子的红外发射明显
法学界对有关农村土地承包经营权的法律性质一直以来有“物权说”和“债权说”之争。明确土地承包经营权的物权性质、法律特征及其纠纷解决等问题,不仅能使土地承包经营权在诉
国内一般图书消费市场现状 1.近十年来国内一般图书消费市场发展历程纵观近十年来我国的图书消费市场的发展历程,主要有以下几个特点:(1)图书市场平稳发展,市场化进程不断深化。
中国家电行业发展了这么多年,一路风雨,曾经数次遇到过瓶颈,但都闯过来了。目前,中国家电行业发展得很好,未来仍有很大的发展空间。TCL非常关注近期出台的家电行业转型升级指
截至2011年底,我国内地60岁以上老年人数量占人口总数的12.5%以上;预计在2011年以后的30年中,我国社会老龄化将呈现加速发展的态势,到2030年将成为全球人口老龄化程度最高的
本文研究了国内外近200篇企业多元化重要文献,系统归纳了现有文献关于多元化与企业价值关系的研究结果,通过研究发现现有文献中多元化与企业价值关系存在较大分歧,先前文献研
几乎所有的镀镍溶液都用硼酸作缓冲剂,但含硼化合物毒性高。研制了一种适合于电沉积镍的新型电镀溶液,镀液中柠檬酸钠充当缓冲剂和络合剂,这种镀液的缓冲容量比传统Watts大。
智能采集数据是提高测绘外业工作效率的有效途径。本文以智能全站仪为研究平台,对测绘外业数据智能采集系统进行了研究与应用,提高了数据采集的安全性和全站仪使用的灵活性,克服
目的对社区适龄妇女两癌筛查结果及预防要点进行分析。方法选取2018年3月~2019年3月社区适龄妇女400例作为研究对象,其均接受宫颈HPVDNA、白带常规、阴道扩阴器、妇科双合诊