结合语义改进的K-means短文本聚类算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:crazy915
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集的最大频繁词集获取初始聚类中心,有效克服了K-means聚类算法对初始聚类中心敏感的缺点,解决了簇的理解性问题;通过结合TF-IDF值的语义相似度计算文档之间的相似度,避免了高维空间的运算。实验结果表明,从语义角度出发实现的短文本聚类算法优于传统的短文本聚类算法。
其他文献
终端是消费者接触5G的第一步,终端对于5G的部署来说具有十分重要的战略意义。随着5G网络试点工作逐步扩展,5G网络规模商用即将开启。进入2019年,运营商开启5G终端集采,面向友
飞行模拟器具有真实飞行训练无法比拟的优势,其结构设计是优化飞机设计,改善飞行性能的关键问题,故飞行模拟器的建模与仿真研究工作是飞行器设计的难点。通过与液压缸驱动的
皮革的材质鉴别是皮革及皮革制品检测中的基础项目,现行标准中鉴别皮革类别的主要方法有感官法、显微镜法和扫描电镜法,研究中的方法还有红外光谱法、DNA鉴别法等。研究使用
采用化学均匀沉淀法制备MgO、Fe2O3、Co3O4、NiO和CuO 5种常见金属氧化物催化剂,利用各催化剂与臭氧联用处理低浓度氨氮水,通过对产物的鉴定与分析考察各催化剂去除氨氮活性
莞惠公路改造是在旧有道路水泥混凝土路面采用改-性沥青混凝土进行加铺罩面的复合路面结构,加宽车道是先按设计标高浇筑水泥混凝土路面,再加铺改性沥青混凝土。本文结合该工程
本文结合工程实例,对岩土工程勘察报告进行了分析评价,对不均匀地基稳定性验算与地基加固处理进行了详细探讨,并提出了具体解决办法,为地基设计方案提出了具体意见和建议。
随着密码学技术不断发展,基于属性的密码学作为密码算法的新概念,近年来受到广泛关注。但是,已提出的基于属性的加密方案大都是基于大整数分解和离散对数问题等传统数学问题之上
中山市地处于夏热冬暖地区,建筑节能工作正在逐步的推广和实施。根据本地的气候特性及建筑材料的市场情况,对新建建筑的节能和现有建筑的节能改造提出了复合中山本地特色的建筑
大体积混凝土体积大,内外温差大,容易产生温度裂缝,影响建筑物的结构安全和使用功能,必须对大体积混凝土施工进行分析和掌握其施工要点。
由于作为朴素贝叶斯分类器的主要特征的条件独立性假设条件过强且在不同数据集上表现出的差异,所以独立性假设成为众多改进算法的切入点。但也有研究指出不满足该假设并没有对