基于语义距离的高效文本聚类算法

来源 :华南理工大学学报(自然科学版) | 被引量 : 0次 | 上传用户:JK0803_chenjiehua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有文本聚类算法忽略了词之间的语义信息,导致文本的相似度计算不够精确的问题,提出了一种基于语义进行文本聚类的新方法.该方法从语义上具体分析文本,利用文本的具体语义来计算文本间的相似度.聚类采用最近邻聚类算法,并提出第二次聚类算法来改进最近邻算法对输入次序敏感的问题.根据相似度权重优胜劣汰类特征词,使得最后类特征词越来越逼近类的主题.实验结果表明,文中所提出的算法在聚类精度和召回率上均优于基于向量空间模型的k-Means聚类算法.
其他文献
<正>在各地的高考压轴题中每年都大量存在构造辅助函数证明不等式和求参数取值范围的问题.这类问题综合了函数、数列和不等式,由2至3个小题构成,小题之间由易到难,层层递进,
<正> 上海某钢铁厂职工汤××的女儿,幼时生过奶癣,以后便开始染有湿疹,伴有气喘病.几乎每年都要发作,在十五岁时湿疹骤剧,遍及全身,病人上、下肢膝窝部、腰部皮肤出现斑疹,.
<正>我们知道,数的集合简称数集,数集的常用表示法有列举法和描述法两种.一个集合,当它含有限个元素时,称该集合为有限集,如集合A={-2,3};含无限个元素时,称该集合为无限集,
混合使用指土地和空间在使用时的兼容与混合状态,混合使用理念作为有效指导分配和整合城市要素的理念,在历史城区更新领域却并没有得到详细的探讨。文章以汕头市历史城区城市
在我国进入老龄化快速发展的社会背景下,大量的养老社区不断涌现,存在政策层面、设计层面和运营层面的问题。文章针对我国养老社区规划建设中遇到的问题,对国内外现有养老社
吡螨胺是一种新型、高效的吡唑酰胺类杀虫剂。探讨了吡螨胺的合成。通过实验 ,可以选择以水合肼为原料 ,与丙酰丙酮酸乙酯闭环 ,碳酸二甲酯代替硫酸二甲酯进行 N-甲基化的合
东北地区人口众多,资源丰富,地域辽阔,黑龙江、吉林、辽宁三省共有近90万平方公里,总人口10700多万。东北地区是国家粮食生产基地、工业生产基地与资源开采基地,其经济发展水
文章建立了水中痕量甲霜灵残留的液相微萃取-高效液相色谱(LPME-HPLC)检测方法。详细研究了萃取溶剂、体积、萃取时间、搅拌速度、温度、盐度等因素对液相微萃取的影响,确定
针对当前住区适老化改造普遍存在的内涵和标准不清晰、规划实施抓手不足和配套规划管理技术规定滞后等问题,文章明晰居住宜老、活动便老、设施为老的适老住区内涵和评价标准;