基于语义的中文文本聚类最佳簇数研究

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:fjiik
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分析了聚类数目的确定对大样本数据聚类效果的影响,对目前聚类质量衡量指标的几个主要流行观点进行了剖析。利用文本相似度的概念对文本语义最佳聚类数问题进行了研究,提出了一种基于聚类过程的文本最佳聚类数算法CTBP,其主要思想是在文本向量集的每个文本向量中抽取出一个词汇,按相似度有序排列,用增量逐层划分以得到最优划分所对应的簇类数。这样通过扫描一遍数据就可以获得多个统计信息,最后求出最优解。实验结果表明了该算法的高质量和高效率。
其他文献
目的:研究CT与脑电图在脑梗死诊治中的应用。方法:对152例脑梗死患者分别做CT与EEG,并进行异常率的比较。结果:24小时内组EEG发现急性脑梗死的阳性率较头颅CT高,差异有高度统计学
随着"互联网+"影响力的不断提升,"互联网+"商业经济近些年实现了较为长足的发展,基于此,本文就"互联网+"商业经济发展的特征展开分析,并结合"互联网+"商业经济发展存在的问题
煤炭作为工业之粮食,一直以来都是我国主体能源。近年来,我国正在大力推进煤炭供给侧改革,倡导发展清洁能源,煤炭消费比重不断下降。然而,我国富煤缺油少气的资源禀赋决定了,
资料与方法    选择膝关节择期手术患者40例,年龄20~55岁,ASAⅠ~Ⅱ,双盲、随机分为B组(布比卡因)和M组(咪唑安定+布比卡因),每组20例。两组患者年龄、身高、手术时间和麻醉阻滞平面均相似,且两组患者术前MAP、HR和SPO2基础值与术中的值相似(P>0.05)。  排除有椎管内麻醉禁忌证、有长期使用镇痛药物史和对所用药物有过敏史者。手术种类包括膝关节切开韧带修补术、髌骨骨折固定术
文章首先阐述了初中语文教学中微课应用的思路和意义,然后具体阐述了初中语文教学中微课应用的现状,最后提出了初中语文教学中微课的应用策略,具体包括课上播放微课,提高课堂
提出了一种基于蚁群优化的分布式QoS多播路由算法,蚁群算法是解决多QoS约束组播路由问题的一种启发式算法,多QoS约束的组播路由技术是当前实现分布式网络多媒体的关键技术。
临床资料    2005年3月~2007年11月收治妊娠合并再障2例,均为初产妇,2例均在妊娠前已明确诊断为再障,均行剖宫产术,新生儿均存活。
随着我国加入世界贸易组织步伐的临近,对我国施行政府采购制度的研究也显得极为迫切。但是,政府采购在我国尚处于起步阶段,还存在着一系列的问题,如果这些问题不能得到及时而有效
针对机器视觉应用中出现的标定靶面平行于摄像机成像平面的情况,提出对基于RAC(radialalignmentconstraint)摄像机标定算法的改进。建立了该种情形下摄像机标定模型,根据RAC约束的方向不变性、RAC约束的等比例性等特性,使用Levenber-Marquardt算法计算出部分参数,以及利用针孔成像原理求出余下的参数。通过实验对算法进行了验证和分析,结果表明,该算法计算量小,并且具
资料与方法2005年12月~2008年4月收治人工全髋关节置换术患者32例,男20例,女12例。年龄38~80岁,平均57岁。其中股骨头坏死20例,类风湿性关节炎4例,病理性骨折8例。手术采用髋后外侧