基于向量空间模型的文本聚类算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:tommy8248
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法有效地减少了聚类所消耗的时间,实用性和灵活性都较高。
其他文献
介绍了一种经改进建立的从鸡血中快速提取高纯度基因组DNA的方法。该方法提取DNA耗时较短,只需2.5~3 h即可拿到DNA样品。提取的DNA样品经紫外分光光度计检测,DNA样品的A260/A
通过对培训工作中存在问题的剖析,分析了培训工作中产生这些问题的根源和症结,在此基础上引入了培训矩阵概念,并对培训矩阵的结构、内容及其应用进行阐述,以达到在培训工作中
社区零售业是一种以社区内的居民为服务对象,并为社区内的居民提供优质的商品和满意的服务,从而促进居民的综合消费,是城市商业的基础。本文以大河沟社区零售业为例,分析了大
研究中学教师群体的幸福感现状,采用问卷调查及数据分析的方法对不同学校的中学教师进行研究.结果表明:中学教师整体幸福感不高,直方图结果接近于正态分布;影响幸福感的主要因
为了研究双联塔非对称PC斜拉桥主梁的破坏形式和弹塑性极限承载力,利用其破坏形式和安全储备指导实际车辆合理安全运营。以某在建斜拉桥为研究对象,基于弹塑性有限位移理论,
目的:本研究通过隔药灸合针刺和单纯针刺两种方法治疗痰湿型多囊卵巢综合征(PCOS),观察其对痰湿型多囊卵巢综合征的临床疗效,以期为临床医师治疗多囊卵巢综合征寻求方式多样
草场经营制度的变迁、畜牧生产成本的上升以及生态保护政策的实施,致使传统草原畜牧业面临经济发展与生态保护的双重考验。20世纪80年代后期,牧区落实“草畜双承包”,赋予牧
目的设计并探索一条工艺稳定、收率较高的抗病毒化合物法匹拉韦(T-705)的合成工艺路线。方法以氨基丙二酸二乙酯盐酸盐为起始原料,氨水氨解后与乙二醛环合得到3-羟基-2-吡嗪酰
人类的行为时刻在影响着生态系统。或积极,或消极。选择人均能源生态足迹(包括煤、焦炭、燃料油和电力等)作为代表生态阈值的指标。以能源消耗弹性系数代表人类对生态系统的消极
本研究通过收集、分析被试解题时出声想的口语材料,探讨了初中学生解代数应用题中认知模式的作用和特点。在解代数应用题中,认知模式主要表现为识别应用题的类型。结果表明,