基于ⅡG和LSI组合特征提取方法的文本聚类研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:SHANGTIEYING
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法,对文本进行了有效的自动聚类.从语料库中抽取了250篇文本,首先利用向量空间模型和改进的信息增益特征选择方法,构造文本特征向量,利用C-均值方法聚类,聚类结果准确率、查全率、F-measure分别达到0.82、0.88、0.83.在此基础上,对最优的特征选择结果运用潜在语义索引方法,对奇异值分解的结果进行截断处理,发现奇异值K取40时聚类结果的准确率、查全率、F-measure达到0.95、0.57、0.78,在有效地降维的同时,大幅度地提高了聚类的准确率.
其他文献
为了设计一种高性能的小型微带滤波器,提出了一种新颖的Φ形缺陷地结构(DGS),在此基础上提出了一种加H形开路枝节的Φ形DGS单元模型,以实现低通特性和提高带外抑制度.采用级
为降低氧化铝生产蒸发工序的能耗,根据工业铝酸钠溶液的密度、比热容、各组分的活度因子和标准化学炯等性质,推导出工业铝酸钠溶液的(火用)计算式;对四效蒸发器一三级闪蒸器
为提高镁基非晶合金的塑性应变能力,采用水冷铜模浇铸-拔丝造孔法制备了Mg65 Cu20 Zn5 Y10多孔非晶合金,对Mg65 Cu20 Zn5 Y10多孔非晶合金的组织、热稳定性和压缩性能进行了
大力发展短流程电炉,推行高效的节水技术,实行钢铁渣资源化,加强对二次能源的回收利用,积极进行碳捕集与碳封存,坚持系统谋划、节能优先、创新替代、循环利用、绿色低碳、安
通过不同氮磷钾优化配比施肥对高蛋白大豆品质和产量及构成因素影响的研究。结果表明:最有利于高蛋白大豆子粒产量和蛋白质产量提高的氮磷钾配比是N150kghm-2、P2O590kghm-2
目的 分析地震伤致骨筋膜室综合征(OCS)的发病部位及早期诊治方法.方法 2008年5月12日发生的汶川地震所致OCS伤员67例,男性38例,女性29例,年龄8~69岁,平均38.1岁.其中合并胫腓
成分数据具有非常复杂的数学性质,很多传统的统计分析方法对其是失效的,因此,在研究中必须采用特殊处理和专门技术.着重讨论了成分数据相关系数的计算方法,由于普通数据的相
试验在乌鲁木齐和奇台县碧流河乡旱作条件下进行,主要研究了鹰嘴豆种子出苗、幼苗成活以及获得高产的最佳播种时期.试验结果表明,鹰嘴豆在北疆农牧区旱作条件下可以栽培成功,
本文依据测量不确定度的评定原理和方法,通过对石油产品酸值测定法的测量过程进行不确定度分析。并充分考虑测量重复性、基准物质标定、标准溶液滴定、样品称重等过程对测量
The method of extracting the basic features of part from the file of STEP AP214 of 3-D model is proposed. All faces in the file are the minimal elements. The co