几种文本特征降维方法的比较分析

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:juhaixu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘中采用向量空间模型(VSM)来表达文本特征,表现出巨大的维数,从而导致处理过程计算复杂,为此,需要先对文本特征矩阵进行合理的降维处理.隐含语义分析(LSA)、概念索引(CI)、非负矩阵分解(NMF)和随机映射(RP)是几种有效的降维方法,在分析降维空间的含义和计算复杂度后,通过文本聚类实验比较和分析了这几种降维方法的差异,实验表明,这些方法不仅可以对文本特征空间作有效的降维处理,还能在不同程度上凸现文本和词条之间的语义关系,从而提高文本挖掘的效率和准确率.
其他文献
在加利福尼亚州的圣华金河谷,美国农业部的科学家正在研究如何提高水资源的利用效率,帮助桃种植者尽可能充分利用日益减少的水资源。美国农业研究服务局(ARS)的科学家艾尔斯在圣
针对当前虚拟企业伙伴选择方法存在的不足,提出了虚拟企业合作伙伴选择的BP神经网络模型:文中首先构建了虚拟企业合作伙伴选择评价指标体系,在该体系的基础上,构建了BP神经网络评
研究并实现了一个以安全审计和监控技术为基础的大规模多用户网络安全监控与审计系统的方案,其特点是支持大规模多用户并发访问而不相互冲突,该系统不仅适合于班级规模的安全
本刊讯近日,经省农业厅、林业厅、省畜牧食品局分别会同省发展改革委、财政厅考核,四川省人民政府认定江安县为四I省第三批现代农业产业基地强县。自2009年被确定为“现代农业
文章探讨了在新形势下如何让图书馆走近读者;提出加强图书馆馆舍建设,加强延伸服务,从服务空间上走近读者,通过网络服务、有线电视、手机等现代化手段从服务手段上走近读者。
食用富含果蔬的饮食是获取人体足够重要营养元素的途径之一,多食蔬果能减少中风风险。据发表在《中风》杂志上的一项最新研究报道,每食用200 g水果可降低32%患中风的概率,每
贝叶斯算法在垃圾邮件过滤中应用广泛。针对算法提高精确率和召回率的矛盾,提出了。一种新的基于多贝叶斯算法组合的垃圾邮件过滤方法,并给出了不同方法下中、英文垃圾邮件过滤
通过分析合同能源管理模式,结合电网企业发展的实际情况.提出了促进电网企业节能减排发展的措施和建议。
随着城市道路交通供需矛盾的不断突出,交通信号控制策略、控制方法的科学合理性成为影响城市交通性能的关键因素。分析了传统最优交通控制理论的不足,揭示了交通控制中的满意性
从中小型图书馆的常规服务、人文服务、专题服务的延伸与深化方面作了探讨,以求实现图书馆资源利用的最大化。