基于统计降维和Kohonen网络的文本聚类和分类研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:crylion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的大规模发展和企业信息化程度的提高,有越来越多的信息积累,其中绝大部分均以文本形式存在。这样,文本挖掘(Text Mining)作为数据挖掘的一个新主题而出现,引起了人们极大的兴趣,同时,它也是一个富于挑战的研究方向。 神经网络是一种常用的数据和文本挖掘工具,其在文本挖掘的应用中通常采用的是Kohonen网络,但在实际应用时必须考虑的一个问题是由于文本特征向量维数太大,造成网络规模过大和训练时间过长。考虑到文本的高维特征,本文提出了两种文本挖掘算法:一种基于WMI值(words mutualinformation)的统计降维和Kohonen网络(SOFM网)相结合的文本聚类方法和一种新的基于Markov链的统计降维和Kohonen网络相结合的文本分类方法。基于wMI值的方法侧重考虑文本特征项之间的互信息进行降维,基于Markov链的统计降维方法利用文本特征词条之间存在的大量冗余性进行降维,无论是用于聚类的降维算法还是用于分类的降维算法都大大提高了特征选择的效率,并极大地提高了聚类和分类的精度。
其他文献
生物学是一门以实验为基础的学科,实验教学在课堂教学中占有极其重要的地位。通过生物学实验,不仅可以让学生体验到探究的乐趣,更重要的是能培养学生的动手能力、创新精神,养
期刊
炼钢-连铸-热轧是钢铁生产过程的关键工序。炼钢-连铸工序将炼钢原材料加工成板坯,热轧工序将板坯轧制成热轧卷。炼钢-连铸工序和热轧工序通过板坯库相连接。本文以开发具有
中学开展信息技术课的教学,是普及计算机基础知识,培养计算机技能,提高学生素养,使其获得全面发展的有效途径。但是,当前中学信息技术的教学发展相当滞后。通过相关调查分析,
期刊
期刊
随着时代的发展,信息的重要性越来越受到人们的重视,国家对信息技术的教育也提到日程上来,各地都加大了对信息技术教学投资的力度,各学校也相继购置了电脑,配备了多媒体教室,
期刊
肌电信号作为智能肌电假肢的主要控制源,研究肌电信号与人体动作间的联系对智能假肢的研究有着重要的意义。基于PC的虚拟仪器技术是一种新兴的构造仪器的技术,它利用计算机强大
期刊
期刊
高性能的交流调速系统都需要进行速度闭环控制,这就要求用速度传感器来测量转速,带来的问题是安装困难、成本提高,因此取消速度传感器利用已知信息估算转速便成为一个研究热点,在过去的20 多年里国内外许多学者致力于对无速度传感器控制系统的研究。本文基于感应电机稳态方程构造模型参考自适应观测器来估算转子速度,从而构成无速度传感器矢量控制系统进行了较为全面、深入的研究。首先对目前用于速度估算的几种方法进行了介
你是不是在为排列组合的讲授而发愁呢?你的学生是不是在为这个知识点而大伤脑筋呢?我们都知道,排列组合作为高中代数课本的一个独立分支,因为极具抽象性而成为“教”与“学”
期刊