基于PCA与多视图学习的中文文本分类研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:huanyingchangmaoshou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并准确、全面、快速地将用户所需要的信息从文本信息系统中选取出来成为当前信息科学和技术领域的一大挑战。文本分类技术作为文本信息处理领域的关键技术之一,在较大的程度上解决了信息混乱的问题。文本分类面临的一个主要问题就是在用向量空间模型表示文本时,向量空间的维数过高,这样就造成了分类算法的计算复杂度很高。首先要进行特征选择,常用的特征选择方法包括:信息增益、互信息、χ2统计、期望交叉熵、词频方法、文档频次方法、文本证据权等。本文是从多种特征选择函数的差异性着手进行研究的。本文的主要工作包括以下内容:1.本文在各特征选择函数之后应用了主成分分析(Principal Component Analysis)的方法,它进一步的降低了特征维数并选出更具代表性的特征项。实验表明应用PCA后各分类器的分类性能得到了明显地提高。2.本文将PCA应用到各特征选择函数之后,基于各特征子集的差异性提出了一种改进的多视图学习策略。将PCA与多视图学习策略相结合应用到文本数据分类中来,实验表明其可行性。
其他文献
星机联合双基地SAR(Spaceborne Airborne Bistatic SAR,SA-BiSAR)系统,是由卫星和飞机组成的一种新型双基地SAR(BiSAR)系统,不仅继承了BiSAR的诸多优点,还在扩大目标照射范围
如今,在新世纪第二个十年,人们有更多的通信需求,即追求更快的移动无线通信速度和更高的通信质量。随着无线通信技术的发展,无线通信环境变得越来越复杂,干扰是无线网络通信
视频压缩是利用帧内、帧间预测编码以及变长熵编码等方法去掉大量冗余信息。但由于传输信道的不稳定,视频传输过程中产生误码及丢包现象十分普遍,使得压缩后码流抵抗差错的能
统计分析表明,全国煤矿瓦斯事故占煤矿事故总数的70%。然而本系统的主要功能有:煤矿井下瓦斯实时数据采集、传输和处理;对出现的瓦斯事故进行预警和救援支持。而目前,大多数
由于扩频信号具有功率谱密度小、抗干扰能力强、保密性好等优点,已被广泛应用于军事和非军事领域。在直接序列扩频(DSSS)信号中,一个符号信息与一个伪随机序列相乘来扩展频谱
盲信道辨识作为现代信号处理的关键技术,信道参数的估计仅利用接收端的数据就可以完成,最早的盲信道辨识方法主要是通过计算高阶累积量来实现的。Tong算法的提出为信道盲辨识
H.264/AVC是ITU-T/ISO共同研究发布的具有高压缩比、高图像质量、强抗误码性新一代视频压缩标准。码率控制算法贯穿其整个编码过程,它是视频编码中合理分配比特率以提高视频
合成孔径雷达SAR(Synthetic Aperture Radar)仿真系统的建立将为SAR的系统设计、性能分析及系统的优化提供重要的手段和工具。同时,由于基于高层体系结构HLA(High Level Arch
OFDM技术是被无线局域网标准IEEE802.11a选中作为其物理层的接入技术。OFDM系统就是正交频分复用系统,它是一种特殊的多载波调制解调系统。它的特殊性体现在它的各个子载波的
随着科技的快速发展,无线用户对信息传输的需求向着高数据率和高可靠性的方向发展,而MIMO-OFDM技术的出现满足了这一需求。MIMO技术可以利用空间复用增益提高信道的容量,利用