基于谱图方法的文本分类研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:lqym2929
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,Web上的信息量高速增长,这其中文本信息占据了相当重要的位置。对这些文本信息加以搜集、分类和总结,传统的手工方法已经无法满足需要。文本自动分类、信息抽取和过滤技术因此得到了广泛的研究和应用。 面对海量的文本信息,传统的基于规则的分类方法日益显示出其效率低,准确性差的缺点。而基于统计的方法虽然可以节省人工劳动,但在标注样本数较小的情况下仍然存在着模型准确性差的缺点。由于样本的标注通常需要人工干预,是一个费时费力的过程,所以在标注样本较少的情况下,如何提高自动分类的准确率就成了迫切需要解决的问题, 针对以上问题,本文作了如下工作: 1. 提出了一种基于谱图方法降维的分类方法SBK(Spectral Based KNN)。SBK方法采用Ratio Cut目标函数,用拉普拉斯矩阵进行规范化,用K近邻算法进行分类。通过引入谱图方法,SBK方法充分利用了未标注信息的概率分布,达到了降维、去噪、提高精度的目的。通过实验,验证了SBK方法具有比传统分类方法更好的运行效率及效果; 2.对引入谱图方法前后传统特征选择方法的效果进行了比较,指出它们不具有同质性,在分类过程中同时利用特征选择和基于谱图的特征抽取算法,可达到更理想的效果; 3.针对谱图方法较大的运算开销,实验了Nystr(o)m方法在快速计算方面的效果。结合文本数据的特点,指出了此方法不理想的原因,并进而提出快速算法所需具备的特点。
其他文献
现在网上有许多在线交易。通过网络,人们有更多的选择去查询和购买。许多类型的在线交易,如有家政服务,服装等。现如今人们都很忙以至于他们没有时间去购物中心,查询和购买他们想
随着近年来各种网络服务的爆炸性增长,通信网络已经成为当今社会最重要的基础设施之一,人们越来越依赖大规模通信网络提供的各种服务,包括商业服务,医疗处理,金融活动等。然
自1990年代以来,我国的校园网建设经历了接入为主、应用为主和数字化校园三个发展阶段,与此相对应,对校园网用户的管理需求也经历了“简单计费”、“计费和认证”和“计费、认证
学位
移动自组网是一个无中心的、由移动节点通过无线方式通信的自组织移动网络,它由一系列不依赖于固定基础设施的节点组成。近几年来,移动自组网由于具有方便灵活,组网快速,对特殊环
随着计算机网络及通信技术的发展,在面向企业的信息系统发展过程中,工作流管理系统WfMS(Workflow Management System)逐渐从信息系统中独立出来,作为一个通用支撑工具提供给应用
协议评估是网络协议设计开发过程中的重要环节,直接影响到网络协议设计开发的质量和效率。模拟、仿真和实景实验是三种主要的协议评估途径,仿真在半真实网络上运行真实代码,它结
长期以来,用户界面(User Interface)的开发一直是最耗费时间的一项工作,因此研究者一直希望通过UI复用的方法来降低开发成本。通常情况下研究者采用UI组件技术并以组件协同的方
随着Internet的发展,越来越多的企业应用采用基于J2EE标准构建的多层结构的Web应用系统。与传统的采用EJB组件构建Web系统相比,Spring框架在面向接口编程、易于测试、可维护性
故障诊断技术是借助于现代监控、测试和计算机分析等手段,诊断其故障的性质和起因,并预测故障趋势,进而确定必要的对策。利用故障诊断技术可以及时找出设备的故障,避免不必要的损
基于TCP/IP的Internet迅猛发展,已经成为全球覆盖范围最广,承载业务最多的综合性网络。通过IP网络承载传真业务,由于其低廉的费用和高效的带宽利用率,正在成为一种新的具有相