基于谱图方法的文本分类研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：lqym2929

【摘要】

：

随着互联网的高速发展，Web上的信息量高速增长，这其中文本信息占据了相当重要的位置。对这些文本信息加以搜集、分类和总结，传统的手工方法已经无法满足需要。文本自动分类、信

【作者】

：

金自翔

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2007年期

【关键词】

：

谱图方法文本分类降维拉普拉斯矩阵快速算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的高速发展，Web上的信息量高速增长，这其中文本信息占据了相当重要的位置。对这些文本信息加以搜集、分类和总结，传统的手工方法已经无法满足需要。文本自动分类、信息抽取和过滤技术因此得到了广泛的研究和应用。面对海量的文本信息，传统的基于规则的分类方法日益显示出其效率低，准确性差的缺点。而基于统计的方法虽然可以节省人工劳动，但在标注样本数较小的情况下仍然存在着模型准确性差的缺点。由于样本的标注通常需要人工干预，是一个费时费力的过程，所以在标注样本较少的情况下，如何提高自动分类的准确率就成了迫切需要解决的问题，针对以上问题，本文作了如下工作： 1. 提出了一种基于谱图方法降维的分类方法SBK(Spectral Based KNN)。SBK方法采用Ratio Cut目标函数，用拉普拉斯矩阵进行规范化，用K近邻算法进行分类。通过引入谱图方法，SBK方法充分利用了未标注信息的概率分布，达到了降维、去噪、提高精度的目的。通过实验，验证了SBK方法具有比传统分类方法更好的运行效率及效果； 2．对引入谱图方法前后传统特征选择方法的效果进行了比较，指出它们不具有同质性，在分类过程中同时利用特征选择和基于谱图的特征抽取算法，可达到更理想的效果； 3．针对谱图方法较大的运算开销，实验了Nystr(o)m方法在快速计算方面的效果。结合文本数据的特点，指出了此方法不理想的原因，并进而提出快速算法所需具备的特点。

其他文献

一个在线图书销售网站的设计与实现

现在网上有许多在线交易。通过网络，人们有更多的选择去查询和购买。许多类型的在线交易，如有家政服务，服装等。现如今人们都很忙以至于他们没有时间去购物中心，查询和购买他们想

学位

电子商务B2C平台ASP技术web应用软件设计

基于覆盖网络的灾后通信快速恢复策略

随着近年来各种网络服务的爆炸性增长,通信网络已经成为当今社会最重要的基础设施之一,人们越来越依赖大规模通信网络提供的各种服务,包括商业服务,医疗处理,金融活动等。然

学位

网络恢复区域故障覆盖网络拥塞感知路由

校园网AAA系统研究

自1990年代以来，我国的校园网建设经历了接入为主、应用为主和数字化校园三个发展阶段，与此相对应，对校园网用户的管理需求也经历了“简单计费”、“计费和认证”和“计费、认证

学位

校园网

移动自组网分簇算法的安全研究

移动自组网是一个无中心的、由移动节点通过无线方式通信的自组织移动网络，它由一系列不依赖于固定基础设施的节点组成。近几年来，移动自组网由于具有方便灵活，组网快速，对特殊环

学位

移动自组网分簇算法拓扑结构动态拓扑SHDCA算法局部信誉机制网络安全

基于时间约束Petri网的过程建模研究与工具实现

随着计算机网络及通信技术的发展，在面向企业的信息系统发展过程中，工作流管理系统WfMS(Workflow Management System)逐渐从信息系统中独立出来，作为一个通用支撑工具提供给应用

学位

工作流管理系统软件过程建模时间管理Petri网

基于信号能量控制的移动自组织网络场景仿真研究

协议评估是网络协议设计开发过程中的重要环节，直接影响到网络协议设计开发的质量和效率。模拟、仿真和实景实验是三种主要的协议评估途径，仿真在半真实网络上运行真实代码，它结

学位

移动自组织网络场景仿真射频信号控制信号能量控制

面向地图应用的分布式UI协同技术研究

长期以来，用户界面(User Interface)的开发一直是最耗费时间的一项工作，因此研究者一直希望通过UI复用的方法来降低开发成本。通常情况下研究者采用UI组件技术并以组件协同的方

学位

软件开发分布式用户界面组件模型协同机制地图应用程序

Spring框架的设计与应用研究

随着Internet的发展，越来越多的企业应用采用基于J2EE标准构建的多层结构的Web应用系统。与传统的采用EJB组件构建Web系统相比，Spring框架在面向接口编程、易于测试、可维护性

学位

Hibernate架构Spring框架短信平台体系结构框架集成技术J2EE标准Web应用系统

基于决策树的坦克故障诊断系统的设计与实现

故障诊断技术是借助于现代监控、测试和计算机分析等手段，诊断其故障的性质和起因，并预测故障趋势，进而确定必要的对策。利用故障诊断技术可以及时找出设备的故障，避免不必要的损

学位

故障诊断知识库推理机决策树C4.5算法

实时传真功能在SIP UA端的实现

基于TCP/IP的Internet迅猛发展,已经成为全球覆盖范围最广,承载业务最多的综合性网络。通过IP网络承载传真业务,由于其低廉的费用和高效的带宽利用率,正在成为一种新的具有相

学位

实时传真IP传真会话初始协议用户代理

基于谱图方法的文本分类研究

与本文相关的学术论文