一种基于SVM的可视化文本分类的方法

来源 :第二十一届中国数据库学术会议 | 被引量 : 0次 | 上传用户：wangpeng532

【摘要】

：

提取特征的方法与文本的语言有关。文本数据向量的维数一般非常大，如何减小维数是获得有效的知识模型的重要问题之一。在将文本训练数据集合转换为一组二值分类数据集时，应该考

【作者】

：

胡俊;黄厚宽;

【机构】

：

北京交通大学计算机与信息技术研究所,北京,100044

【出处】

：

第二十一届中国数据库学术会议

【发表日期】

：

2004年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提取特征的方法与文本的语言有关。文本数据向量的维数一般非常大，如何减小维数是获得有效的知识模型的重要问题之一。在将文本训练数据集合转换为一组二值分类数据集时，应该考虑文本分类与转换成的二值分类问题的一致性间题。对于应用SVM技术的文本分类，选择适当的内积核可以帮助获得有效的分类算法。对数据对象的可视化表示可以帮助用户直观地认识数据对象中隐含的一些信息，此有助于明确认识不同的分类对象在分类中的作用。在决策函数应用的过程中，交互式可视化方法的运用可以帮助更为方便直观地确定一些影响分类学习的参数。用户能够启发式地确定系统的参数以影响学习的过程，这种方式有助于学习机确认用户的意图。

其他文献

基于颜色模型的自组织映射

本文提出了应用光谱－－颜色映射作用于自组织算法输出神经元的初始化的方法，基本的思路是先对神经元网格按颜色模型分布，每一个神经元代表某一种颜色.将数据通过光谱－－颜色映射，也得

粗粮的营养价值

饮食平衡的第一原则就要求食物要尽量多样化。只吃精米、白面肯定是不符合“平衡膳食”原则的,还要多吃粗粮,在主食上也做到多样化,才算是从根本上达到营养平衡的目的。　　

期刊

营养价值主食粗杂粮平衡膳食加工程度饮食营养胡萝卜素血糖变化营养平衡排毒养颜

一种基于决策矩阵的属性约简算法

属性约简是Rough集的核心内容之一，它是基于Rough集理论的知识获取的基础。目前许多约简算法都是不完备的，并具有较高的空间和时间复杂度.本文提出一种新的计算属性约简的算法E

会议

决策矩阵约简算法属性约简等价类空间和时间知识获取算法利用区分矩阵论域划分理论分析决策属性矩阵计算复杂度实验基础

基于随机响应的隐私保护关联规则挖掘

本文提出利用随机响应技术来解决关联规则挖掘中的隐私保护问题.主要的贡献在于(1)提出并实现了PPA(Privacy Preserving Apriori)算法--基于随机响应的隐私保护Apriori算法;

会议

随机响应隐私保护关联算法原始数据规则挖掘干扰数据准确性随机化选择实验技术参数

一种网络告警的增量挖掘算法

目前国内外学者对网络告警进行了很多的研究，有多种方法被应用于网络故障管理系统中。在故障管理中，已有的挖掘告警序列研究基本上沿着两个方向进行:(1)基于单个长事件序列系移

会议

不协调决策表下核属性的求解

Rough集理论自提出以来,已经在机器学习、数据挖掘等领域中得到了广泛应用.决策表信息系统是Rough集理论的主要研究对象,决策表的约简是所有R0ugh集理论和应用研究的焦点问题

会议

不协调决策表核属性可辨识矩阵决策表信息系统求解算法理论应用研究研究对象数据挖掘焦点问题机器学习构造方法信息熵信息论验证学者基础

面向构件的软件版本管理模型

本文提出了一种基于UVM的构件版本管理模型，主要用于解决构件集成与维护过程中经常碰到的构件标识与检索、依赖性等问题，文中引入属性值分类偏序集的方法，用户可以定义属性的分

会议

面向构件软件版本构件体系结构属性值实体关系管理模型构件集成构件标识分类依赖性实例库偏序集用户维护库区检索方法

本体的描述逻辑到框架表示的转换

信息系统常采用知识导航模块,该模块的核心是框架本体库,因为框架表示能够通过对象的联系属性在不同概念之间建立联系,其数据结构适合知识导航.当前,本体主要有逻辑表示和框

会议

一种面向Web站点的个性化推荐算法

本文中，作者将基于分类方法的个性化推荐算法和基于页面的兴趣度相结合，提出了一种新的个性化推荐算法，该算法能够有效地提高被推荐页面的有效性. 如果应用新算法的时间足够

会议

电子邮件特征向量提取

电子邮件(简称E-MAIL)是因特网上使用得最为广泛的应用之一,随着Internet的发展,电子邮件已经成为一种重要通信方式.大量"垃圾"邮件的存在既浪费人们大量的时间,又占用宝贵的

会议

一种基于SVM的可视化文本分类的方法

与本文相关的学术论文