基于团结构的文本分类技术研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户：shulin370

【摘要】

：

近年来,随着网上电子文档的数量以指数级的速度增长,文本分类技术在信息检索、信息过滤以及内容管理等各项应用中变得越来越重要,已经成为信息检索和机器学习中的前沿研究领

【作者】

：

胡晓辉

【机构】

：

江西师范大学

【出处】

：

江西师范大学

【发表日期】

：

2008年期

【关键词】

：

文本分类文本团图模型链接网页分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着网上电子文档的数量以指数级的速度增长,文本分类技术在信息检索、信息过滤以及内容管理等各项应用中变得越来越重要,已经成为信息检索和机器学习中的前沿研究领域。文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息。文本自动分类是指在给定的分类体系下,对未知类别的文档进行自动处理,并根据文档特征来判断其所属类别的过程;基于机器学习的文本分类技术已经成为主流技术。目前,研究者已经提出了许多成熟的文本分类算法,这些算法大都来自于模式分类,如KNN分类算法,支持向量机算法等。这些现有的文本分类算法大都基于向量空间模型,没有考虑文档的语义特征信息、结构信息等。本文针对传统分类器的不足对文本分类及其相关技术进行了研究,提出了两种有效的解决或改进的方法和技术。本文的研究内容和创新工作主要包括如下两点。1)本文研究了一种基于文本团的文本分类方法,通过在训练集上由文本相似矩阵构造文本相似图,从图中提取文本团(完全子图),由每个类别的团信息来构造分类器,进而与SVM等分类器进行组合。在复旦大学中文文本分类语料库和20 Newsgroups语料库上进行实验,并同时在相同的预处理条件下,与传统的分类方法进行了对比实验,实验表明我们提出的方法在两个数据集上较大改进了分类性能。2)随着网页信息的快速增长,特别是Internet上在线信息的增加,再靠人工的方式来处理信息是不切实际的。因此,网页自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。为了有效地组织Internet上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域。由于WEB文档有其自身的特点,近年来受到很多学者的关注,对于WEB文档的分类,传统的文本分类器有其自身的局限性,因此针对WEB文档的特点,我们在传统分类器的基础上利用了WEB文档丰富的链接信息。在北大天网提供的数据集上的实验表明本文分类方法再结合网页的链接信息对分类的效果有所提高。

其他文献

面向语义Web服务的发现机制研究——基于Chord的语义Web服务发现

Web服务作为工业界的一个标准，是未来互联网重要趋势之一。将语义Web的核心技术——本体应用于Web服务，形成了语义Web服务。语义Web服务在标准的Web服务描述中添加了语义信息，使

学位

Web服务发现机制分布式对等网络分类词扩展

基于网络编码和链路相关性的多包洪泛协议

随着信息技术的迅速发展，无线传感器网络得到广泛的研究和应用。洪泛协议作为无线传感器网络的最基本路由协议，支撑高层的协议和相关的应用。但现有的洪泛解决方案主要集中在单

学位

无线传感器网络多包洪泛算法网络编码链路相关性

蓝光播放器系统中AACS保护机制的研究与实现

计算机科学不断发展,技术不断进步,带来了一个严峻的问题,那就是破解技术也进一步提高,对数字媒体内容的盗版变得日益猖獗,传统的保护方法已经不能起到保护的作用。随着下一

学位

高级内容访问系统高级加密标准椭圆曲线子集差分蓝光

基于J2EE架构的工作流管理系统的研究与实现

随着计算机技术的发展与经济全球化,越来越多的组织采用工作流技术以提高竞争力和适应变化的能力。作为创建、执行和管理工作流的系统软件,工作流管理系统存在广阔的市场前景

学位

工作流管理系统J2EE过程定义元模型工作流引擎

基于变换域的文本信息隐藏算法研究

互联网使得信息的传输交流变得比以往任何时候更快捷方便,但也给信息安全带来很大的隐患。文本是信息中最主要的形式,如何使得秘密文本信息能通过互联网进行安全、隐蔽而便捷

学位

信息隐藏文本隐藏离散傅立叶变换离散余弦变换离散小波变换

游戏引擎中基于计算机视觉的新型交互系统的实现

基于摄像头的新型实时交互手段是在传统人机交互手段,例如键盘鼠标等之上的一种很好的拓展。特别是使用两个摄像头同时进行拍摄,可以充分模拟人的眼睛对客观世界的感知,从而

学位

计算机视觉摄像头校准特征点图像匹配空间信息还原

循环不变式开发技术研究

高可靠性软件是当今软件开发的热点问题.确保算法程序逻辑结构正确最理想途径是算法程序的形式化推导和证明。循环不变式在软件形式化方法中占有十分重要的地位,它是理解、证

学位

PAR方法循环不变式循环变量Dijkstra最弱前置谓词法

基于Siebel的担保CRM系统的设计与实现

客户关系管理(Customer Relationship Management,CRM)是以“客户为中心”经营理念的集中体现,它是在商业竞争日趋激烈,客户个性化要求更明显的环境下应运而生的。CRM的本质

学位

客户关系管理Siebel构件主动回访工作流

基于机器学习的数据碎片类型识别技术研究

在数字取证、入侵检测和逆向工程等领域，经常会遇到一些类型未知或格式不明的数据或文件片段。如何快速识别出这些数据的数据类型或所在原文件的文件类型是一个至关重要的问题

学位

数据碎片数据类型文件类型机器学习PPT碎片

基于SOA的企业网格框架设计

网格是90年代初提出的新概念,它将分布在不同地理位置的计算资源通过高速的互联网组成一台超级计算机,实现各种资源的全面共享。网格计算是伴随着互联网技术而迅速发展起来的

学位

面向服务的体系结构网格网格计算

基于团结构的文本分类技术研究

与本文相关的学术论文