Web挖掘在中文文本自动分类中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:show_me_the_money
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文以Web挖掘在文本分类中的应用为切入点,在深入研究Web挖掘的理论、模型和算法基础上,对Web挖掘的形式化定义和挖掘算法的发展体系进行界定,并设计了一个基于Web挖掘基础理论的中文文本自动分类平台. Web挖掘是指从大量Web文档集合中发现隐含模式的过程,这里的模式强调创新性、概括总结性、潜在有效性和可理解性.Web挖掘的一般步骤可理解为资源发现、信息预处理、概括化、结果评估四步曲,其中信息预处理是基础,模型概括化是关键.模型概括化的概括水平通过挖掘算法的挖掘能力体现,而挖掘算法由于来源广泛、应用多样而处于杂乱无章的状态.该文从算法的模型表示和优化过程出发,归纳出一套挖掘算法发展脉络的雏形,从而为具体情况下对算法的选择、算法的改进以及新算法的提出提供了理论帮助.通过对几类典型挖掘算法的定性比较,发现支持向量学习机相对来说最适合于文本分类应用.支持向量学习机具有很强的挖掘能力,是因为它是统计学习理论的工具实现.传统统计学是基于样本趋于无穷大时的渐进理论,而统计学习理论着重研究小样本情况下的统计规律,并应用VC维来计算出泛化界,从而提高了实现算法的挖掘能力.该文设计出一个改进的支持向量学习机算法,它针对具体问题的挖掘能力更优于传统的支持向量学习机.应用上面的思想,该文实现了一个中文文本自动分类平台,它的设计基于Web挖掘四步曲,其主要实现技术是中文分词、特征提取、文本表示和模式挖掘.通过对该平台的性能评测,验证了Web挖掘和文本分类技术的有机结合能够有效解决同主题文本细分类问题.从而说明Web挖掘在深层次的中文文本自动分类领域发挥重要的作用.
其他文献
本文对特殊二部图连通支配集和顶点反馈集的算法进行了研究。连通支配集是给定图中的一个顶点子集,这个顶点子集可以支配图中所有点,并且保证该顶点子集的生成子图是连通图。反
该课题旨在针对一般大型、复杂软件所共有的交互性特征,重点研究基于UML活动图模型的测试用例设计与生成方法,并实现了一个与UML建模工具Ratinal Rose相集成的软件测试用例设
在采用Linux进行嵌入式开发时的一个突出问题是:Linux在编译内核时默认的配置是针对I386平台的.而大量的嵌入式系统使用的CPU都不是I386体系结构的,所以需要针对这些CPU重新
该论文根据胜利油田炼油厂的生产经营特点,利用先进的ERP技术,设计了提高胜利油田炼油厂生产经营水平的运营模式,开发了适合炼油厂管理的ERP应用软件.论文首先对ERP的最新发
该文主要讨论连续参数的演化算法,即函数优化问题的演化算法.介绍了演化策略的基本理论,包括Rechenberg的(1+1)-ES收敛速率理论,Beyer的(μ,+λ)-ES理论,以及Rudolph用鞅方法
随着越来越多的教学内容实现了数字化,并以电子文档的形式储存,如何让计算机来理解电子文档中的图片则成为一个极为重要的问题。平面几何题图形是文档图形中的一种,目前几何题的
该文针对"计算资源"共享这一问题,结合RMI的代码移动特性和Java的多线程技术,以及它们面向对象的优点,构造了RDCM模型:一个基于RMI的分布式计算模型.该模型能够有效的利用局
由于计算机技术、通讯技术相结合的信息时代的快速发展和互联网的广泛应用,3C(Computer、Communication、Consumer)合一的趋势已经形成,其结果必然就是将计算机工业的中心从计
该论文主要研究三维柔性织物的计算机仿真技术.首先综合论述近年来柔性织物计算机仿真的基础理论,主要造型方法及研究现状.分别对柔性织物的模型构建,仿真实现的数值计算方法
该论文主要基于作者独立研发的WebCaptor系统,描述了网络信息集成中各个流程的实现方法.首先是网络信息集成建模,文中使用一种基于框架的方式描述了论文研究对象--简化商业领