基于体裁的中文网页分类

来源 :华侨大学 | 被引量 : 0次 | 上传用户:bitdefender2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通讯及网络技术的发展,人们已经从信息缺乏的时代过渡到信息极为丰富的数字化的时代。以文本格式存储的信息资源的激增,增加了对于快速、自动文本分类的迫切需求。然而,目前大部分文本自动分类的研究都是基于内容的,没有考虑文章的功能及形式结构上的特点,在某些方面并不满足人们的需求。而基于体裁的文本分类的研究,在对信息资源进行有效的管理和检索等方面,都有一定的积极作用。本文探讨了中文网页的体裁分类问题,主要的研究内容包括:(1)中文网页体裁分类的特征项选取问题。传统的文本内容分类仅以词语作为特征项,而由于语言表达方式的差异,英文体裁分类关于特征项选取的相关研究并不完全适用于中文。本文主要研究区分不同体裁的各种特征;提出了用模糊字符串模式表示不同体裁用语特点的特征;结合自动抽取方法和人工归纳的方式来获得表示特征的模糊字符串模式。实现方法上,摆脱了传统的文本分类对切分词处理和词典的依赖,通过改进PAT树(Patricia Tree)的存储结构,对文本进行序列模式挖掘来获得候选特征项,克服了传统方法中的词库更新问题及切分词处理对新词语、英文短语提取效果不佳等的缺陷。(2)特征项的权重计算问题。基于体裁分类多种特征集的特点,探讨不同特征空间对体裁类别的判别能力问题,提出了一种评价方法;据此,提出特征项的权值调整策略,即根据不同特征空间对体裁类别判别能力的强弱,对文本在不同特征空间的特征项权值进行调整。(3)分类方法。引入文本的关联分类规则挖掘,结合关联规则分类对SVM (Support Vector Machines)分类器的分类性能进行修正。讨论了关联规则的挖掘、优化以及分类器的组合问题,提出了改进了规则的优化策略及算法。相关实验结果表明,本文的特征项选取方法总体上来说是可行的,模糊字符串模式特征的引入,也有利于改进某些体裁类别的分类效果。此外,提出的特征空间对体裁类别的判别能力的评价方法符合经验知识,权值的调整策略也提高了分类器的整体性能。关联规则对于SVM分类器的辅助修正在总体上有所帮助,但并非十分明显。
其他文献
随着互联网的发展和普及,电子邮件已经成为人们工作、学习、生活中重要的通信手段之一。电子邮件在给人们带来方便的同时也产生了一个新的问题,即大量垃圾邮件的出现。近年来
配电网线损计算是指在给定的时段内,计算一个配电网系统中的所有元件产生的电能损耗。配电网作为电力网的末端,直接与用户连接、网上设备多,系统存在着阻抗,电能在转换、输送、分
随着网络的快速发展,信息安全问题越来越受关注。公钥基础设施(PKI)是解决信息安全问题的关键技术之一,数字证书是实施公钥基础设施PKI的重要手段。证书验证是数字证书使用过
目前,各大油田都已经进入了注水开发阶段,并已陆续进入后期开发阶段,有的油田已经是二次采油、甚至是三次采油,进入中、后期开采阶段,综合含水率不断的上升,平均单井原油产量
无线链路已成为现今网络的重要组成部分,但是在提供全新体验的同时,无线网络却存在低带宽、高错误率等缺陷。TCP协议是目前使用最为广泛的传输层协议,被应用于各个领域。TCP
社会考试是指人类社会考查应试者的知识功能,在短时间内,面向社会、甚至面向国际社会达到有效、大量地选拔、审定、鉴别、测量人才优劣为目的的考试活动。社会考试以在校生或
序列码又称流密码,它是一种非常重要的加密算法,利用不断变化的加密变换对明文消息进行逐字符(通常为二进制数)的加密。序列码对硬件复杂度要求不高,硬件实施上一般比分组密
传统神经网络(BP、RBF算法)在训练过程中容易陷入局部极小点、训练收敛速度慢,文献[1]中作者提出了样条权函数神经网络的概念,给出了具体的学习算法。样条权函数神经网络结构简单
随着互联网技术和多媒体技术及其应用的发展,视频会议系统的研究与应用越来越受到关注。现有视频会议系统主要可划分为集中式和分布式两类,集中式视频会议系统需要高性能的中心
基于虚拟手的虚拟抓取交互技术在人机交互接口和工业产品设计的人机工程学测试等应用中发挥着重要的作用。在工业设计中,利用虚拟现实技术的人机工程学测试能够在产品设计的