中文文本自动分类中的若干问题研究

来源 :海南大学 | 被引量 : 0次 | 上传用户：WieldWolf

【摘要】

：

本文首先基于类别概念，讨论了文本自动分类中文档类别间的关系，在此基础上对文本自动分类的定义进行补充说明，并讨论了文本自动分类中与全体文档集合、训练集、类集合相关的若干

【作者】

：

邓小波

【机构】

：

海南大学

【出处】

：

海南大学

【发表日期】

：

2008年期

【关键词】

：

自动分类中文文本推拉策略词袋模型空间向量模型分类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文首先基于类别概念，讨论了文本自动分类中文档类别间的关系，在此基础上对文本自动分类的定义进行补充说明，并讨论了文本自动分类中与全体文档集合、训练集、类集合相关的若干问题，并结合具体分类算法进行了相关论述。具体内容如下： (1)基于概念间的关系，讨论类别间的关系，分析了每种关系对应的实际分类问题； (2)从集合论的角度出发，对文本自动分类问题的定义进行补充说明，指出文本自动分类是对全体文档集合的划分； (3)将现有文本表示模型归纳为3种：“词袋模型”，“空间向量模型”，“图模型”，在此基础上分析了每种模型对应的全体文档集合； (4)论述了训练集的相关性质，定量分析了训练集的稀疏性； (5)论述了真实类集合和由分类器划分的类集合间的关系，在此基础上分析了分类器错分结果类型，指出分类器对错误是敏感的，提出分类器的错误敏感性； (6)基于类别概念，从全体文档集合、等价关系、类集合3个方面分析了常见分类算法，重点给出了常见分类算法所得类集合的几何性质； (7)提出基于向量空间模型分类算法的“重要点”结论，论述了重要点对提高分类器性能的重要性，并结合重要点，讨论基于类中心的“推拉调整策略”，提出了两种改进策略；文章接着针对特征选择，论述了常见特征选择方法的缺点，并在分析、归纳文本权值计算框架的基础上，提出两种全局最优特征选择模型。模型一以最大化类中心距离为目标，模型二以最大化类中心距离方差为目标，本文给出了两种模型的具体算法。最后，设计并构建文本自动分类系统，对本文给出的特征选择算法和对推拉策略的改进算法进行了相关实验，并分析了互信息和交叉熵两种特征选择算法性能较差的原因。

其他文献

Ad hoc网络反应式路由协议研究与仿真

随着无线通信技术的发展,价廉物美的无线通信终端在移动网络中得到了广泛的应用。为了更进一步的提高其适应性、性能,降低其成本,无线移动通信成为了当前通信领域的研究热点

学位

无线自组织网络路由协议动态自组织网络反应式路由协议闲聊传播

基于感知驱动的AUV自主导航算法研究

自主式水下机器人(AUV)作为人类探索海洋的重要设备,目前已广泛应用到了北极探险、管道检测和船体检测等多种任务中。准确的导航与定位对于AUV在水下环境中进行安全作业起到

学位

自主式水下机器人同时定位与地图构建iSAM感知驱动

论新时期建筑施工企业财务管理实际问题与加强措施

建筑业是我国的支柱产业之一，新形势下建筑企业的扩长速度很快，成为拉动国民经济快速增长的重要力量，在国民经济中占有重要地位。而企业的一切经济活动都是通过财务预测、财务决

期刊

建筑企业财务管理

浅析送电线路的状态检修与维护

期刊

基于PCNN和PSO算法的人脸图像分割研究

人脸自动识别系统包括人脸检涮与分割，人脸特征提取与识别等技术环节。而人脸检测与分割是进行人脸分析和识别的重要组成部分，其目的是从复杂背景图像中检测出人脸的位置，并把人

学位

人脸检测脉冲耦合神经网络粒子群算法神经元点火序列图像分割特征提取

基于MBMS的跨层设计

多媒体广播多播业务(MBMS:MultimediaBroadcast/MulticastService)在3GPPRe16/7/8中均已被定义。对于MBMS，目前主要定义了两种传输方式。一种是多小区方式，另一种即单小区传输

学位

多媒体广播多播业务跨层设计传输方式多小区传输

不同雷达发射波形下递归最小均方误差算法与多元自适应脉冲压缩算法的性能研究

频带拥挤已经成为雷达和通信领域的一个重要问题。论文介绍了单雷达背景下的递归最小均方误差(Reiterative Minimum Mean-Square Error)算法和由此推导出的多雷达背景下的多

学位

递归最小均方误差算法多元自适应压缩算法脉冲压缩频谱共享多站雷达

分布式移动多载舰OTHR系统数传与同步技术研究

为了适应未来高技术条件下局部海域作战的需求,提高海上移动战斗群的自卫能力和生存能力,在大力发展各类舰载武器的同时,必须同步开展新一代超视距警戒和目标指示系统,这对增

学位

时间同步秒脉冲频率稳定度相位噪声数据传输协议

雷达高度表数据回放

本文内容的基本任务是将雷达高度表数据进行回放,雷达高度表数据回放包括三部分内容:首先回放的是波形数据,波形数据包括发射波形和回波波形,其中发射波形与回波波形在时间上

学位

雷达高度表载机航迹波束限制脉宽限制回波功率探测目标漫反射镜面反射

论票据失票救济制度

期刊

中文文本自动分类中的若干问题研究

与本文相关的学术论文