运用文本领域的常识改善基于支撑向量机的文本分类器性能

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：nibaba

【摘要】

：

本文提出了一种提高中文文本分类器推广性能的方法。一般而言，采用机器学习的方法对文本集合进行训练，可以获得文本分类器。本文引入了文本语义不变性常识，并将其融合到文本分类

【作者】

：

李辉史忠植等

【机构】

：

中科院计算技术研究所智能信息处理重点实验室,北京大学计算机系

【出处】

：

中文信息学报

【发表日期】

：

2002年2期

【关键词】

：

文本分类器同语义文档子段替换人工文档样本相容性条件支撑向量机文本信息机理 Text Categorization Synonymy Sub-Docum

【基金项目】

：

国家自然科学基金 (6 0 0 730 19),,国家自然科学基金重大项目 (6 9790 0 80 )支持

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文提出了一种提高中文文本分类器推广性能的方法。一般而言，采用机器学习的方法对文本集合进行训练，可以获得文本分类器。本文引入了文本语义不变性常识，并将其融合到文本分类器中，提出了改进文本分类器的方法。与支撑向量机相结合，设计并实现了改进的文本分类器。对中文文本分类的实验表明，文本语义不变性常识的运用有效地改善了分类器的推广性能。

其他文献

爱情错位

<正>~~

期刊

爱情错位梦境背影皮鞋心痛眼泪伤痛良心酒杯

缘续来生——32集电视连续剧《逃之恋》片尾歌

<正>~~

期刊

片尾分钟

弘扬主旋律盛世著华章——学习“十六大报告”体会

中国共产党第十六次全国代表大会已经胜利闭幕。十六大的政治报告绘就了全面建设社会主义小康社会的蓝图;是实现中华民族伟大复兴、再铸民族辉煌的宣言书。小康社会的建立,不

期刊

全面建设社会主义小康社会文艺工作者十六大报告弘扬主旋律中华民族伟大复兴中国共产党第十六次全国代表大会全面建设小康社会社会主义文化政治报告共同发

基于特征加权的应力影响下顽健语音识别方法

通过对应力影响下语音数据的分析 ,发现不同的特征维对变异的敏感程度不同。一般低维特征对变异比较敏感 ,相应的高维特征敏感程度差些。在此基础上 ,提出一种新的基于特征加权的变异语音识别方法。该方法通过对不同维特征加不同的权值来消除变异因素对语音特征的影响 ,从而提高系统的识别性能。文中提出对线性权值用最大相对熵估计方法获得权值。对航空模拟飞行器中采集的特定话者小词表孤立词的实验 ,最大相对熵估计方法

期刊

应力影响特征加权最大熵相对估计顽健语音识别Speech recognitionGforceWeighted featureMaximum rela

潜在语义分析权重计算的改进

自从潜在语义分析方法诞生以来,被广泛应用于信息检索、文本分类、自动问答系统等领域中.潜在语义分析的一个重要过程是时词语文档矩阵作加权转换,加权函数直接影响潜在语义

期刊

计算机应用中文信息处理潜在语义分析权重文档全局权重文档自检索矩阵computer application Chinese information

重庆嘉陵化工厂产权改革的调查

一、"嘉化"产权改革的背景重庆嘉陵化工厂(以下简称"嘉化")是1956年通过公私合营改造后组建的国营企业。经过30多年的发展逐步壮大为一中型国有化工企业,现有职工1200多人。

期刊