运用文本领域的常识改善基于支撑向量机的文本分类器性能

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:nibaba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种提高中文文本分类器推广性能的方法。一般而言,采用机器学习的方法对文本集合进行训练,可以获得文本分类器。本文引入了文本语义不变性常识,并将其融合到文本分类器中,提出了改进文本分类器的方法。与支撑向量机相结合,设计并实现了改进的文本分类器。对中文文本分类的实验表明,文本语义不变性常识的运用有效地改善了分类器的推广性能。
其他文献
<正>~~
<正>~~
期刊
中国共产党第十六次全国代表大会已经胜利闭幕。十六大的政治报告绘就了全面建设社会主义小康社会的蓝图;是实现中华民族伟大复兴、再铸民族辉煌的宣言书。小康社会的建立,不
通过对应力影响下语音数据的分析 ,发现不同的特征维对变异的敏感程度不同。一般低维特征对变异比较敏感 ,相应的高维特征敏感程度差些。在此基础上 ,提出一种新的基于特征加权的变异语音识别方法。该方法通过对不同维特征加不同的权值来消除变异因素对语音特征的影响 ,从而提高系统的识别性能。文中提出对线性权值用最大相对熵估计方法获得权值。对航空模拟飞行器中采集的特定话者小词表孤立词的实验 ,最大相对熵估计方法
自从潜在语义分析方法诞生以来,被广泛应用于信息检索、文本分类、自动问答系统等领域中.潜在语义分析的一个重要过程是时词语文档矩阵作加权转换,加权函数直接影响潜在语义
一、"嘉化"产权改革的背景重庆嘉陵化工厂(以下简称"嘉化")是1956年通过公私合营改造后组建的国营企业。经过30多年的发展逐步壮大为一中型国有化工企业,现有职工1200多人。
图文互斥版面中确定文字的阅读顺序是排版及版面理解过程中的一个难点.尤其是中文等东方文字特有的分栏串文互斥,其空间关系的复杂性使得阅读顺序存在歧义.针对此问题,建立新
当代高技术产业是典型的知识密集型产业,也就是说,它本身就是知识产业。因此,知识经济以高技术产业为支柱。当今高技术可分为8大类:即信息科学技术、生命
<正>~~
二、对中国发展天然气工业的启示国际天然气工业的发展趋势,对发展中国天然气工业可以提供有益的启示。 (一)立足国内,放眼国外,确保中国天然气工业持续发展的资源基础 1.国