贝叶斯文本分类中特征词缺失的补偿策略

来源 :哈尔滨工业大学学报 | 被引量 : 0次 | 上传用户：huaweihbl999

【摘要】

：

为了解决朴素贝叶斯分类器在处理文本分类任务时，往往存在的特征词缺失问题，即由于语料库中的词语出现分布情况遵循Zipf定律，仅依靠简单的增加训练语料方式难以解决这种因数据稀

【作者】

：

庞秀丽冯玉强姜维

【机构】

：

哈尔滨工业大学管理学院哈尔滨150001,哈尔滨工业大学计算机科学与技术学院哈尔滨150001

【出处】

：

哈尔滨工业大学学报

【发表日期】

：

2008年6期

【关键词】

：

文本分类贝叶斯分类特征词缺失数据平滑 text classification naive Bayes classification unseen fe

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了解决朴素贝叶斯分类器在处理文本分类任务时，往往存在的特征词缺失问题，即由于语料库中的词语出现分布情况遵循Zipf定律，仅依靠简单的增加训练语料方式难以解决这种因数据稀疏而引发的特征词缺失问题．引入统计语言模型中的数据平滑算法，通过从已出现词中“折扣”出一定的概率再分配到未出现词中去，来计算缺失特征词的补偿概率，以此克服数据稀疏问题带来的影响，评测数据在去掉停用词的分类过程开放测试中，引入Good-Turing算法的分类性能比Laplace原则提高了3．05％，比Lidstone方法提高1．00％．而在

其他文献

De Sitter空间中的Yang-Mills场

将Bourguigonon和Lawson的球面上的孤立性现象推广到de Sitter空间中的n维紧致类空子流形上,得到了当紧致类空子流形满足某一条件时,则Yang-Mills场消失.还运用整体拼挤估计,

期刊

YANG-MILLS场类空子流形孤立性平坦联络Yang-Mills field space-like submanifold isolation

色彩均匀性特征的纸币污损检测算法

针对纸币上常见的污损,提出基于色彩均匀性特征的检测方法.将图像均匀性特征推广到彩色空间,采用纸币图像均匀性特征矩阵,判定待检纸币上可能存在的污损象素.提出基于均匀性特征矩阵的快速图像配准方法,图像配准后,将待检图像与参考图像逐象素进行比较,并最终判定待检图像的污损程度.对于图像中新增加的边缘信息十分敏感,而对各象素的色彩值、边缘强度值的相对变化则具有很强的抗干扰性,适用于各种低质量的纸币.

期刊

纸币清分污损检测色彩均匀性特征paper currency sorting defect detection chromatic homogeneit

筛选与鲤鱼抗寒性状相关的微卫星分子标记

为了寻找鲤鱼中与抗寒性状相关的DNA序列，采用142个微卫星引物，对荷包红鲤抗寒品系、柏氏鲤及其杂交F2代中的青灰色抗寒与青灰色不抗寒个体的混合基因组DNA进行分析．经过710次微

期刊

鲤鱼抗寒性状微卫星分子标记common carp character of cold tolerance microsatellite mole

室内装修烘烤气体的生物强化技术

为了减轻由室内装修所造成的污染,通过生物滴滤处理装置处理室内装修烘烤后排出的挥发性有机气体（甲醛、苯、甲苯、二甲苯）.在气体流量为600 L/h、表面液体速度为3.14-3.93 m/h

期刊

挥发性有机化合物烘烤法生物强化生物滴滤VOCs bake-out bio-enhancement biotrickling filter

钢框架结构楼板有效宽度及对节点性能影响

为研究混凝土楼板对钢框架结构受力性能的影响，建立钢框架结构梁柱节点空间．有限元模型．通过分析楼板对梁翼缘拉应力大小的影响，研究混凝土楼板对梁柱节点焊缝拉应力大小的影响及

期刊

混凝土楼板钢框架有效宽度有限元concrete slabs steel frames effective breadth finite el

聚氨酯、挤塑夹芯板力学性能的有限元分析

为解决金属面聚氨酯夹芯板、挤塑板(XPS Expanded Polystyrene)被广泛应用却没有统一的设计公式,影响此类新型材料在实际工程中应用的情况.在36个抗拉、抗压、抗剪材性试验和

期刊

金属面夹芯板挤塑板聚氨酯承载力

时滞BAM神经网络的数值逼近

研究了一类重要的多时滞BAM神经网络模型的Hopf分支的数值逼近问题．将时滞差分方程表示为映射，然后利用离散动力系统的分支理论，给出了差分方程的Hopf分支存在的条件，得到了连续

期刊

BAM神经网络时滞HOPF分支数值逼近EULER方法BAM neural network delay Hopf bifurcation n

平均地磁控制器的研究

针对小卫星单独利用三轴磁力矩器控制姿态可能出现失控的情况，研究了偏置动量轮与三轴磁力矩器组合控制的方案．其中，动量轮提供常值的俯仰轴偏置动量，并与依据轨道平均法设计产生

期刊

偏置动量轮三轴磁力矩器轨道平均小卫星biased momentum wheel three-axis magnetorquer orbit aver

语音特征匹配的图像配准方法

为了解决传统DTW算法准确度和效率不高的问题,提出了一种基于图像配准方法的语音特征匹配算法.该方法将MFCC参数映射为二值图像,并通过引入图像配准的方法进行模板匹配,达到了语音特征匹配的目的.实验结果表明,与传统的DTW算法相比,该方法的准确率、召回率和算法执行效率有了明显的提高.

期刊

DTW模板匹配图像配准语音识别DTWtemplate matchingimage registrationspeech recognition

自适应Chirplet分解的ISAR成像方法

为了提高机动目标的逆合或孔径雷达（ISAR）成像质量,提出了一种新的ISAR成像算法,通过将每一距离单元的回波数据进行自适应Chirplet分解,并采用松弛（RELAX）技术来提高参数估计精度

期刊

ISAR机动目标自适应Chirplet分解ISAR maneuvering targets adaptive Chirplet decompositi

贝叶斯文本分类中特征词缺失的补偿策略

与本文相关的学术论文