基于概念信息量的特征权重计算方法研究

来源 :中国科学院声学研究所第四届青年学术交流会 | 被引量 : 0次 | 上传用户：kyonizuka

【摘要】

：

　　特征权重是文本分类中分类计算的核心，对文本分类的效果有着重要的影响。现阶段特征权重计算中广泛采用TF*IDF方法，但这种方法忽略了特征项语义之间的关联性对权重的影响。

【作者】

：

缪建明张全

【机构】

：

院语言声学与内容理解实验室

【出处】

：

中国科学院声学研究所第四届青年学术交流会

【发表日期】

：

2012年10期

【关键词】

：

概念信息量特征权重文本分类计算方法语义关联性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　特征权重是文本分类中分类计算的核心，对文本分类的效果有着重要的影响。现阶段特征权重计算中广泛采用TF*IDF方法，但这种方法忽略了特征项语义之间的关联性对权重的影响。针对该问题，提出了一种新的特征向量权重计算方法(TF*IDF*CIV)，引入语义概念信息量CIV作为一个变量考虑在权重的计算过程中。实验结果表明，该算法是有效可行的，且在一定程度上提高了文本分类的正确率、召回率。

其他文献

基于条件随机场的词级别置信度研究

　　在各种语音识别应用中,置信度的可靠性对语音识别正确率都起着关键的作用。本文对基于声学层特征和语言层特征的后验概率置信度和基于上下文混合特征的条件随机场(Condit

会议

语音识别条件随机场词级别置信度特征融合系统识别率

基于GMM的汉语普通话声调自动识别算法研究

　　设计了一种基于混合高斯模型(GMM)的汉语普通话声调自动识别算法。汉语普通话连续发音时存在“连读变调”现象。针对该现象，对现有的基于GMM的声调识别算法提出了改进方案

会议

GMM汉语普通话普通话声调自动识别算法特征提取方法混合高斯模型改进方案识别正确率

概率线性鉴别分析在说话人识别中的应用

　　在基于总变化因子i-vector的说话人识别中,应用概率线性鉴别分析(PLDA)可以极大地提高性能。然而,PLDA假设的高斯分布并不能准确地描述i-vector,通过将高斯分布替换成重

会议

说话人语音识别概率线性鉴别分析性能评价

一种基于功率级比的快速手机双麦克风降噪算法

　　作为人们日常生活中必不可少的通信工具，手机经常在各种场合下使用，而由于复杂多变的背景噪声的存在，导致了通信语音质量的下降。在本篇文章中，提出一种基于功率级比的新双麦

会议

功率级手机双麦克风语音质量降噪方法直接映射语音失真通信工具

音子配列学语种识别系统中特征选择方法的研究

　　将信息增益和加权log似然比特征选择方法应用于音子配列学语种识别系统中进行特征降维。在美国国家标准技术研究院2009年语种识别评测数据集上进行实验，分别使用信息增益

会议

音子配列学语种识别系统特征选择信息增益加权log似然比系统性能

英语口语测试问答题型的自动评分

　　本论文是关于英语口语测试中问答题型的自动评测的研究.系统包括三个主要的部分：语音识别,打分特征提取和分数映射.大部分的打分特征的提取是基于语音识别的识别结果,所以

会议

英语口语语音识别机器评分性能评价

D-荧光素及其衍生物的研究进展

生物发光指荧光素酶与适当底物D-荧光素(LH2)、氨基荧光素(NH2-LH2)或其衍生物相互作用时产生的光.近年来在LH2、NH2-LH2及其类似物的合成方面已经取得了有意义的进展,通过不

期刊

荧光素生物发光合成

文本无关自动评分系统中声学模型的若干研究和改进

　　针对真实评测数据中噪声、方言口音、信道噪声、说话随意性等不利因素，本文对声学模型进行了深入地研究：在训练数据中加入背景噪声以增强模型的抗噪声能力；采用基于说话人的

会议

文本无关自动评分系统声学模型抗噪声能力技术创新

敬畏·信仰·道德——访伦理学家江万秀

几近将毕生精力都用在伦理学研究的江万秀认为,作为社会关系的总和,一个人可以不信仰宗教,但不能没有敬畏之心。当下中国道德建设上存在的一个深层痼疾,即社会转型期敬畏之心

期刊

江万秀信仰伦理学家火风中国道德和谐发展缺失日月星人生哲学导论毕生精力

化学指示卡与菌片对压力蒸汽灭菌效果检测的比较

化学指示卡与菌片对压力蒸汽灭菌效果检测的比较赵坚，张晓江（河北省唐山市路南区卫生防疫站，唐山，０６３０００）在７所医院，同时用化学指示卡与嗜热脂肪杆菌芽胞菌片检测１２１℃压力蒸汽对注射器的灭菌

期刊

化学指示卡压力蒸汽灭菌效果检测卫生防疫站灭菌合格率路南区无菌生长灭菌处理河北省唐山市张晓

基于概念信息量的特征权重计算方法研究

与本文相关的学术论文