卡方统计量相关论文
在对文本进行分类时,大量的冗余特征会增加计算复杂度并降低分类的精度,因此需要对特征进行降维.论文提出了一种类依赖(CD)特征选......
中文信息处理中,中文分词作为一项基础工作,具有重要的意义。过去的十几年间,经过一系列研究探索,中文分词已取得长足的进步,准确性大为......
卡方统计量是实验室比对数据处理的关键统计分析工具,可用于比对数据的一致性核验和参考值不确定度的估计.本研究在比对量具有相同......
为提高对数据量较少的短文本分类效果,有效降低特征空间的特征维度,本文针对传统CHI统计方法和TF-IDF权重计算方法的缺点,提出一种......
针对短文本特征选择方法,分析研究逆文档频率(IDF)和卡方统计量两种方法的特点,并将IDF和卡方统计量方法相结合,对卡方统计量方法......
通过分析特征词与类别间的相关性,在原有的卡方特征选择的方法上增加三个调节参数,使选出的特征词集中分布在某一类,且在某一类中......
为减少煤矿安全事故发生的频率,充分利用现有的煤矿安全事故数据,分析事故发生的特点,探寻各事故之间存在的潜在规律,对我国煤矿企......
为解决基于卡方统计量离散化方法在处理未知数据特性时的参数难确定问题,提出了一种基于粗糙集方法的自动离散化方法.该方法根据粗......
摘要:藏文文本关键词在文本聚类/分类、自动摘要、信息检索等领域具有重要地位,然而当前互联网上的藏文新闻网页几乎没有提供关键词......
基于核函数的实体关系抽取方法将信息隐含在核函数中,无法辨别有用和无用信息,会引入噪声。为此,提出一种基于子树特征的实体关系......
针对传统卡方统计量方法对特征项的频数和类别分布考虑不足的缺陷,提出了一种结合余弦相似度的卡方统计量特征选择方法。该方法首......
针对传统信息增益特征选择方法存在的选择偏向性的现象以及未考虑特征元素在不同类别间词频的问题,提出了一种混合信息增益的文本......
文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的......
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清......
针对文本情感分析中基于卡方统计量的特征提取方法容易忽略单个文本词频,导致文本分类准确率较低的问题,提出一种基于混合卡方统计......
传统的TF-IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分......
对微博文本的多元情感分类问题进行了研究.针对现有的多元情感词典不能很好地覆盖微博文本中情感词的不足,结合特定的情感符号和基......
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清......
字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳......
近些年来,随着互联网的飞速发展,各种社交平台应运而生,由于这类平台往往言论自由且难以管控,导致网络上出现了大量的不文明文本信......
Logistic回归模型在医学研究中应用十分广泛,尤其在病例对照数据中探究疾病的危险因素的时候;本文主要研究了Logistic回归模型在分层......
"独立性检验"极富教学价值.对它的研读旨在消除困惑、提高认识、服务教学.研读内容包括:对分类变量及列联表的认识,独立性的统计意......
通过对微博文本特征信息的分析与研究,提出一种基于改进卡方统计的微博特征提取方法。扩充微博信息分类特征,在传统的卡方统计量的......
<正>本文利用计量模型分析了财政收入对收入差距的作用,研究发现:(1)财政支出越多的地区其地区经济发展也越快,由此拉大了地区间的......
近年来,微博的飞速发展使它成为了不可忽视的网络力量。微博信息分类可以帮助用户快速,准确地获取需要的微博信息,过滤无用的微博垃圾......
讨论了正态性检验的三种主要方法:二元等概椭圆检验法、多元χ2统计量的Q-Q图检验法和主成分检验法,分别介绍了三种方法的基本原理......
针对传统卡方统计量方法对特征项的频数和类别分布考虑不足的缺陷,提出了一种结合余弦相似度的卡方统计量特征选择方法。该方法首......
针对传统卡方统计量(CHI)方法在全局范围内做特征选择时忽略词的频度、词的分布等问题,提出了一种改进的文本特征选择方法.该方法......
大学生就业时第一应考虑因素的差异能折射出其就业价值取向的差异。以统计列联表为基础并借助皮尔逊x2统计量,分别检验性别、生源......
为了研究轮廓监控中的变点识别问题,以非参数轮廓数据为研究对象,对单变点问题进行了研究。首先计算出所有轮廓线的卡方统计值,再......
TF-IDF是一种应用在文本分类中常用的权值计算方法,传统的TD-IDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征......
请下载后查看,本文暂不支持在线获取查看简介。
Please download and view, this article does not support online access to vie......
近年来粗糙集数据分析已经成为定性数据分析的一个常用方法,而信息系统的属性约简是粗糙集理论的一个基本问题。粗糙集方法虽然不需......
为了提高情感文本分类的准确率,对英文情感文本不同的预处理方式进行了研究,同时提出了一种改进的卡方统计量(CHI)特征提取算法。卡......