卡方统计量相关论文
决策树是数据挖掘中常用的分类和回归方法之一。本文主要讨论分类决策树。顾名思义,决策树为树状结构,从根结点开始逐渐开枝散叶,......
针对短文本特征选择方法,分析研究逆文档频率(IDF)和卡方统计量两种方法的特点,并将IDF和卡方统计量方法相结合,对卡方统计量方法......
通过分析特征词与类别间的相关性,在原有的卡方特征选择的方法上增加三个调节参数,使选出的特征词集中分布在某一类,且在某一类中......
为解决基于卡方统计量离散化方法在处理未知数据特性时的参数难确定问题,提出了一种基于粗糙集方法的自动离散化方法.该方法根据粗......
摘要:藏文文本关键词在文本聚类/分类、自动摘要、信息检索等领域具有重要地位,然而当前互联网上的藏文新闻网页几乎没有提供关键词......
基于核函数的实体关系抽取方法将信息隐含在核函数中,无法辨别有用和无用信息,会引入噪声。为此,提出一种基于子树特征的实体关系......
为了提高搜索引擎对新闻检索的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用Lucene搜索框架设计了新闻垂直搜索引......
文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的......
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清......
针对文本情感分析中基于卡方统计量的特征提取方法容易忽略单个文本词频,导致文本分类准确率较低的问题,提出一种基于混合卡方统计......
传统的TF-IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分......
对微博文本的多元情感分类问题进行了研究.针对现有的多元情感词典不能很好地覆盖微博文本中情感词的不足,结合特定的情感符号和基......
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清......
近些年来,随着互联网的飞速发展,各种社交平台应运而生,由于这类平台往往言论自由且难以管控,导致网络上出现了大量的不文明文本信......
Logistic回归模型在医学研究中应用十分广泛,尤其在病例对照数据中探究疾病的危险因素的时候;本文主要研究了Logistic回归模型在分层......
"独立性检验"极富教学价值.对它的研读旨在消除困惑、提高认识、服务教学.研读内容包括:对分类变量及列联表的认识,独立性的统计意......
通过对微博文本特征信息的分析与研究,提出一种基于改进卡方统计的微博特征提取方法。扩充微博信息分类特征,在传统的卡方统计量的......
近年来,微博的飞速发展使它成为了不可忽视的网络力量。微博信息分类可以帮助用户快速,准确地获取需要的微博信息,过滤无用的微博垃圾......
讨论了正态性检验的三种主要方法:二元等概椭圆检验法、多元χ2统计量的Q-Q图检验法和主成分检验法,分别介绍了三种方法的基本原理......
针对传统卡方统计量方法对特征项的频数和类别分布考虑不足的缺陷,提出了一种结合余弦相似度的卡方统计量特征选择方法。该方法首......
针对传统卡方统计量(CHI)方法在全局范围内做特征选择时忽略词的频度、词的分布等问题,提出了一种改进的文本特征选择方法.该方法......
大学生就业时第一应考虑因素的差异能折射出其就业价值取向的差异。以统计列联表为基础并借助皮尔逊x2统计量,分别检验性别、生源......
为了研究轮廓监控中的变点识别问题,以非参数轮廓数据为研究对象,对单变点问题进行了研究。首先计算出所有轮廓线的卡方统计值,再......
TF-IDF是一种应用在文本分类中常用的权值计算方法,传统的TD-IDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征......
请下载后查看,本文暂不支持在线获取查看简介。
Please download and view, this article does not support online access to vie......
近年来粗糙集数据分析已经成为定性数据分析的一个常用方法,而信息系统的属性约简是粗糙集理论的一个基本问题。粗糙集方法虽然不需......
为了提高情感文本分类的准确率,对英文情感文本不同的预处理方式进行了研究,同时提出了一种改进的卡方统计量(CHI)特征提取算法。卡......