卡方统计相关论文
由于互联网和自媒体的快速崛起,人人都可以是内容生产者,各种信息文件呈爆炸式增长。我们不缺乏信息的来源,但找到需要的信息却愈......
随着司法透明的不断提高,使得公众对于司法裁判的关注度越来越高,需要司法人员进行更加公平的案件判决。本文通过利用自然语言处理......
中文短文本分类中存在大量低频词,利用好低频词中的信息能有效提高文本分类效果,针对基于词向量的文本分类研究中低频词不能被有效......
深入分析了经典的Canny边缘检测算法,针对其在参数确定的自主能力不高的问题,提出一种新的基于大津法和统计理论的自适应边缘提取......
随着科学技术的快速发展和互联网时代的到来,电子邮件以其方便、快捷、低成本的特点成为人们工作、生活不可缺少的通讯工具。但是......
近来伴随互联网信息技术和产业链迅猛发展,各行业数据规模均呈现指数级增长,尤其以电商和社交网络为服务内容的企业数据中心。尽管......
文本分类技术可以用来帮助人们从海量的信息中获取有用信息,它已经得到了广泛地研究和应用。文本分类就是将一些未知的文本与预先......
随着互联网的迅速普及,互联网应用越来越简易,使得上网人数与日俱增。互联网生活呈现出多元化,复杂化的趋势,越来越多的人们开始关......
文本分类主要涉及文本分词、特征选取、特征权重计算、分类算法、分类性能测评等多个过程。其中,文本分类中特征选择的计算方法是文......
近似图匹配广泛应用于社交分析、情报学、生物信息学等领域,是当前研究的主流方向。由于受噪声的制约,传统的近似算法无法高效地对......
如今互联网的快速发展,各领域都产生了大量的数据,如何充分的利用这些数据,是目前最需解决的问题。在处理文档数据的过程中,常常采......
幽门螺杆菌(HP)感染是与慢性胃炎、胃及十二指肠溃疡、胃癌有关的常见的慢性感染。HP感染可影响生长.该研究旨在评估HP感染与非感染的......
[目的]探讨如何利用最小P值法研究变量的最佳界值,为临床预后因素的分析提供方法学参考。[方法]以76例接受铂类化疗的胃癌患者的生......
本文分析了144例急淋、48例慢淋、235例急粒和68例慢粒病人尸检材料,描述了四型白血病中35个器官的转移情况及特殊部位的转移率,......
本文对南北方四市采取整群抽样方法进行心脑血管疾病的预报,并应用心脑血管疾病的预报值进行乘列表卡方检验,评价南北方四市患病频......
本文提出了一种基于演化超网络的Android恶意软件检测策略,且与传统分类算法进行了比较.结果表明,本文提出的检测策略接近或优于传......
分析了Jsteg隐写算法在JPEG图像中嵌入秘密信息的原理。针对该算法改变载体图像DCT系数直方图特性的不足,采用卡方统计方法检测JPE......
基于统计的主客观分析方法难以很好地反映中文的语义内涵,而基于语义的主客观分析方法需要大量的专家知识,且存在知识难以抽取,难......
通过分析特征词与类别间的相关性,在原有卡方特征选择和信息增益特征选择的基础上提出了两个参数,使得选出的特征词集中分布在某一......
针对文本分类特征选择方法中的卡方统计(CHI)和期望交叉熵(ECE),分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上......
特征选择在文本分类技术中是一个重要的关键部分,特征选择的好坏直接决定最终的分类结果。卡方统计量(CHI-square statistic,CHI)......
摘要:该文主要探讨如何从技术上实现基于卡方统计检验的文本特征选择,文中提出采用开源的Lucene索引框架对文本分类语料库进行索引,设......
引入统计理论中的卡方统计检验,提出一种通用的应用协议流量行为特征分析方法——ABSA(application behavior significance assessm......
针对刑侦图像的自动目标提取问题,提出一种基于最小卡方统计的图像阈值化分割算法。该算法在图像一维直方图的基础上,利用卡方统计......
提出一种基于二元模型的分层过滤策略的中文文本过滤方法。首先,在非法文本集中使用文档频率和卡方统计相结合的方法抽取非法关键......
随着信息技术的飞速发展以及网民规模的扩大,互联网数据量与日俱增,其中含有大量非结构化文本数据,因此,文中分类已成为当前的研究......
针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用......
为了更好的对残缺文档进行分类,本文以基于支持向量机的文本分类方法(SVM)和卡方统计量(Chi--Square)的文本特征提取方法为背景,提出了有......
提出了一种基于卡方统计的弯道识别算法。该算法从机器视觉出发,对图像传感器采集的道路图像进行预处理,包括感兴趣区域(Region of......
随着电子商务的发展,网站上产品评论信息日益增多。消费者针对所购产品或服务表达观点、立场、看法,而这些观点、看法可以从不同方......
针对P2P网络流量产生过程中存在概念漂移现象,提出具有概念漂移检测功能的多分类器动态集成流量识别方案。该方案包括概念漂移检测......
图查询的应用越来越广泛,其中近似子图匹配是核心技术之一.但是大规模图数据中噪音的存在对近似子图匹配精确度影响较大,为进一步......
Excel软件是微软Office办公套件的一个重要组成部分,其可以为政企单位办公人员提供强大的电子表格处理工具。Excel软件应用经历了......
针对中文文本分类中特征提取的语义缺失和低频词问题,提出一种基于LDA和SVM的中文文本分类算法,首先将LDA与卡方统计特征提取算法......
如今恶意程序种类繁多,各种检测技术在运行时都会产生大量数据.近年来学者们开始采用数据挖掘技术检测安卓恶意软件,但仍存在一些......
期刊
通过对情感文本与n-gram特征的研究与分析,提出了一种基于卡方统计的特征词提取方法.方法中,n-gram特征作为文本特征,在传统卡方统计的......
在构建一个完整的情感词典的基础上,利用情感词典进行情感特征选择,并考虑了中文微博语料不均衡对情感特征选择的影响,在统计中引......
本文对68名青少年犯罪嫌疑人,在心理测试后分为重犯组与无重犯组。一年后,对二组青少年犯罪嫌疑人予以重新犯罪、读书就业、不良交往......
随着IP多媒体子系统(IMS)的大规模部署和商用,IMS系统在下一代网络(NGN)中的核心地位已经不可动摇,而IMS系统中的会话初始协议(SIP)的安全......
特征选择在文本分类中起着重要作用。针对互信息特征选择方法在不均衡语料集中分类效果差,卡方统计特征选择在均衡语料集中分类存......
随着2015年召开的五中全会确定了大数据战略上升为国家战略,近年来“大数据开启智能时代”成为时代发展的潮流。大数据时代缔造者......
Labeled-LDA模型引入了类别标签信息,较传统的LDA主题模型改进了强制分配主题的问题,但Labeled-LDA模型仍存在一些问题,例如Labele......
本文针对传统CHI特征选择算法存在的缺陷,引入了频度因子、类内分布均匀因子以及修正因子进行改进,兼顾词频因素以及数据集不平衡......
传统卡方特征选择方法没有考虑在不均衡数据集上词出现的类别数量、词的频度以及在类间与类内的分布情况等,以致不能为不同的类别......
为实现对网络上电影评论的情感倾向性分析,通过对电影影评数据进行爬取,获取热门的电影评论,利用文本预处理和机器学习算法,完成对......