结合改进的CHI统计方法的TF-IDF算法优化

来源 :计算机应用研究 | 被引量 : 2次 | 上传用户:jerrymao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题,针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进,并结合语义相似度的计算方法对TF-IDF算法进行了优化,在WEKA软件上采用了KNN(K-nearest neighbor)分类器和支持向量机(SVM)分类器分别对微博情感语料进行分类,该实验结果表明,新方法在文本分类的准确性上有明显的提高。
其他文献
鸡新城疫,民间俗称“鸡瘟”,即专业所述的亚洲鸡瘟,养殖上稍有麻痹大意,就会悄悄降临。本病一年四季均可发生,尤以寒冷、气候多变季节多发。主要特征是呼吸困难,神经机能紊乱
在逆问题的参数识辨中,测量信息包含的信息量直接影响参数的重构精度,如何度量测量信息中的信息量,对选取参数识辨所需的测量点个数具有重要的指导作用。根据贝叶斯方法,将体现先验信息的先验概率和反映测量信息的似然概率融合得到待识辨参数样本出现的概率,结合信息熵和最大熵计算评价因子,将评价因子用于描述参数识辨前带有误差的测量信息所包含的信息量。计算实例表明,该计算方法可以有效地描述误差环境中的测量信息,对实
针对传统聚类算法对流数据进行聚类时面临时间复杂度高、存储空间需求大以及准确度较低的问题,提出一种基于差异性采样的流数据聚类算法。首先利用差异性采样法对流数据进行采样并用样本点构造核矩阵,然后利用核模糊C均值聚类算法对核矩阵中的点进行聚类得到一个带有标记的样本核矩阵,最后利用带有标记的样本核矩阵对流数据中的点进行划分。同时利用衰退聚类机制,实时更新样本核矩阵。实验结果表明,相比于传统聚类算法,该算法
针对PMSM(永磁同步电机)分数阶PIλ控制器的参数整定,提出了一种频域法与飞蛾火焰优化算法相结合的方法。以永磁同步电机的分数阶模型作为被控对象,首先使用频域法根据系统的
鸡传染性喉气管炎属于呼吸道传染疾病,该疾病主要是由喉气管炎病毒引起的,一旦鸡群发病会迅速蔓延到整个鸡群,传染率高达90%以上。如果防治措施不当,死亡率高达50%以上,将会
现阶段随着社会经济的快速发展,畜牧业经济也获得了较大的发展空间,山羊养殖在现代化畜牧业发展过程中占有重要位置。从当前山羊养殖现状来看,大多数山羊个体实际抗病性较强,在正
牛流行性感冒是一种由病毒引起的传染病。该种疾病具有自身的特点,即发病率比较高、传染性也比较强,在接触之后很容易感染。牛一旦患病的话,容易出现发烧、咳嗽和流鼻涕的症状,有
针对港口设备在损坏后的维修调度问题,即事后维修的调度问题,通过对港口设备的事后维修调度安排进行分析,建立维修设备的调度模型。模型中使用BP神经网络算法来量化港口待维修设备的权值,并利用遗传算法来最小化维修作业任务的总加权完成时间,获得优化后的维修调度顺序和相对应的维修时间安排。通过港口吊具设备的维修算例,展示了优化的调度模型在港机设备中的运用,模型明确了港机的维修顺序,并在保证维修任务完成的情况下
本人于2018年2月至6月在阿克苏地区乌什县动物门院接诊了一例奶牛除螨磷农药中毒的诊治.除螨磷农药是属于有机磷农药的,杀死畜禽体表螨,虱等寄生虫的一种寄生虫药.本药在农村
针对目前大数据快速增加的环境下,海量数据的频繁项集挖掘在实际中所面临的增量更新问题,在频繁项超度量树算法(frequent items ultrametric trees,FIUT)的基础上,引入MapReduce并行编程模型,提出了一种针对频繁项集增量更新的面向大数据的并行算法。该算法通过检查频繁超度量树叶子节点的支持度来确定频繁项集,同时采用准频繁项集的策略来优化并行计算过程,从而提高数据挖掘