一种基于聚类密度的文本分类算法研究

来源 :图书馆学研究 | 被引量 : 0次 | 上传用户：lzflivecn

【摘要】

：

在现代信息技术领域,如何快速、准确和全面地找到用户真正所需要的信息,已经成为该领域的研究重点。在文本分类的理论基础之上,文章针对KNN算法存在的不足,设计了一种基于聚

【作者】

：

谭学清张磊周通罗琳

【机构】

：

武汉大学信息管理学院,

【出处】

：

图书馆学研究

【发表日期】

：

2016年13期

【关键词】

：

文本分类算法文本分类向量空间模型 K最近邻算法特征选择方法相似度聚类密度最近邻算法特征词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在现代信息技术领域,如何快速、准确和全面地找到用户真正所需要的信息,已经成为该领域的研究重点。在文本分类的理论基础之上,文章针对KNN算法存在的不足,设计了一种基于聚类密度的文本分类算法,通过计算待分类文本的相似度及其权重值的大小判断待分类文本的所属类别。并通过3个实验对该分类算法进行了验证,实验结果表明,基于聚类密度的分类算法在不同特征选择方法、不同特征词数下的分类效果都优于KNN分类算法,同时证明在多种相似度算法中,Jensen-Shannon散度更适合聚类密度算法。 In the field of modern information technology, how to find the information that users really need quickly, accurately and comprehensively has become the research focus in this field. Based on the theory of text classification, aiming at the shortcomings of KNN algorithm, this paper designs a text classification algorithm based on clustering density, and determines the classification of the text to be classified by calculating the similarity of the text to be classified and the weight value category. The experimental results show that the clustering algorithm based on clustering density has better classification performance than the KNN classification algorithm under different feature selection methods and different feature words, Similarity algorithm, Jensen-Shannon divergence is more suitable for clustering density algorithm.

其他文献

2004十大成功球队

NO1.波尔图 2004年5月17日,雄伟的傲赴沙尔克球场,欧洲冠军杯决赛在沦为 G14家宴许久后,终于让人感到了一丝新意。波尔图 VS 摩纳哥,两支非主流联赛的球队共赴冠军杯决战之

期刊

沙尔克欧洲杯联盟杯甲级联赛波尔超级联赛阿森纳曼联列尼阿尔伯

进气阀座热处理后导磁性下降的原因

1981年,我厂金工车间磨床班职工发现一批用于ND_4型内燃机车的柴油机进气阀座(材料为Cr12MoV钢),在热处理后导磁性下降,不能在平面磨床上进行平面磨削。开始,认为这是材料混

期刊

导磁性阀座热处理工艺平面磨床盐浴炉进气平面磨削残余奥氏体隐针马氏体回火温度

弧形直紋滾花刀

我们研制出一种新型滚花刀——弧形直纹滚花刀(见图1),在使用中取得了很好的效果。磨外圆弧形和磨齿纹可用图2所示夹具,但磨外圆时要去掉推板,弹簧和螺纹副。被磨工件装在定

期刊

螺纹副磨外圆磨齿自由转动直纹面接触齿顶宽螺纹磨床齿距雾度

跃马边路之欧洲其他国家篇

综观现今足坛,优秀边后卫层出不穷,作为欧洲足坛的重要国家,荷兰、爱尔兰、罗马尼亚、南斯拉夫、克罗地亚、捷克、希腊、葡萄牙等,他们的联赛也许还不能够广泛吸引世界的眼

期刊

欧洲杯现代足球希腊队乌迪内斯欧洲其他国家曼联马德里竞技阿贾克斯攻守转换全攻全守

新年有奖

2005年以一场漫天大雪盛装来临,《全明星》也步入它的第二个年头,随着今年第1期即“2005年贺岁版”的出刊,本刊2005年购刊抽奖活动也正式开始了,具体情况及参与办法请见封底

期刊

试探城市旅游推广中历史元素的应用

城市历史是构成城市自我认同和城市形象的要素,更是一座城市文化的根基。历史元素是城市历史的具象表现,在城市形象推广中的重要性日益凸显。本文将中国城市按历史时长分为4

期刊

元素城市旅游形象构建中国城市城市文化形象推广城市形象具象历史人物旅游产品

板牙式微调导套

目前在手表、仪表制造行业中,自动车床中心架导套大部分采用带锥度的弹簧导套。这种导套制造工艺复杂,对孔径和棒料调整后的配合较严,其孔径大于名义尺寸或过小,都易磨 Cur

期刊

导套牙式中心架制造工艺棒料夹头正比关系锥孔线性弹性受力分析

少数民族地区城乡规划管理中公众参与制度研究

公众参与制度建设是推进少数民族地区城乡规划管理水平提高,保障少数民族地区城乡规划公平公正的有效措施,是贯彻《城乡规划法》的切实要求,是加强政务公开、完善行政公示制

期刊

少数民族地区城乡规划管理公众参与制度公众意见政务公开制度少数民族聚居区马丘比丘宪章群众参与反馈机制相关理论

调集科研五路大军协作攻关

赵紫阳总理指出:“把科学技术人员很好地组织起来,参加规划,参加攻关。”上海市科委于1982年4月委托上海交通大学、上海市科协模具协会对上海模具生产的现状进行了系统的调

期刊

模具生产模具协会电加工机床金切机床机床工业协作攻关座标测量仪科学技术人员塑封模连续模

四大战略擎起神池经济发展空间——访中共神池县委书记丁文禄

刚刚闭幕的“两会”,“三农”问题再次成为人们关注的焦点。在我国,仅仅是国家重点扶持的贫困县就有592个。贫困县的经济发展,除了政府和社会的扶持外,主要还是要靠当地县委

期刊

经济发展空间神池县委书记产业结构调整丁文生产观念面朝黄土背朝天蓄势国家重点扶持创优环境

一种基于聚类密度的文本分类算法研究

与本文相关的学术论文