面向信息检索的智能分类方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：minisnake1

【摘要】

：

随着互联网技术的不断发展,Internet上的信息日益丰富,已经成为人们日常工作和生活中获取信息的重要来源。但是,由于Internet所固有的开放性和异构性,用户很难从纷繁复杂的海

【作者】

：

呼声波

【机构】

：

山东师范大学

【出处】

：

山东师范大学

【发表日期】

：

2008年期

【关键词】

：

信息检索中文分词特征提取智能分类 KNN分类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的不断发展,Internet上的信息日益丰富,已经成为人们日常工作和生活中获取信息的重要来源。但是,由于Internet所固有的开放性和异构性,用户很难从纷繁复杂的海量信息中准确定位到自己所需要的信息。因此,如何合理有效地组织和管理Internet上的信息,已经日益成为信息处理领域一个十分重要的研究课题。面对web上的海量信息,传统的做法是对网上信息进行人工分类,并加以组织和整理,为人们提供一种相对有效的信息获取手段。但是,这种人工分类的做法存在许多弊端:一是耗费大量的人力、物力和财力。二是存在分类结果一致性不高的问题。即使分类人的语言素质较高,对于不同的人分类,其分类结果仍然不尽相同。甚至同一个人,在不同时间做分类也可能会有不同的结果。因此,人们对网页智能分类技术的需要越来越迫切。本文在研究传统信息检索技术实现的同时,结合现有的网页分类技术,对网页智能分类进行了较为系统的研究。在此基础上对面向信息检索的智能分类中的网页预处理、中文分词、特征提取、网页分类提出了一定的思考和见解。本文的主要创新点:(1)针对网页结构的特点,分析了网页中对分类过程有贡献的信息成分,改进了从中文网页内自动清除“噪音”并提取正文的行之有效的方法。(2)研究了现有网页源代码的特点,把网页表示成树型层次结构,每个叶子节点赋予不同的权重;在传统的特征词权重计算公式的基础上,考虑了特征词的长度和特征词出现的位置两个因素,提出了基于网页标签树型层次结构的特征词权重计算公式。(3)介绍了传统的特征提取算法,并在χ~2统计量的基础上,对χ~2统计量公式做了两点改进。(4)研究了现有的网页分类方法。KNN分类算法为了找到与测试文本距离最近(最相似)的K篇文本,需要穷尽搜索整个训练集,在训练样本数较多或者表示样本的特征向量维数较高时,计算复杂性就很高。针对这一问题,本文在粒子群算法的基础上,提出了一种智能快速寻找新文本的K个近邻的PSOKNN算法。(5)对IG、MI、CHI、CHI*四种统计量的实验结果做出了评价。通过实验证明本文所采用的特征词提取方式,在一定程度上,能够得到较高的分类准确率,存在一定的合理性。

其他文献

期刊

期刊

期刊

“他就这么走。饿了就找个小馆儿，叫上几十个羊肉饺子，要不就猪头包子、韭菜盒。馋了就再找个地儿来碗豆汁儿，牛骨髓油茶。碰见路摊儿上有卖脆枣儿、驴打滚儿、豌豆黄儿、半空儿的，也买来吃吃。都是几年没见着的好玩意儿。”　　这一溜菜名，出自张北海的《侠隐》，前段时间，由该书改编的姜文电影《邪不压正》捧红原作。细细翻阅《侠隐》一书，会发现其中关于北平城的“吃”可谓信手拈来：　　李天然慢慢地走进了竹竿巷，注意到

期刊

文学的传承与创新

弗兰茨 ·卡夫卡生前默默无名，不是因为他死得早，而是读者觉醒得迟：现代社会对人的异化。阿尔蒂尔 ·兰波，14岁写诗，16岁写出《奥菲莉亚》，名扬天下，因为他“杀死上帝”的号角吹得恰逢其时，发令枪一样的，一呼百应。艾略特说，经典作品只可能出现在文明成熟的时代（文明成熟的读者）。博尔赫斯说，任何一部作品都需要读者的某种合作乃至于合谋。我想，这都是在讲一个道理：读者是大地，作家或者作品是根植于大地的作物

期刊

企业多项目筛选评估体系研究

多项目管理作为一种全新的管理模式，可以帮助企业在资源有限的情况下，组织和管理好多个项目，通过多个项目目标的完成以确保企业战略目标的实现。如何对众多备选项目进行筛选，是多

学位

多项目筛选多项目管理管理模式企业战略战略管理层次分析法

苹果花 [外一首]

一朵苹果花里　　静坐的少年　　一树苹果花里　　素愁如月的少年　　有人在杜宇啼处，举首凝眸　　凝眸處　　春山开遍　　有人自山中归来　　落花两肩　　一朵苹果花里　　静坐的秋天　　一树苹果花里　　月光一色的千山请茶帖　　当我们老了　　抿一口刚到的新茶　　说起春山　　说起三叶一芽的枝头　　清香脉脉　　早露中的采茶歌还未唱起　　树长了一岁　　又一岁　　茶泡起来还是从前的花果香　　有时候像栀子　　有时候像桃子

期刊

白登黄鹤楼[外一首]

期刊

管理者[外一首]

期刊

外公的眼睛[外一首]

期刊

面向信息检索的智能分类方法研究

与本文相关的学术论文