面向信息检索的智能分类方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:minisnake1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,Internet上的信息日益丰富,已经成为人们日常工作和生活中获取信息的重要来源。但是,由于Internet所固有的开放性和异构性,用户很难从纷繁复杂的海量信息中准确定位到自己所需要的信息。因此,如何合理有效地组织和管理Internet上的信息,已经日益成为信息处理领域一个十分重要的研究课题。面对web上的海量信息,传统的做法是对网上信息进行人工分类,并加以组织和整理,为人们提供一种相对有效的信息获取手段。但是,这种人工分类的做法存在许多弊端:一是耗费大量的人力、物力和财力。二是存在分类结果一致性不高的问题。即使分类人的语言素质较高,对于不同的人分类,其分类结果仍然不尽相同。甚至同一个人,在不同时间做分类也可能会有不同的结果。因此,人们对网页智能分类技术的需要越来越迫切。本文在研究传统信息检索技术实现的同时,结合现有的网页分类技术,对网页智能分类进行了较为系统的研究。在此基础上对面向信息检索的智能分类中的网页预处理、中文分词、特征提取、网页分类提出了一定的思考和见解。本文的主要创新点:(1)针对网页结构的特点,分析了网页中对分类过程有贡献的信息成分,改进了从中文网页内自动清除“噪音”并提取正文的行之有效的方法。(2)研究了现有网页源代码的特点,把网页表示成树型层次结构,每个叶子节点赋予不同的权重;在传统的特征词权重计算公式的基础上,考虑了特征词的长度和特征词出现的位置两个因素,提出了基于网页标签树型层次结构的特征词权重计算公式。(3)介绍了传统的特征提取算法,并在χ~2统计量的基础上,对χ~2统计量公式做了两点改进。(4)研究了现有的网页分类方法。KNN分类算法为了找到与测试文本距离最近(最相似)的K篇文本,需要穷尽搜索整个训练集,在训练样本数较多或者表示样本的特征向量维数较高时,计算复杂性就很高。针对这一问题,本文在粒子群算法的基础上,提出了一种智能快速寻找新文本的K个近邻的PSOKNN算法。(5)对IG、MI、CHI、CHI*四种统计量的实验结果做出了评价。通过实验证明本文所采用的特征词提取方式,在一定程度上,能够得到较高的分类准确率,存在一定的合理性。
其他文献
期刊
期刊
期刊
“他就这么走。饿了就找个小馆儿,叫上几十个羊肉饺子,要不就猪头包子、韭菜盒。馋了就再找个地儿来碗豆汁儿,牛骨髓油茶。碰见路摊儿上有卖脆枣儿、驴打滚儿、豌豆黄儿、半空儿的,也买来吃吃。都是几年没见着的好玩意儿。”  这一溜菜名,出自张北海的《侠隐》,前段时间,由该书改编的姜文电影《邪不压正》捧红原作。细细翻阅《侠隐》一书,会发现其中关于北平城的“吃”可谓信手拈来:  李天然慢慢地走进了竹竿巷,注意到
期刊
弗兰茨 ·卡夫卡生前默默无名,不是因为他死得早,而是读者觉醒得迟:现代社会对人的异化。阿尔蒂尔 ·兰波,14岁写诗,16岁写出《奥菲莉亚》,名扬天下,因为他“杀死上帝”的号角吹得恰逢其时,发令枪一样的,一呼百应。艾略特说,经典作品只可能出现在文明成熟的时代(文明成熟的读者)。博尔赫斯说,任何一部作品都需要读者的某种合作乃至于合谋。我想,这都是在讲一个道理:读者是大地,作家或者作品是根植于大地的作物
期刊
多项目管理作为一种全新的管理模式,可以帮助企业在资源有限的情况下,组织和管理好多个项目,通过多个项目目标的完成以确保企业战略目标的实现。如何对众多备选项目进行筛选,是多
一朵苹果花里  静坐的少年  一树苹果花里  素愁如月的少年  有人在杜宇啼处,举首凝眸  凝眸處  春山开遍  有人自山中归来  落花两肩  一朵苹果花里  静坐的秋天  一树苹果花里  月光一色的千山请茶帖  当我们老了  抿一口刚到的新茶  说起春山  说起三叶一芽的枝头  清香脉脉  早露中的采茶歌还未唱起  树长了一岁  又一岁  茶泡起来还是从前的花果香  有时候像栀子  有时候像桃子
期刊
期刊
期刊
期刊