中文网页分类相关论文
当今互联网时代,海量信息包含于海量网页中,潜藏着巨大的商业价值,这使得网页分类日益成为一个受人关注的研究领域。随着互联网在......
针对中文网页,比较研究了kNN和NB分类算法.主要的实验结果有:(1)kNN的分类质量明显优于NB;(2)即使是同一个算法对于不同领域的文档......
随着网络技术的迅猛发展,中文网页分类作为信息处理的一个重要研究方向已经变得越来越重要.本文主要对网页分类器的关键技术,包括......
随着Internet的飞速发展,网上信息正在呈指数级增长。面对杂乱的网页信息资源,人们需要对海量的网页信息进行分类整理,从而可以快......
随着互联网上信息的海量增长,尤其是万维网的普及,网络信息资源己经涵盖了社会生活的各个方面。通过什么样的方法和途径使网站的网......
中文Web文档的自动分类主要还是以文本分类的算法思想为基础来进行的。但由于中文Web文档的数量巨大,内容多样,噪音繁多,很多比较......
文本关键词自动提取算法可分为基于统计的方法,基于词语共现图的方法,基于词语网络的方法三种。基于统计中最基础的词频统计方法是......
在现代社会,互联网急剧地改变着我们的生活,面对互联网上巨量的信息,如何得到我们真正想要的信息变成了一个非常重要的问题,网页分......
随着Internet的不断发展,互联网上的信息越来越多,互联网也随之成了人们获取信息的巨大资料库。但是网上的信息错综复杂,人们在搜......
在当今信息时代,网络已经成为人们获取各种信息的主要渠道。其中,网页是承载这些信息的最主要载体。目前,网页数量已经相当庞大,并且每......
Internet的迅猛发展使得网页分类技术的应用越来越广。这种技术通过将web网页进行分类、组织和检索,达到有效组织处理海量网页的目......
本文提出了基于未标记的中文网页的增量式Bayes自动分类算法,实验结果表明,该算法是可行的和有效的。......
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量......
针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性......
为了提高搜索引擎的查准率,帮助用户快速地定位其感兴趣的网页,研究了如何在Spider式搜索引擎"天网"系统中提供目录导航服务 .基本......
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一......
为在中文网页分类时降低特征向量的维度、提高分类的精度,采用一种基于关联的特征选择(Correlation-based Feature Selection,CFS)与......
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页......
提出了一种改进的基于统计的中文网页的分类算法,通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我......
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在"天网"搜索引擎上......
网络正深刻地改变着我们的生活,Internet已经发展成为当今世界上最大的信息库,如何快速、准确地从浩瀚的信息资源中寻找到所需的信......
本文描述一种利用未标记的中文网页进行分类的新EM方法,即通过不断地改变EM收敛的初始条件来改善最终的收敛结果。我们通过做实验......
网页是信息传递的最重要的媒介之一,而网页信息的主要呈现形式是文本信息,集社交、娱乐、新闻、知识等重要功能。目前,网页数量的......
极限学习机ELM不同于传统的神经网络学习算法(如BP算法),是一种高效的单隐层前馈神经网络(SLFNs)学习算法。将极限学习机引入到中......
随着国家对农业的大力扶持,对农业生产,农产品加工以及农产品的销售的扶持力度达到了前所未有的高度。在中国经济快速发展的背景下......
近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类......