Web文档分类相关论文
WWW 是一个开放性的全球分布式网络,网上的资源没有统一的结构和管理,导致了信息查找和使用的困难。网页的自动分类可以在较大程度......
关联规则挖掘是数据挖掘中重要内容之一,旨在发现大量数据中项集之间的关联或相关关系。将关联规则挖掘技术应用于Web文档分类,可......
为了有效地克服传统文档表示的高维性及利用大量的无标记样本数据来共同提高Web文档分类算法的分类性能,提出了基于信息瓶颈和......
半监督学习旨在仅有少量标注数据集和大量未标注数据集的基础上获得一个良好的学习器。其中,协同训练算法是半监督学习领域最重要......
随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视。在Web文档分类的研究中,特征选择算法有着重要的研究意义。特征......
当前的Web文档分类方法大多以正文的文本分类为基础,没有很好地利用网页中所蕴含的多种信息。为提高Web文档的分类精度,提出一种融......
对Web文档进行分类可以较好地解决网上信息杂乱的现象,而且方便用户准确定位所需的信息,有效地提高了信息服务的质量。目前对Web文档......
Rough集(粗糙集)理论是一种处理不确定或模糊知识的数学工具.提出了一种基于Rough集理论的潜在语义索引的Web文档分类方法.首先应......
在现有的Web文档分类器中,有的分类器产生比较精确的分类结果,有的分类器产生更易解释的分类模型,但还没有分类器可以将两个方面的......
关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改......