论文部分内容阅读
网络的发展使得世界各地越来越丰富的电子资源信息供人们使用,但是随着数字信息的爆炸性增长,快速有效地获取需要的相关信息却又变得越来越困难,因而对信息获取技术的发展提出了更高的要求。由于网络资源的复杂性,综合性的搜索引擎不能适应用户对信息检索的准确性要求,因此专业化、专题化信息搜索技术成为热点和趋势。本论文研究的是基于内容的面向数码产品领域的中文Web网页的信息获取问题,其主要任务是从众多的网页中分离和过滤出数码产品专题网页,并进一步将其分类管理,以达到为用户提供更精确信息的目的。本论文主要对中文文本自动分类和聚类的相关技术进行了研究和探讨,为开发面向数码产品领域的垂直型搜索引擎提供技术准备。论文主要工作包括以下几个方面:(1)对数码专题Web网页的时间和空间的分布规律、数码产品网页内容的特点以及用字用词情况进行了统计和分析,为进一步的研究工作提供了直接依据。并根据面向数码专题网页信息获取的特点,提出了分级建立资源词表的思想。(2)结合数码专题网页的过滤问题,对自动分类领域中不同的特征选择方法以及各种分类器的设计和性能评价方面进行了归纳,并利用真实的网页数据集合进行了比较性的实验。(3)针对数码产品网页的分布特点,提出了Improved Rocchio算法和基于增量式学习机制的网页自适应分类方法。由于网页数据存在的复杂性,在不借助人工判断的情况下,计算机很难做出准确的相关性评价,利用错误的评价结果调整分类器,就容易使分类模型恶化。本论文提出设置正反例置信区间的思想和利用动态的修订系数调整分类模型的策略,从而取得了较好的分类效果。(4)提出了基于密度与K近邻相结合的网页自动聚类方法。由于网页数据的非结构化和特征分布稀疏,作为集合中的点,网页的分布也存在复杂性:各个类内点的聚集程度(密度)不同,构成的形状不规则。Optics算法具有快速识别类的高密度区域的特点,却不能较好的处理周围低密度区域的点。因此利用它来构建初始类结构,再利用K近邻的方法,将低密度点归类,从而实现网页文档的聚类。