智能搜索中中文网页分类和聚类的初步研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:VictorXie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络的发展使得世界各地越来越丰富的电子资源信息供人们使用,但是随着数字信息的爆炸性增长,快速有效地获取需要的相关信息却又变得越来越困难,因而对信息获取技术的发展提出了更高的要求。由于网络资源的复杂性,综合性的搜索引擎不能适应用户对信息检索的准确性要求,因此专业化、专题化信息搜索技术成为热点和趋势。本论文研究的是基于内容的面向数码产品领域的中文Web网页的信息获取问题,其主要任务是从众多的网页中分离和过滤出数码产品专题网页,并进一步将其分类管理,以达到为用户提供更精确信息的目的。本论文主要对中文文本自动分类和聚类的相关技术进行了研究和探讨,为开发面向数码产品领域的垂直型搜索引擎提供技术准备。论文主要工作包括以下几个方面:(1)对数码专题Web网页的时间和空间的分布规律、数码产品网页内容的特点以及用字用词情况进行了统计和分析,为进一步的研究工作提供了直接依据。并根据面向数码专题网页信息获取的特点,提出了分级建立资源词表的思想。(2)结合数码专题网页的过滤问题,对自动分类领域中不同的特征选择方法以及各种分类器的设计和性能评价方面进行了归纳,并利用真实的网页数据集合进行了比较性的实验。(3)针对数码产品网页的分布特点,提出了Improved Rocchio算法和基于增量式学习机制的网页自适应分类方法。由于网页数据存在的复杂性,在不借助人工判断的情况下,计算机很难做出准确的相关性评价,利用错误的评价结果调整分类器,就容易使分类模型恶化。本论文提出设置正反例置信区间的思想和利用动态的修订系数调整分类模型的策略,从而取得了较好的分类效果。(4)提出了基于密度与K近邻相结合的网页自动聚类方法。由于网页数据的非结构化和特征分布稀疏,作为集合中的点,网页的分布也存在复杂性:各个类内点的聚集程度(密度)不同,构成的形状不规则。Optics算法具有快速识别类的高密度区域的特点,却不能较好的处理周围低密度区域的点。因此利用它来构建初始类结构,再利用K近邻的方法,将低密度点归类,从而实现网页文档的聚类。
其他文献
互联网和现代信息技术的飞速发展为现代物流注入了新的活力,使物流业朝着信息化、网络化、智能化方向发展。尽管目前物流企业普遍采用了计算机进行管理,但这种计算机管理仅仅是
小波变换受到数学家和工程师们的极大关注主要归因于它优良的时频特性。多小波研究是小波理论的一个重要分支,多小波能够同时拥有对称性和正交性、紧支性和高消失矩等特性,理
近几年,随着手机的普及和移动网络的发展,手机网络游戏越来越受到欢迎。中国拥有超过3亿的手机用户,手机网络游戏具有巨大的市场潜力。游戏引擎是网络游戏的核心部件,它能很好的
无线传感器网络(WSN)已应用于多种领域,例如:环境检测、对象追踪、精确农业、建筑物监测和军事系统等,已有大量的研究工作集中于开发适用WSN的网络协议,尽管这些协议有效延长了网
软件配置管理作为软件开发过程管理和过程改进的基础,开始于软件开发项目之初结束于软件被淘汰之时,支持和控制着整个软件生命周期。当今,软件开发机构不但面临日新月异的技术更
数字水印技术为互联网上的著作权问题提供了解决方案,版权保护是数字水印技术的重要应用之一。本文主要研究的是小波包和小波变换的图像数字水印技术,并结合了新的混沌加密理论
随着计算机应用技术的发展,电子文档的数量呈爆炸的趋势增长。各种形式的电子文档中蕴涵着丰富的信息,但由于它们是以非结构化或半结构化形式存储的,所以无法用传统的数据挖掘方
在多级安全数据库系统中经典的BLP模型的“向上写”规则违反了数据库的完整性约束,并产生隐蔽通道和推理通道问题,解决方法是引入多实例。但引入多实例会引起语义模糊的问题,
数学公式是一类非常特殊的符号表达式。在外形上,它呈现非线性结构,可以用于描述和展示比普通文本更加复杂的逻辑关系;在内容上,它简洁明了,对问题的描述和表达比普通文本更
Internet的发展改变了人们的生活方式,但是网络给人们带来巨大便利的同时也带来了各种各样的安全威胁,网络病毒是其中最主要的部分。随着互联网的发展,网络病毒传播的速度越来越