基于向量空间模型的中文网页自动分类技术研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:yd310yd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的发展和互联网资源的迅速膨胀对传统的搜索引擎提出了挑战。在提高搜索引擎对信息的检索效率和用户操作的方便性方面,中文网页自动分类技术是一个有效的解决方案,是中文信息处理中的重要环节。它能够自动地把搜索引擎检索到的结果归类,便于用户按类别进行查找,提高检索信息的效率,已成为信息检索方向的研究热点。 介绍了网页分类的原理、流程和分类的各项关键技术。阐述了网页预处理、向量空间模型的原理、特征选取技术、流行的分类算法和分类的评价指标,对这几种分类算法的分析表明KNN算法是最适合应用于网页分类的分类算法。概括了网页分类在搜索引擎中的重要作用。深入研究了KNN算法,分析了国内外主要的改进算法,发现KNN在大规模在线分类方面存在着效率上的缺陷。从修剪训练集合的角度出发,提出了一种生成代表样本集合的算法,并在中文网页分类器CPCK上进行验证。实验证明,与普通的KNN分类算法相比,代表样本算法的分类效率得到了一定程度的提高。从网页的布局和功能进行分析,发现在网页的分块信息中,相关链接与网页的主题存在着一定关联。在研究网页分块算法的基础上,充分利用网页中的结构化信息和链接资源,提出了利用分块算法提取主题相关链接块,并对相关链接的锚文本进行加权的权值修正方法。设计并实现了一个中文网页分类器CPCK,实现了对网页的自动处理、特征抽取和分类,并将提出的改进算法应用到分类器中进行验证。
其他文献
研究表明,在驾驶员——汽车——道路3个环节中,驾驶员是可靠性最差的一个环节,80%以上的交通事故来自于驾驶员的错误。据统计,其中约有44%的交通事故与车辆行驶偏离正常车道有关,其
因为语言的多样性和计算机对语言的理解能力有限,目前的机器翻译性能与我们期待的仍有一定的差距。尤其在一些小语种上并没有大量的双语平行语料库,语料相对比较稀疏,机器翻
随着基于Web的应用迅速普及,许多关键服务都通过网络来提供,所以如何能够保证网络本身的安全和可用性成为网络安全研究中一个最重要的问题。近年来,严重的安全入侵事件时有发
无线自组织网络(Ad Hoc网络)是一种不依赖于任何固定网络设施并由一定范围内的移动终端临时建立的网络,广泛应用于军事、自然灾害应急处理、交互式演讲、共享信息的商业会议、
随着计算机网络技术的发展,使得教学方式由传统的校内教学向网上教学延伸。实验教学管理平台给网上教学活动提供了一个基本的运行环境,人们可以在网络环境下实现信息服务与资
无线传感器网络是由低成本,低功率,尺寸小并且能短距离通信的微型传感器节点通过自组织方式形成的网络。分簇结构的簇首选举和能量消耗是层次式无线传感器网络的两个重要问题
信息时代的来临,带来大量的数据。这些数据中隐藏着许多重要的信息和知识。如何从表面数据中提取到深层次的、表现了事物内在规律的规则来进行预测或指导决策,是迫切需要解决
在智慧家庭领域中,家庭控制系统已经渐渐地从封闭系统转向CPS开放系统,CPS开放系统中集成多应用共同运行,应用之间共同协作、信息共享,虽然有很多优势,但同时集成多个应用系
随着互联网和信息技术的不断发展,特别是近年来各种社交媒体的涌现,人们可以更加方便地通过多种社交媒体来获取好友及其他人发布的各种信息。这些技术基本满足了用户对各种信
随着网络的迅猛发展,电子邮件的使用范围越来越广,电子邮件在互联网通信中有着不可替代的作用,是企业互联网主要的交互手段,电子邮件的内容是否涉及敏感信息至关重要。电子邮