基于特征提取和权值计算算法的中文网页分类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:kangjilin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代社会,互联网急剧地改变着我们的生活,面对互联网上巨量的信息,如何得到我们真正想要的信息变成了一个非常重要的问题,网页分类便成为了一个热点研究领域。网页分类就是根据一定的规则实现大量的网页的自动归类,进而对网页进行有序组织,改善信息检索的性能,提高网络资源的利用率。特征提取和加权是网页分类过程中的重要步骤,也是提高网页分类效率的前提,算法的优劣直接影响到分类器的性能。本文的工作是在“中文网页分类系统”的开发过程中,对网页分类技术进行了较为深入的研究,包括中文网页信息提取、自动分词、特征提取、权值计算、自动网页分类等方面,并基于传统的特征提取和权值计算算法提出自己的改进算法。本文的主要工作如下:首先,介绍了网页分类的国内外现状和研究方法,并指出课题研究的重点和难点。其次,我们较为深入地研究了传统的MI算法和tf-idf公式在网页分类中的应用及其存在的不足,发现传统的MI算法忽视了互信息值为负的特征以及过分倾向于低频词,另外传统的tf-idf公式忽视了特征项在类别之间的分布,并针对这些不足对传统的算法提出改进,再通过实验证明改进的优越性和可行性。最后,本文利用有监督的机器学习理论构建一个网页分类器。运用改进型的互信息算法对分词结果进行特征提取,对传统的tf-idf加权公式进行了一些改进,运用KNN算法构建分类器。进行了大量的实验,实验结果表明改进后的算法相对传统算法具有优越性,实现了较高的精确度。伴随着互联网上信息的飞速增长,网络数据挖掘越来越变成一个重要的学术研究领域,中文网页分类作为网络数据挖掘领域的重要分支,具有重大的研究价值和现实意义。
其他文献
随着经济的快速发展,企业规模不断扩大,不同的部门分布在不同的区域,甚至在不同的城市,而现有的指纹考勤系统多为单机版或基于局域网环境的,而且在大规模集中应用条件下,其性
无线传感器网络(WSN)是传感器技术、通信技术和计算机技术相结合的产物。低成本的传感器具有很好的计算能力和无线传输能力,这些传感器节点被部署到各种各样的环境下,比如军
随着社会经济的发展,机动车辆不断增加,由疲劳驾驶而引发的交通事故日益增多。研究一套有效、安全、可靠的防疲劳预警系统具有重要的社会意义。许多国家正在积极对防疲劳驾驶
随着计算机技术的发展,纹织CAD/CAM技术不断地改进和完善。其中,纹织物仿真是纹织CAD/CAM中一个重要的研究方向。纹织物仿真能够向设计人员演示织物产品的外观和组织结构,帮助
随着电子商务零售业的迅猛发展和社交网络营销的兴起,以用户间社交关系作为额外输入的社会化推荐系统成为新的研究方向。社会化推荐系统基于社交关系体现用户间相似性这一假
PDA安全管理软件是安全管理部门近年来迫切需要的一种新型的移动办公工具。当前,安全管理类系统存在两个方面的问题迫切需要解决。 其一,安全管理部门在生产实践中存在如何
传统的农产品销售受时空因素影响较大,各地土特产品主要以旅游礼品或包装成品进超市的形式销售,销售的主体也大多为农产品加工企业,个体消费者较少。农(土特)产品网上销售系统为
在数据挖掘和机器学习中,K最近邻居因其简单有效而得到了长足的发展和广泛的应用。然而,传统的K最近邻居有两个主要的局限性:参数K的选择以及在大规模数据集情况下过高的时间
水质的生物监测方法被广泛地应用于水环境的质量监测和水质安全预警中,其基本原理是利用水生生物个体、种群和群落的数量、性质、健康状况、生理特征和运动行为特征等的变化
虚拟外科手术仿真系统主要应用于医学教育、外科手术计划、手术培训、术中辅助支持等,而人体软组织及器官的切割变形仿真是虚拟手术仿真的重要组成部分,需要满足实时性、稳定