网页分类中的标签权重自动优化研究

被引量 : 0次 | 上传用户:xxj8880430
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着互联网的蓬勃发展以及移动互联网时代的来临,人们的工作和生活越来越离不开互联网,互联网成为了人们获取相关信息和资讯的最主要渠道。所以需要更加高效的Web数据挖掘技术。网页分类是Web数据挖掘的基础技术,因而成为十分重要的研究课题。本文主要的工作围绕如何更加有效地对网页进行特征表示进行展开,分析了标签权重系数自动调优的必要性,介绍了各种优化算法的基本原理,详细分析了其各自的优缺点,着重介绍了差分进化算法,并设计了一种基于改进的差分进化算法的标签权重系数自动寻优方法,具体工作如下:(1)针对差分进化算法容易陷入局部最优解的缺点,提出了一种对差分进化算法的改进方法。与其他优化算法相比,差分进化算法具有更好的效率和全局寻优能力,但是其缺点也是显著的。差分进化算法的局部搜索能力较弱,从而使算法过早的收敛。为解决上述缺点,提出了一种对差分进化算法的选择策略进行改进的方案,并通过基准测试函数对其进行了验证,实验结果表明了改进方案的优越性。(2)针对现有的手工指定标签权重系数的缺点,设计和实现了一种基于改进的差分进化算法的标签权重系数自动寻优方案。网页中不同HTML标签的内容对网页的概述能力是不同的,在表述网页文本时,需要对不同的标签赋予不同的权重系数。现有的网页分类技术多基于个人经验对标签的权重系数进行手工指定,因而具有一定的随机性,且不能适应样本集的变化。因而,需要有效的优化算法对标签权重进行自动设定。本文设计的方案以一组标签的权重系数作为寻优对象,并使用本文提出的改进的差分进化算法作为调优方法,实验结果表明,该方案可以充分利用样本集的特性,可以有效地进一步提高分类的准确率。(3)设计了一个网页自动训练和预测系统,并在训练中加入了标签权重系数自动寻优功能。该系统包括HTML解析、分词、特征选择、特征表示以及分类模型设计等,同时包括本文提出的标签权重系数自动寻优模块。
其他文献
科学技术深深的影响着我们的日常生活,扮演着不可或缺的角色。尤其是信息技术产业发展迅速,改变了人们的工作、生活和娱乐方式。电子设备、软件技术和互联网的出现,让我们接
中国在30多年快速经济增长的同时,却没有一个世界品牌,没有一个影响世界的创新发明,企业总是处于价值链的低端,这业已成为中国可持续发展的一个瓶颈问题。那么,到底是什么体
本文主要采用问卷调查法、文献资料法以及逻辑法和实地考察法以及数理统计法等方法对江西省12所羽毛球场馆的经营现状进行调查研究。对其中的360名消费者、30名教练员和12名
肉桂精油是樟科植物肉桂的干燥枝、叶经水蒸气蒸镏得到的挥发油,其为黄色或黄棕色的澄清液体;有肉桂的特异香气,味甜、辛,露置空气中或存放日久,色渐变深,质渐浓稠。微胶囊化技术是
茶蚜(Toxoptera aurantii Boyer)又名桔二叉蚜,近几十年来已演化成比较专一的茶树害虫,在我国茶区分布很广。趋嫩刺吸茶梢汁液、致芽叶生长停滞、且排泄蜜露引发茶煤病而阻抑光
化学镀镍磷合金镀层具备较好耐蚀性能,膜层厚度均匀、硬度高、耐磨性好,且操作方便,成为近年来的研究热点。本文采用化学镀方法在碳钢表面制备了Ni-P、Ni-W-P两种非晶态合金
生产维修管理系统(PMMS)是支撑地铁通号分公司日常业务运作的信息管理系统。PMMS主要功能包括对地铁运营过程中通信信号故障的统计、分析、导出,对地铁各线路通信信号设备检
近年来随着互联网金融的不断发展,民间借贷与互联网技术结合形成的互联网金融P2P借贷开始出现。国外的互联网金融P2P借贷平台首次于2005年在英国出现,我国互联网金融P2P借贷
多年来党和政府为促进公平正义作出了不懈努力并取得了重大成就,这可以从新中国成立以来的综合国力跃升、经济发展、民生改善及社会事业的蓬勃发展得到佐证。同时,当前中国在
手术计划调度是医疗资源配置的重要组成部分,也是复杂的组合优化问题.由于在手术计划调度过程中,存在手术时间、术后重症监护病房(intensive care unit,ICU)内住院时间、急诊