基于统计方法的网页内容分类技术研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:csh911229
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于通信及网络技术的发展,网络数据呈现海量特征。如何从浩如烟海的信息数据中找到自己需要的信息,是目前亟待解决的一大问题。网页自动分类技术可以使信息组织更加条理,富有层次性,有助于人们信息的获取。   本文研究了网页内容分类中的相关技术,具体包括:   (1)基于相似度的网页正文获取算法。传统网页正文获取需要经过分块和正文定位两个步骤,由于网页结构复杂多样,使得分块过程较为复杂而且正文定位困难。本文主要研究无需分块的网页正文提取,提出了基于相似度的网页正文提取算法。首先提取出最大文本行,然后根据文本内容相似度和标签相似度来提取网页正文内容,略过了传统的分块步骤。   (2)改进的特征选择算法。由于经典的卡方统计在选择特征时偏向于低频度特征,本文在研究了卡方统计算法之后,提出了基于词频扩散的卡方统计降维算法,利用特征的文档频率和词频结合的方式来代替传统的卡方统计公式中的文档频率。   (3)网页分类实验平台的搭建。网页分类实验平台主要包括两个模块:特征选择和分类。本文对常见的特征选择算法做了大量实验,并初步验证了分类算法的性能。   相关实验表明,根据相似度来提取网页正文的精度在95%以上,利用余弦距离计算的正文内容能够增加网页内容在主题上的凝聚性,有益于网页的分类。改进的特征选择算法在低维度空间相对于原算法在分类精度上提升大概15%,达到了降维的目的。
其他文献
高清化和智能化是视频监控系统发展的趋势,也是衡量系统优劣的重要标准。高清化主要反映在分辨率上,而智能化主要体现在后期的视频处理上。本文从系统架构设计与实现的角度提
在未来的网络发展中,无线网络将演变成一种支持全IP、基于多种无线网络接入技术的无缝融合异构网络,它们在覆盖范围、接入能力等方面各不相同,没有一种单一的网络可以在带宽
集成无线通信、嵌入式计算、传感器和分布式信息处理技术的无线传感器网络已经成为当前信息网络研究的热点,随着廉价的CMOS摄像头及微型麦克风的出现,以及人们对图像、音频和
对于一种逻辑(?),它在一类结构C上的模型检测问题是询问一个给定的(?)语句在一个给定的C结构中是否成立。核化是一个在设计固定参数算法中广泛应用的技术。核是一个从输入实
目前,图像编辑软件的广泛应用已经导致了许多非法的数字图像使用。在这种情况下,急需开发相关的计算机技术来验证数字图像的完整性,从而阻止对数字图像的恶意伪造。图像哈希是一
学位
多标记学习问题中每个样本可以同时和多个标记相关联,因此比传统的单标记学习有更广的应用空间,并受到越来越多研究者的关注。然而,多标记学习依旧存在着维度灾难、噪音特征
随着越来越多的用户愿意上网发微博,表达对公共事件的关注和看法、表达个人情感或情绪、报道新闻事件、发表观点等,微博已经成为非常有价值的数据源。如何有效地获取和展现微
V网伴侣(VPMN Partner)是一款面向企业用户的统一通信(Unified Communication)业务,并与传统的VPMN业务(virtual private mobile network,移动虚拟专网业务)融合。V网伴侣业
利用GPS载波相位进行载体姿态测量是近几年来新发展起来的一项GPS应用技术,具有全天候、精度高、无需对准、无累计误差、成本低等优点,正越来越多的应用于航天、航海等行业并逐
学位
随着互联网的普及,垃圾邮件的泛滥在严重干扰了人们的正常工作和生活的同时消耗了大量的带宽资源。传统的反垃圾邮件的方案例如设置过滤规则或者对邮件地址应用黑名单或白名