基于DOM和IG-SVD的Web文本分类模型研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:JK0803_wantao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络信息的急剧膨胀时代,我们已经不再担心信息的匮乏。但是,网络信息的指数级增长开始让人们感到信息的泛滥和杂乱无章。各大网站的信息独立和数据格式的不统一,使得数据共享平台的实现变得异常困难。如何统一网络中的异构数据格式,并提取出人们所需要的结构化文本信息,是目前Web文本分类课题的研究重点。   基于DOM和IG-SVD的Web文本分类模型是本文提出的解决目前Web数据格式和网络信息杂乱无章的一种有效的方法。我们主要研究了以下几方面的工作:   (1)提出了基于DOM的正则表达式算法。该算法针对信息抽取的主题不明确,信息抽取内容过于粗略等缺陷,通过对网页的DOM结构分析来定制面向主题的正则表达式的模板,最终完成结构化的文本提取。   (2)提出了基于IG-SVD的特征选取算法。首先,用模糊取定阀值的方法确定出大范围的区分度较高的特征项。然后,通过奇异值分解法做矩阵变换和奇异值k的选定,实现了语义的特征项选定和多义词同义词的处理,达到了分类效果最佳的特征向量空间模型。   (3)提出了基于支持向量机的分类模型。将基于DOM的正则表达式特征提取算法和基于IG-SVD的特征选取算法融入到支持向量机中,形成了基于支持向量机的分类模型,并将该模型应用到了电子就业智能分类领域中。   文章最后设计了一个基于支持向量机的电子就业智能分类预测系统。在此系统中,我们测试了各种模型的分类效果和性能,并对结果进行了对比。实验结果证明,我们提出的改进方法在性能和效率上都有较为显著的提高。
其他文献
人工免疫系统是用来解决复杂问题的自适应系统,其中人工免疫网络可用于分析数据的聚类问题,数据聚类是实现图像分割的一种常用的方法。因此,本文围绕人工免疫网络在图像分割
近年来,计算机CPU速度的高速增长和内存速度的缓慢增长使得CPU和内存之间的速度差距越来越大,这导致内存系统成为性能上的瓶颈,现代计算机体系结构中广泛采用Cache来降低这种
爆炸式增长的数字信息给人们的日常生活乃至企业的业务运营都带来了巨大的挑战,存储系统中的冗余数据信息变得越来越多,极大地增加了存储备份的开销,降低了存储系统的性能。
近几年来,电子商务已进入飞速发展时期,了解市场、为消费者提供满意的服务是公司取得成功的关键。当今的商业环境比从前更加复杂并且充满竞争,如何有效的为生产商提供市场消
在通信整机的实际调试过程中,人工参与成分多,常以经验为先,缺乏科学统一的调试规范,造成了通信整机调试速度慢的后果,进而影响了生产速度。因此,需要进行调试数字化研究,实
随着人类社会的快速发展,保证全民身心健康已成为广泛的社会需要。医疗器械及相关标准的研究在世界各国得到了迅速的发展。随着医疗器械的功能和作用日益细化,以期的自我适应
近年来伴随着物联网技术的不断进步,作为物联网核心领域的M2M(Machine to Machine)网络得到快速发展,如今的M2M网络可以为各行业实现完整的综合解决方案,包括数据采集、数据
网络安全可视化已成为网络安全研究工作中的一个热门研究领域。面对当前海量高维的网络安全数据、愈发精细的入侵攻击和网络结构的不断复杂化等问题,网络安全可视化以其具有
随着网络、传感器技术的快速发展与应用,越来越多的流数据正在产生,因此针对流数据的挖掘技术逐步兴起。流数据挖掘是指从大规模、快速到达、异构的数据源中有效地挖掘有价值
近年来,随着计算机网络的普及,校园网站在校园信息化建设中起到非常重要的作用。以往人们对校园网站的要求只是停留在能用的基础上,或者仅有少部分人从事校园网的一些简单的