基于神经网络的HTML文档分类研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:netproxy_cisheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会网络的日益普及,互联网上产生了大量的数据和文档,互联网上海量信息的提取、分类处理技术成为目前研究的热点。本文对Internet上信息进行综合深入的分析,对文本提取和处理的技术,以及分类的技术进行了集成整合。   首先研究从HTML文档提取正文的技术,以及如何使用文本处理方法来减少提取数据的大小。提取的文本还需要有效的表示方法以便可以接下来进行更好的分类。本文采用了潜在语义索引的方法来更好地表示抽取后的文本,将文本变成基于语义的长度可变向量。同时,本文提出了一个加权的系统,在处理文本阶段使用了权重来强调一些HTML标签中的词,为了让这些词跟某个类别有更强的关系。   基于理论研究的成果实现一个HTML文档分类,该系统可以处理第一部分的向量输出,然后通过训练过程来分类新的数据。本文提出的系统使用神经网络的方法进行分类,使用两种模式来比较分类的效果。第一个模式采取的传统的反向传播算法,第二个模式采取的是粒子群优化算法。   通过实验发现神经网络对HTML文档的分类有比较好的效果,同时实验结果表明反向传播算法是最好的训练方法。加权系统同样是为了提高分类的精度,但对分类结果的影响较小。
其他文献
HDFS是Hadoop的旗舰级分布式文件系统,是云存储的基础架构。HDFS采用了完全复制的存储方案,该存储方案下的数据存储占用较多的存储空间,数据块-存储节点映射信息占用较多的存储
随着信息技术的不断增长,海量数据信息的存储越来越依赖云存储系统。作为云存储系统的典型代表Hdfs,需要将每一个数据块的副本放置在多个节点上。副本放置策略的好坏,直接影响着
校友是高等学校拥有的具有巨大潜力的资源,是一个信息丰富、知识密集、社会能力强的群体,不但是高等院校的形象资源,也是高等院校的财富资源,对高等学校的发展起着举足轻重的作用
无线传感器网络(Wireless Sensor Networks, WSNs)是由大量的廉价传感器节点通过自组织方式构建的网络,其在军事、环境监测、医疗护理、智能居家、灾后救援等场合有着广泛的
文字识别是模式识别领域一个重要的研究热点。在充分考察了目前英文单词识别技术发展现状的基础上,本文着眼于联机草书英文单词识别这一难点问题,进行了深入的研究。采用“先切
21世纪的社会是信息化社会。互联网技术的发展使得人们能便捷交流和资源共享。然而,伴随着信息化社会的发展,信息安全问题日益突出,引起了国内外专家、政府机构的关注。目前信息
非真实感绘制(Non-photorealistic rendering,NPR)是计算机科学与艺术的完美结合。本文给出了一种非真实感绘制蜡笔画风格实现方法,目标在于模拟传统艺术风格,表现图像的艺术
在中继协作无线传感网(Cooperative Relaying-WSNs,CR-WSNs)中,源节点和目的节点可在中继节点的辅助下传输数据。为了进一步提升系统性能,采用了无线携能通信(Simultaneous Wireless Information and Power Transfer,SWIPT)技术和无速率编码(Rateless Codes,RCs)技术。SWIPT技术改变了能量转移方式,将
学位
随着数字媒体在网络上的普遍存在,数字媒体的版权保护日益成为人们关注的焦点。根据研究向数字媒体中嵌入数字水印技术可以有效的解决版权保护、盗版和恶意篡改数字媒体内容这
本文研究了基于GIS的城市大气颗粒物监控预警管理系统,实现对整个城市环境状况的预报、监测站环境信息的实时监控和预警、监测与预测数据的对比分析、空气质量模拟控制和环境