网络信息采集及智能处理技术研究

来源 :广东工业大学 | 被引量 : 5次 | 上传用户:jimiewongy2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无论是科研还是学习人们都需要通过网络去寻找最新的专业信息和新闻动态,但信息的爆炸式增长,也让人们越来越难以从信息海洋中快速获取所需信息。一方面是因为网络信息量与日俱增,且更新速度非常快,需要投入大量的时间进行信息的搜索;另一方面,网络上的信息存在大量重复的现象,且格式非常不规范,更加大了用户搜寻信息的难度。因此,对网络信息进行快速采集和智能处理的技术应运而生。用户可以通过搜索引擎检索出大量信息,却不能对信息进行提取、组织和处理,随着信息化的进步,人们对获取信息的要求越来越高,信息搜索也从“通用”进入“个性和智能”。目前市面上已经出现了很多信息采集的工具,这些工具可以在一定程度上满足用户获取信息的需求,但是对信息的处理却不尽人意。由于文本信息占据网络中信息的大部分,因此如何自动地分类网络中的文本信息成为信息处理的重中之重。本论文在分析现有信息采集和信息处理技术的基础上,首先对网页抓取工具网络爬虫进行介绍,分析其采集网页信息的原理及网页去重和信息抽取的方法;然后对智能信息处理中的文本分类这一关键技术进行了深入研究,改进了现有的特征选择方法和分类算法,并采用改进的KNN算法构造了一个文本自动分类器,将搜狗语料库作分类模型的训练语料库,通过实验训练出适应于该语料库的最佳K值和特征维数,同时验证了改进的KNN算法的分类效果。本论文的创新之处是:(1)对文本信息处理中的特征选择方法进行了改进,提出了同义词合并的思想,引入《同义词词林》,在特征选择之前先对特征项中的同义词进行替换、统计,有效降低了特征空间的维数。(2)提出了一种改进的KNN算法,通过引入类中心向量对相似度计算公式进行了改进,将待分类的测试文本与类别的距离作为参数加入到KNN算法的相似度计算公式中,把两个文本中都出现的特征项数量与各自出现的特征项数量的最大值的比值作为相似度公式的调节因子。(3)结合改进的KNN算法,构造一个文本自动分类器,在分类阶段优先考虑待分类的测试文本与各类别之间的联系,当待分类文本与类别之间的关系不明确时,再将其与所有训练文本比较,根据比较的结果判定待分类文本所属的类别。
其他文献
随着“一带一路”战略持续推进及“高铁时代”全面到来,铁路治安管理与平安铁路建设成为广受社会关注、涉及大众切身利益的重要领域。利用海量数据分析与挖掘技术来预防及减
近几年来,随着电视技术和多媒体技术的飞速发展,传统电视的单向式频道传输技术难以满足用户个性化的需求。随着互联网技术的不断成熟以及应用的不断普及,领域专家提出了网络
无线传感器网络(WSN, Wireless Senor Networks)是获取信息的有力工具和重要手段,在很多实际应用领域中都有着十分广阔的应用前景。在WSN中,数量众多的传感器节点通常采用能
知识库是知识管理的基础。目前,知识库的搜索主要是基于推理与基于关键字匹配相结合的搜索,但由于用户表达含糊、检索词短少等问题,导致检索效率不高,无法完全满足人们对知识库信
随着城市隧道的优势之处越来越突出,城市交通从地上的高架交通向地下的隧道交通发展,国内的城市隧道会越来越多,对于其环境做出相应的决策控制也势在必行,建立一个适用于大部分城
随着计算机和互联网技术的广泛应用,人们希望利用计算机和互联网提高工作效率的愿望越来越强烈。任务管理系统是网络化、协作化的系统,能够显著提高管理效率。很多企业都已经部
当前随着网络的迅猛发展,各种网络环境不断扩大,网络通信的安全问题日显突出。本文通过对操作系统中网络部分的研究,提出了有效对网络通信进行过滤及信息监控的整体解决方案,并结
随着信息化技术的发展与成熟,数据库系统逐步成为信息系统的核心。在商业领域中,数据量庞大而复杂,快节奏的事务处理对数据库系统的性能提出了新的要求。随着数据库系统的不断发
基于计算机视觉的互动投影系统是一种用于增强现实的人机交互设备,正成为日常生活中常见的娱乐工具和交互式信息展示平台。主要包括运动分析和场景播放两个部分。其在场景播
碰撞检测算法作为虚拟现实(Virtual Reality,VR)领域中的一个重要组成部分,其主要作用是判断虚拟空间中的两个物体是否共享了部分空间。随着VR及其子领域增强现实(Augmented Re