机械领域文本采集和分类的研究与设计

来源 :西安建筑科技大学 | 被引量 : 0次 | 上传用户:pf2858888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,各行业信息化程度不断提高,越来越多的信息积累在网络上,如何在浩瀚的信息中寻找到有用的信息,一直是领域研究的热点。本文的研究背景是陕西省教育厅专项科研项目“面向特定领域需求的概念设计方案自动生成方法研究”。课题选择机械领域为研究目标,探索如何从海量信息中搜索有用的行业信息,并将结果做进一步分类,满足机械行业对知识的需求。本文的研究重点为两个方面:主题爬虫和文本分类。主题爬虫研究的是第一次信息抽取过程,将机械领域文本信息从互联网信息中抽取出来,完成第一次的两分类过程。文本分类将主题爬虫抽取的信息作进一步处理,按照领域专家和实际项目的需求,将机械领域的信息细分到十个子领域中,完成第二次的多分类过程。论文主要完成了以下工作:(1)根据机械领域专家的指导,完成了机械领域专业词库的搭建,收录机械领域十个产品分类专业词汇共2万个,为后续爬虫主题描述、网页相关度计算、中文分词、文本描述和文本分类工作做好基础工作。(2)设计了机械领域主题爬虫,通过主题描述,选择适当的爬行策略指导爬虫爬行工作,通过相关度计算,抽出合适的文本信息下载到页面库,爬虫完成第一次分类过程,页面库中的文本信息为机械领域文本信息。(3)依据朴素贝叶斯原理设计分类器,实现机械领域文本的二次分类,经实验验证,分类效果不理想,进而分析造成分类准确度不高的原因。(4)根据原因提出改进方法,通过引入灰色关联度计算和改进权值计算方法,设计出改进后的贝叶斯文本分类器,实验验证分类效果提高,可以满足实际工程的应用。(5)根据上述实验,完成了机械领域信息采集与分类的设计与实现。
其他文献
在网络多媒体信息海量出现的今天,多媒体数据库中出现大量重复性数据,这不仅给多媒体数据库造成巨大的存储空间浪费,也使信息检索和查询变得困难。因此对多媒体数据重复检测技术
糖尿病视网膜病变是糖尿病严重的并发症,是成年人视力下降甚至致盲的主要原因之一。硬性渗出物是糖尿病视网膜病变的早期特征之一,因此对硬性渗出物进行早期的普查,能有效防止视
句法分析是自然语言处理研究中的关键技术之一,其任务是根据给定的语法,自动推导出句子的语法结构。它对于机器翻译、信息检索、信息抽取和语义分析等自然语言处理系统都有着
参数估计是现代信号处理的一个重要的研究方向,并且在雷达、声纳、生物医学、通信等领域有着广泛的应用,因而对参数估计方法的研究有着重要的理论和应用价值。本文针对高斯白噪
近年来关于软件定义网络(Software Defined Network,SDN)的研究已成为未来网络的热点课题。控制平面负载均衡研究作为SDN中一项基础而又重要的课题,旨在有效提高控制平面可扩
群体行为分析与理解作为一个复杂、多样、具有挑战的领域近年来吸引了很多研究机构的关注。在视频监控、人机交互、多媒体内容理解等方面,群体行为分析都是重要的组成部分之一
随着现代社会中的运输服务市场的不断发展和扩大,并在现代商业中占有重要地位。各运输公司均需要一些软件来实现运输,需求和客户的管理。本文主要目标是创建一个结合运输管理
纸币图像分析的目的就是通过对纸币图像进行分析和理解,来高可靠性的对纸币进行分类、有效的检测出纸币的真伪、新旧和残缺,保证市场上流通纸币的安全性和整洁性。很多国家对市
随着人们在日常生活中对计算机软件的需求不断增长,计算机软件系统的规模和复杂度也在不断的攀升,而对大规模复杂系统的测试和维护等需求超出了目前的测试与维护技术,因此也就出
随着互联网的迅速发展,网络规模急剧增大,结构日趋复杂,大规模网络已经成为网络研究的热点。网络模拟能够研究复杂网络行为,评价尚未实施的网络协议,具有成本低,易使用、模拟真实性