论文部分内容阅读
随着互联网的迅速发展,各行业信息化程度不断提高,越来越多的信息积累在网络上,如何在浩瀚的信息中寻找到有用的信息,一直是领域研究的热点。本文的研究背景是陕西省教育厅专项科研项目“面向特定领域需求的概念设计方案自动生成方法研究”。课题选择机械领域为研究目标,探索如何从海量信息中搜索有用的行业信息,并将结果做进一步分类,满足机械行业对知识的需求。本文的研究重点为两个方面:主题爬虫和文本分类。主题爬虫研究的是第一次信息抽取过程,将机械领域文本信息从互联网信息中抽取出来,完成第一次的两分类过程。文本分类将主题爬虫抽取的信息作进一步处理,按照领域专家和实际项目的需求,将机械领域的信息细分到十个子领域中,完成第二次的多分类过程。论文主要完成了以下工作:(1)根据机械领域专家的指导,完成了机械领域专业词库的搭建,收录机械领域十个产品分类专业词汇共2万个,为后续爬虫主题描述、网页相关度计算、中文分词、文本描述和文本分类工作做好基础工作。(2)设计了机械领域主题爬虫,通过主题描述,选择适当的爬行策略指导爬虫爬行工作,通过相关度计算,抽出合适的文本信息下载到页面库,爬虫完成第一次分类过程,页面库中的文本信息为机械领域文本信息。(3)依据朴素贝叶斯原理设计分类器,实现机械领域文本的二次分类,经实验验证,分类效果不理想,进而分析造成分类准确度不高的原因。(4)根据原因提出改进方法,通过引入灰色关联度计算和改进权值计算方法,设计出改进后的贝叶斯文本分类器,实验验证分类效果提高,可以满足实际工程的应用。(5)根据上述实验,完成了机械领域信息采集与分类的设计与实现。