基于网络爬虫的垂直搜索引擎设计与实现

来源 :贵州大学 | 被引量 : 8次 | 上传用户:zdbzdb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术飞速发展,用户对搜索结果的准确性和高效性提出了更高的要求,为满足用户需求,垂直搜索引擎应运而生。随着人工智能时代的到来,越来越多的用户希望在互联网中对人工智能领域的相关信息进行精准搜索。因此,本文通过对互联网中海量信息进行有策略的爬取和准确的筛选,设计并实现了一个既专业又全面的面向人工智能领域的垂直搜索引擎,该系统主要由信息采集、索引建立、用户搜索、用户注册登录及后台管理五大模块构成,能够为用户提供精确的主题搜索服务,主要完成工作如下:(1)对传统朴素贝叶斯分类算法的不足进行了研究,提出了一种基于Jensen-Shannon(JS)散度特征加权的朴素贝叶斯分类算法。通过进一步分析得出,仅用JS散度值来表示特征词所能提供的信息量仍有改进空间,于是将词频、文本频、类频相结合对JS散度做了进一步的修正,依照特征词对分类结果所产生作用的大小赋与其不同的权值,完成了对朴素贝叶斯算法的改进。通过实验表明,基于JS散度特征加权的朴素贝叶斯分类算法是一种较好的分类算法。(2)完成了对人工智能领域相关信息的采集和处理。对Webmagic爬虫框架进行了深入研究,在其基础上增加了网页内容的主题相关性判断子模块及链接主题相关性排序子模块,并实现了面向人工智能领域的主题爬虫。首先建立人工智能主题词库及初始种子链接集合,作为后续网页分类工作的基础;然后以本系统的具体需求为标准,对Webmagic框架进行了二次开发,实现了网页下载、解析、抽取、持久化等主要功能,并将主题词库中的特征词作为网页分类的特征属性,使用基于JS散度特征加权的朴素贝叶斯算法实现网页内容的主题相关性判断,同时使用PageRank算法对网页中链接的重要程度进行量化,实现了链接主题相关性排序,以便爬取高质量的链接。(3)建立索引,完成用户搜索。将爬取的相关网页信息导入到Solr服务器中,并在Solr中配置IKAnalyzer分词器,以Solr服务器为核心完成索引的建立,进而完成面向人工智能领域垂直搜索引擎的用户搜索功能。(4)基于SSH框架实现了基于网络爬虫的面向人工智能领域垂直搜索引擎系统,实现用户注册登录、后台管理等功能,设计并实现了美观、交换性强的系统,并对该系统进行了有效测试。
其他文献
文章以漫谈形式,论述了中国人类学研究对象的拓展、研究方法与研究策略的多元化、研究理论的开放化与本土化等问题。 In the form of talk, the article discusses the expan
采用熔融共混法制备了110 k V电缆用半导电屏蔽料(牌号HTDW-110),用扫描电子显微镜(SEM)技术研究了导电炭黑在树脂中的分散情况,通过热失重技术(TG)研究了屏蔽料的高温稳定性,对比
<正>确立"打造中国第一、全球一流的印刷产业生态圈"战略长荣在创立之初的理念就是"以科技兴企,以实业报国",通过20多年不断的创新开拓,终于奠定了在世界高端印刷装备领域的
目的研究早期血小板和淋巴细胞比值(platelet/lymphocyte ratio,PLR)在老年ICU重症感染患者中的应用价值。方法回顾性分析笔者医院ICU收治的96例老年重症感染患者的临床资料
某发射装置在实际的使用过程中,如果某个部件出现失效,将可能导致整个发射装置的失效,甚至对操作人员的安全都会造成严重的威胁。而发射阀是某发射装置最主要的部件之一,它的
<正>~~
会议
采用酶联免疫斑点检测技术(ELISpot)检测自然状态下猪外周血单核细胞(PBMC)中分泌IFN-γ的细胞数,并用带T细胞表位的猪繁殖与呼吸综合征病毒(Porcine reproductive and respi
通过实时观测110kV电缆切片中电树枝老化过程,发现在不同电压等级下电树枝生长特性各异。将其生长特性与各阶段采集到的局部放电数据进行统计分析,发现一个工频周期内的最大放
生长相关蛋白43(GAP-43)是一种细胞内生长相关蛋白,在成人中与突触可塑性相关。在第二信使信号通路中,GAP-43参与信号传递过程。GAP-43的Ser-41是蛋白激酶C的磷酸化位点,当神经
我对台湾人类学的影响一是使人类学进入了对汉人社会的研究 ,二是在人类学的研究中带进了社会科学的立场。面对 2 1世纪 ,人类学要关心人类的未来 The first impact on anth