论文部分内容阅读
随着互联网时代的到来,人们使用互联网技术获取信息越来越普遍,互联网已经成为一条大众获取信息的方便、快捷的有效途径。然而,伴随互联网规模的不断扩大,互联网中的信息量呈几何级数增长。因此,人们越来越关注如何从互联网海量数据中快速、方便地获取有效信息,使之更好的服务于人们的工作和生活。随着目前垂直搜索技术的快速发展,有效地弥补了通用搜索技术搜索信息的“大而不全,全而不准”的缺点。而能够有效的解决特定领域Web信息的获取技术已成为各行业利用互联网信息资源的基础。目前人物简介信息是各大论坛、门户网站、社区问答系统(CQA)以及社交网络(SNS)推送信息的依据,做好对于人物简介信息的抓取是进一步实现相关应用的基础。一些新型的针对于中文人物搜索的应用产品也不断被推出,例如雅虎的人物搜索,微软的人立方,豆瓣人物关系搜索等。由于人物简介信息所包括的范围广泛,使用基于关键词和链接分析的方法很难从全面上对于人物简介主题信息进行描述,而且分析主题信息效率上也比较低下。相关实验表明,基于分类器预测的方法是目前对于主题信息识别较好的方法。面向人物简介的主题爬虫的主要目的就是从海量的互联网信息中有效的识别与人物简介相关的Web信息资源,并获取人物简介相关信息。然后将人物简介信息交给下一级处理系统,抽取人物信息,实体名,人物关系等数据。本文主要研究了网络爬虫技术、LDA主题模型算法以及文本分类算法,并将其整合在一起构建了一个自动获取人物简介信息的主题爬虫系统。本文重点介绍了KNN分类器的设计和实现,以及根据LDA主题模型算法的相关知识,学习LDA模型的构建以及数据集自动生成过程,对LDA进行了设计和实现。将LDA主题模型生成的数据作为KNN分类器的数据集来用于分类,从而有效的提高KNN分类器对于人物简介信息的识别能力。然后根据网络爬虫的相关知识,对网络爬虫爬取网页数据的流程做了深入研究,并为进一步实现主题爬虫做好相关设计。最后整合LDA主题模型、KNN分类器以及网络爬虫的相关程序,形成用于爬行人物简介网页的主题爬虫系统。根据主题爬虫系统对人物简介网页的抓取状况,来进一步调试系统,提高系统抓取网页的准确率和查全率等性能。面向人物简介的主题爬虫系统运用了网络爬虫技术、LDA概率生成模型算法以及KNN文本分类算法,共同组建了一个完整的系统。面向人物简介的主题爬虫系统专注于人物简介信息的识别与获取,详细说明了系统构建的模块和开发过程,并进行了相关实验。实验中给定入口URL为吉林大学首页,系统对于主题“人物简介”页面的爬行的准确率达到了94.25%,召回率约为92.13%,总体上获得了较好的效果,但是仍有待提高。