面向人物简介的主题爬虫设计与实现

被引量 : 0次 | 上传用户：TimRealler

【摘要】

：

随着互联网时代的到来，人们使用互联网技术获取信息越来越普遍，互联网已经成为一条大众获取信息的方便、快捷的有效途径。然而，伴随互联网规模的不断扩大，互联网中的信息量呈几何

【作者】

：

蒋超

【发表日期】

：

2012年期

【关键词】

：

主题爬虫人物简介 KNN LDA主题模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网时代的到来，人们使用互联网技术获取信息越来越普遍，互联网已经成为一条大众获取信息的方便、快捷的有效途径。然而，伴随互联网规模的不断扩大，互联网中的信息量呈几何级数增长。因此，人们越来越关注如何从互联网海量数据中快速、方便地获取有效信息，使之更好的服务于人们的工作和生活。随着目前垂直搜索技术的快速发展，有效地弥补了通用搜索技术搜索信息的“大而不全，全而不准”的缺点。而能够有效的解决特定领域Web信息的获取技术已成为各行业利用互联网信息资源的基础。目前人物简介信息是各大论坛、门户网站、社区问答系统(CQA)以及社交网络(SNS)推送信息的依据，做好对于人物简介信息的抓取是进一步实现相关应用的基础。一些新型的针对于中文人物搜索的应用产品也不断被推出，例如雅虎的人物搜索，微软的人立方，豆瓣人物关系搜索等。由于人物简介信息所包括的范围广泛，使用基于关键词和链接分析的方法很难从全面上对于人物简介主题信息进行描述，而且分析主题信息效率上也比较低下。相关实验表明，基于分类器预测的方法是目前对于主题信息识别较好的方法。面向人物简介的主题爬虫的主要目的就是从海量的互联网信息中有效的识别与人物简介相关的Web信息资源，并获取人物简介相关信息。然后将人物简介信息交给下一级处理系统，抽取人物信息，实体名，人物关系等数据。本文主要研究了网络爬虫技术、LDA主题模型算法以及文本分类算法，并将其整合在一起构建了一个自动获取人物简介信息的主题爬虫系统。本文重点介绍了KNN分类器的设计和实现，以及根据LDA主题模型算法的相关知识，学习LDA模型的构建以及数据集自动生成过程，对LDA进行了设计和实现。将LDA主题模型生成的数据作为KNN分类器的数据集来用于分类，从而有效的提高KNN分类器对于人物简介信息的识别能力。然后根据网络爬虫的相关知识，对网络爬虫爬取网页数据的流程做了深入研究，并为进一步实现主题爬虫做好相关设计。最后整合LDA主题模型、KNN分类器以及网络爬虫的相关程序，形成用于爬行人物简介网页的主题爬虫系统。根据主题爬虫系统对人物简介网页的抓取状况，来进一步调试系统，提高系统抓取网页的准确率和查全率等性能。面向人物简介的主题爬虫系统运用了网络爬虫技术、LDA概率生成模型算法以及KNN文本分类算法，共同组建了一个完整的系统。面向人物简介的主题爬虫系统专注于人物简介信息的识别与获取，详细说明了系统构建的模块和开发过程，并进行了相关实验。实验中给定入口URL为吉林大学首页，系统对于主题“人物简介”页面的爬行的准确率达到了94.25%，召回率约为92.13%，总体上获得了较好的效果，但是仍有待提高。

其他文献

四川省康定县地下热水结垢机理及趋势分析

四川省康定县地热区蕴藏丰富的中高温地热资源，处于青藏滇缅印尼“歹字型”构造体系的头部与中部过渡地段东缘、鲜水河断裂带南东段—折多山北西向构造中，该地热系统主要由二叠

学位

康定地下热水结垢

计算机图形学中非线性投影问题的研究

投影和变换是经典计算机图形学中两个重要的工具。由于它们都可以利用简单的矩阵乘法表示,因此是线性的。近20年来,在计算机图形学、计算机辅助设计、绘画艺术、摄影术和地图

学位

正交投影蒙皮球极投影平行投影中心投影

热处理工艺对合金化高锰钢组织及性能的影响

以合金化高锰钢Mn13Cr2为研究对象,通过微观组织观察、硬度测试等试验方法,研究固溶处理对合金化高锰钢组织与性能的影响。研究表明:合金化高锰钢铸态组织中弥散分布着大量块

期刊

合金化高锰钢热处理工艺组织

木糖浓度及补料发酵对树干毕赤酵母乙醇发酵的影响

探究不同浓度木糖及补料对树干毕赤酵母(Pichia stipitis)菌株1K-9发酵木糖产乙醇的影响,提高木糖产乙醇的发酵水平,为扩大规模发酵木糖产乙醇打下基础。结果表明,菌株1K-9先

期刊

树干毕赤酵母乙醇木糖补料发酵

长链非编码RNA-PVT1负性调控miR-195-5p影响子宫内膜癌干细胞生物学行为及其机制

目的:人子宫内膜癌是最常见的女性生殖系统的恶性肿瘤之一。主要治疗方法为手术、放疗和药物(化学药物及激素)治疗。目前针对子宫内膜癌有效的靶向治疗仍是临床妇科医生亟待

学位

子宫内膜癌肿瘤干细胞悬浮培养人浆细胞瘤变体异位基因1miR-195-5p成纤维细胞生长因子1型受体碱性成纤维细胞生长因子

塔里木盆地低电阻率油层成因分析与评价

塔里木盆地台盆区的轮南侏罗系JⅣ、吉拉克三叠系TⅡ和哈得逊石炭系CⅢ低电阻率油层的电阻率最低达0.45Ω·m,与水层的电阻率几乎相当.在分析其特点及成因的基础上,分别

期刊

低电阻率粘土附加导电束缚水黄铁矿矿化度饱和度

导电矿物对砂岩储层电阻率的影响研究——以塔里木盆地为例

通过实验研究和实际资料统计指出，塔里木盆地的砂岩储层在岩心描述中有层状黄铁矿分布或者黄铁矿等导电矿物含量高的井段，其对应的感应测井曲线没有明显反应，说明在一般情况下，砂

期刊

塔里木盆地导电矿物储层电阻率影响不明显

雀巢与阿里巴巴签署战略合作意向书

[本刊辑]雀巢中国与阿里巴巴确立了战略合作关系,就提升雀巢产品借助阿里巴巴系线上平台的分销和销售能力开展多方面的战略合作,为消费者提供更大的便利,实现更大的共赢。雀

期刊

合作意向书阿里巴巴

焊接钢结构现场施工质量与工艺控制

针对焊接钢结构现场施工过程中,以大运高速公路康庄服务区大型加油广场的钢结构施工为实例采取的一些新技术措施等进行阐述和总结。

期刊

焊接钢结构质量控制技术措施

商业银行金融服务模式创新研究

我国经济体制改革较为滞后,导致了我国金融创新活动并没有能够与国际金融创新的步伐保持一致。这也造成了我国商业银行在与外资银行进行竞争时处于相对劣势状态。为了求得生

期刊

商业银行金融服务模式创新

面向人物简介的主题爬虫设计与实现

与本文相关的学术论文