主题网络爬虫关键技术研究

来源 :湖南工业大学 | 被引量 : 2次 | 上传用户:LJC21102309
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,Web的信息量越来越大,人们往往通过搜索引擎去从互联网上搜索想要的信息,如:百度,谷歌,搜狗等。这类搜索引擎称之为通用搜索引擎,其为所有的用户提供用户想要的所有信息。随着互联网上的信息量越来越大,用户搜索出来的信息可能与自己想要的信息大相径庭。对于这种问题,就需要更加专业的、面向特定领域的搜索引擎来解决。主题网络爬虫是垂直搜索引擎的关键部分,本文主要是对主题网络爬虫中的关键技术进行研究。主要研究内容如下:(1)主题内容的抽取是网页主题识别的重要步骤,本文结合网页内容分布特征以及主题内容的相关特征,设计了一种网页主题内容抽取方法。此方法首先将网页解析成dom树结构,然后根据对网页进行去噪去除掉网页的噪音节点,最后根据主题内容在页面中的分布特征去进行抽取。(2)提出了一种基于实体链接的主题识别算法,识别网页的主题。将基于知识库的实体链接方法运用于特征抽取,首先利用知识工厂提供的接口对原始语料进行分词并识别出语料中的实体,然后利用实体链接获取实体相关的信息,接着从实体信息中抽取出潜在的特征汇总到候选特征集合中,最后利用信息增益的方式从候选特征集合中挑选出最终的特征集合。最终利用抽取出的特征集合训练朴素贝叶斯分类器对网页主题进行识别。实验表明该方法提高了主题网页识别的准确率。(3)提出了一种改进的基于Best-First算法的主题搜索策略。主题搜索策略是指导主题网络爬虫抓取网页的关键,本文采用改进的基于Best-First算法的主题搜索策略。该策略主要思路是首先从待抓取链接列表中挑选出价值最大的链接进行抓取,然后从抓取到的网页中抽取链接,对这些链接的价值进行评估,如果链接价值小于设定的阈值则丢弃,反之则将其放入按照链接价值排序的待抓取队列中,循环此过程直到抓取深度到达预设值或者待抓取队列为空则停止。
其他文献
支持向量机是一种针对分类和回归问题的新型机器学习方法。它基于结构风险最小化原理,能有效地解决过学习问题,具有良好的推广性和较好的分类精确性。正在成为继模式识别和神
目的观察比较热瘀散和美沙拉嗪对大肠湿热型溃疡性结肠炎的治疗效率和对血清中TNF-α和CRP的调节作用。方法将50例大肠湿热证患者随机分为治疗组和对照组,比较2组治疗前后症
巴豆与牵牛配伍前后的部分药理研究结果表明:合用后泻下作用增强,抗炎作用减弱,免疫功能降低,对胃粘膜的损伤加重,体重减轻,死亡率增加,对理化刺激的反应性降低,对血液的影响不明显。
警察权力与公民权利,是警察法学中非常重要的课题。1995年《中华人民共和国人民警察法》的公布施行,警察权第一次被明确写入我国法律。随着我国法制文明的进步和司法改革的逐步
目的研究多囊卵巢综合征(polycystic ovary syndrome,PCOS)卵巢组织及血清中VEGF、ES、MVD的表达,探讨VEGF、ES、MVD在PCOS的发生发展中的作用。方法用免疫组化SP法检测卵巢组
参加了第一届成都双年展研讨活动的台湾批评家徐文瑞对展览的操作提出了如下的批评:“在理念上,它所标榜的‘架上艺术’究竟是什么意思,既没有清楚而一贯地呈现在画册或其他
从城市空间发展史的角度观察,近几十年来在快速城市化背景下,城市空间发展过快,“城中村”现象就是在这样的背景下形成的,而且还给整个城市带来各种社会和经济问题。本文针对城市
放眼世界文坛,明代中晚期正是欧洲的文艺复兴时期。恰在此时,出现了两位伟大剧作家汤显祖和莎士比亚,他们的剧作各自代表着同一时期东西方戏剧文化的光辉成就,两峰并峙地屹立
专利战略已经成为企业进行市场竞争的重要手段。文章对企业专利战略实施的具体环节进行了研究,分析专利情报搜集、专利分析、专利战略制定、专利纠纷监管、专利申请与维护、
在对国内外高维数据处理领域中的问题和难点进行了分析之后,本文面向多类高维数据,主要研究基于多元统计图的高维数据递阶、分层的降维问题。本文首先分析了高维数据降维的迫