基于半监督聚类的爬虫在线样本生成算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ten_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的普及以及快速增长,多样化的信息资源充斥着互联网。虽然现在有了搜索引擎帮助,可以简化网络资料获取的过程,但很多情况下,用户为了查找某个特定领域的信息还是要耗费大量的时间与精力。为了解决这个问题,主题爬虫应运而生,它可以根据用户自定义的目标主题,以智能化的方式从Web上收集主题相关的页面集,然后采用机器学习或信息检索的方法对结果进行分析处理,将用户最需要的答案提取出来。可以说,不论是要获取网络上的一个特定领域的主题信息,或者是构建个性化的搜索引擎,主题爬虫都已经成为一个首选的方法。而主题爬虫有许多个重要的组成部分,样本生成系统就是其中重要的一个。本文首先介绍了针对主题爬虫的样本生成系统的一些基本概念和主要研究内容。由于主题爬行的核心问题就是对候选URL进行权重判断,所以样本对于主题爬虫是极其重要的。在分析了现有的主题爬虫系统后,发现它们的样本生成算法都存在一定的问题。在对样本页面的特点进行深入研究后,发现它的锚文本内容包含了大量的特征信息。为了在大量的页面中提取出新的样本页面,我们基于页面的锚文本内容设计了计算模型,该模型是以锚文本的主题为基础建立的。然后采用一个半监督的聚类算法,该算法通过计算待测页面与种子样本页面集合之间的相似度来估计前者成为新样本页面的可能性。再通过阈值筛选后,对新得到的样本页面与原样本集合进行合并,完成一个样本增量生成的过程。在进行大量的实验后,发现算法在针对“窄主题”的样本发现过程中,存在准确率下降的问题,针对以上问题产生的原因,提出了一个改进的算法,在改进算法中,我们对于种子样本的模型建立进行了词数量的限制,同时将页面标题及页面正文加入特征模型中,使得样本生成系统可以更加准确的选择新样本页面。基于以上的研究成果,本文设计并实现了一个增量样本生成的实验原型系统,包括了种子样本模型建立,爬行解析、样本增量生成等模块,为进行相关的算法实验和研究提供了一个基础平台。
其他文献
三维真实感地形是可视化系统及虚拟仿真的基本组成部分,随着未来可视化和仿真技术快速发展,具有真实自然视觉效果的三维地形生成和建模技术显得越来越重要。同时随着测绘技术的
随着Internet的发展,计算机网络安全成为越来越受人们关注的问题。为了增强计算机网络的安全性能,人们采用了多种安全技术,包括加密、身份认证、访问控制等,随着入侵检测技术
隆冬时节,寒风料峭:慈善拍卖,情暖沂蒙。2014年12月10日,临沂市慈善总会、山东兰陵美酒股份有限公司大型“捐资助学,情系沂蒙”洞藏酒慈善拍卖会成功举办。350余家爱心企业参
在计算机网络飞速发展的今天,网络安全问题就显得特别重要,入侵检测作为传统安全机制的有益补充,有效地弥补了传统安全防护技术的缺陷,但是面对不断增大的网络流量、日益更新
随着信息技术的发展,作为传统实验教学的一种有效补充,虚拟实验教学已成为加强实践教学、提高教学质量的重要手段。虚拟实验教学系统的研究与开发也已经步入成熟。但是,现有
目的分析2018年北京市吸毒人群艾滋病病毒(human immunodeficiency virus,HIV)、丙型肝炎(hepatitis C virus,HCV)感染状况和危险因素。方法2018年4—8月采用国家艾滋病哨点监测问卷对吸毒人群进行横断面调查,采集调查对象血液标本进行HIV和HCV抗体检测。结果共监测吸毒者2 887人。HIV阳性率为1.2%,HCV阳性率为16.9%。吸毒者中73
两年,为民办实事3万件,这意味着什么?这意味东南早报“一线通”沟通平台功能获得巨大社会效果。这也意味着东南早报“传媒促和谐”的探索已经取得了成效。 For two years, i
本文从目前校企合作的模式入手,首先探讨现有校企合作的模式,并讨论校企合作中存在的问题,进一步探讨校企合作对高职高专院校的教学模式的要求,提出自己的一些见解和建议。
干部的“政声”,通俗的讲就是干部的口碑。通州区委引入公共调查手段,在科学合理考察干部“政声”方面进行了有益探索。 The “political voice” of cadres and the popula
随着时代的不断发展,传统报纸行业的发展受到了限制.所以报纸要想在融媒体背景下得到到全新的发展,就必须做好转型工作,找出工作中的重点,突出新闻编辑的重要性,提高报纸新闻