主题搜索网络爬虫的设计与研究

被引量 : 0次 | 上传用户:laopengyou123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网规模的不断扩大,网络用户越来越依靠搜索引擎等网络工具来从网络上获取他们想要的信息。然而,通用搜索引擎面对日益增长的网络规模以及人们对个性化信息检索的需要往往力不从心。主题搜索引擎,亦称垂直搜索引擎通过把搜索应用限制在特定的主题上,提供个性化,专业化的搜索服务,提高了服务质量,同时也节约了计算及网络资源。论文围绕网页和主题的特征提取方法、特征权重计算方法以及链接上下文长度对主题网络爬虫性能影响的问题开展了以下的研究工作:针对经典的MI互信息方法倾向于选择低频词条而CHI统计方法倾向于选择高频词条的问题,提出一种新的EXM方法,该方法加入类内词频和分散度因素,把两者结合。实验结果表明新方法能有效提升文本分类的准确率达5%至12%,可用于网络爬虫主题特征提取。针对二元特征提取优势率算法OR由于忽视词频因素而在中低维数情况下性能较差的问题,提出EOR算法。该算法引入了类内词频及分散度因素,提升了中低维数下文本分类的准确度5%左右,可以有效降低文本向量的维数。把EOR特征提取过程中计算得到的词条EOR分值与词频TF结合得到特征词权重计算方法TF-EOR。实验表明,该方法比传统TF-IDF能提升网络爬虫抓取精确度4%左右,与同类型的TF-MI和TF-CHI相比也略有优势。应用EOR特征提取方法和TF-EOR权重计算方法改造通用网络爬虫Larbin,使其成为主题网络爬虫Tlarbin。性能评测表明Tlarbin能有效地抓取主题相关网页,其抓取准确率优于朴素最佳优先搜索、Shark Search及Larbin原型。在Tlarbin平台上,对URL上下文作为URL相关度预测因子对爬虫性能的影响做了定量分析。实验结果表明,URL上下文在考虑父网页相关度因素的情况下对爬虫性能基本没有影响,而在不考虑父网页相关度时随着长度增加能不断改进爬虫的抓取准确率。
其他文献
介绍新钢南大门区域工程车全方位立体式洗车的工作过程、系统组成及设计要点。
土地资源的可持续利用是实现我国社会与国民经济可持续发展的基本保证。本文结合我国土地资源的基本特征、当前土地利用现状与问题,以我国21 世纪土地资源可持续利用的指导思想
【正】拙作《明治维新的系统效应》分析了明治维新总的系统效应,本文对各个子系统的效应加以具体分析。 一、暴力革命系统 明治维新何以使幕府垮台,新政权何以诞生呢?这是
会计选择研究,是实证会计理论研究的核心内容之一。近年来,国内外学者围绕该内容进行了大量卓有成效的研究。纵观这些研究,多以广义的会计政策(包括会计估计)选择为研究对象
本文通过检索国外相关文献,对采用PK/PD方法对降糖药物及其制剂进行评价的研究进行归纳整理。以介绍药代动力学/药效动力学(pharmacokinetic/pharmacodynamic,PK/PD)模型在降
现代农业是中国农业发展的主流和方向。我国现阶段的农业正处于传统农业向现代农业的过渡阶段,发展现代农业是提高农业劳动生产率,致富农民,缩小城乡差距,协调城乡关系,优化
本文根据巴塞尔宣言第29,30条,通过比较中美两国的临床药学发展现状,分析临床药师在临床药物治疗中的责任和作用,并指出我国临床药学发展存在的问题和缺陷。以探讨我国临床药
近年来,我国上市公司非效率投资问题非常严重,人们普遍认为企业过度投资行为是导致投资无效率的重要原因之一。过度投资行为主要指企业将自由现金流投资于负N PV(Net Present
近年来,随着抗生素和免疫抑制剂的广泛使用,耐药菌株已经成为引起临床感染最为常见的病原菌。特别是医院内部耐药菌株的感染,使得病死率大幅度的增加,一些综合性的大医院的医
目的:探讨住院患者用药医嘱干预内容,对不合理情况进行分析。方法:利用住院医嘱点评程序,对我院心血管病房和神经外科十病房近一个月的用药医嘱进行逐条查找,分析存在的问题