大规模网页信息抽取技术研究

被引量 : 0次 | 上传用户：iserce

【摘要】

：

当今互联网已成为一个巨大的开放式知识库,包含了海量的信息。人们越来越依赖于从互联网上获取信息,但是这些信息格式复杂多样,同时包含了大量的垃圾信息,所以研究如何自动准

【作者】

：

刘利

【发表日期】

：

2013年期

【关键词】

：

大规模网页处理信息抽取浅层句法分析正文多特征分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今互联网已成为一个巨大的开放式知识库,包含了海量的信息。人们越来越依赖于从互联网上获取信息,但是这些信息格式复杂多样,同时包含了大量的垃圾信息,所以研究如何自动准确的抽取互联网信息成为重要的研究课题。本文的研究重点是互联网信息抽取的相关关键技术,主要包括大规模网页的采集与整理、网页正文信息抽取和文本信息抽取三方面内容。在网页采集与整理方面,主要任务是建立大规模的网页库,作为信息抽取的数据源。使用网络爬虫实现对网页的大规模采集,通过链接分析判断网页重要性,对采集的网页进行筛选。本文对比分析了HITS算法和PageRank算法的性能,进而确定了PageRank作为链接分析算法。由于要处理的网页规模较大,单机处理能力不足,所以选择并实现了基于Hadoop平台的PageRank算法。在网页信息抽取方面,本文通过分析现有网页信息抽取方法存在的不足及其原因,提出基于多特征融合的网页正文信息抽取方法。与以往选用少量特征的方法相比,本文的方法通过选用多种特征确定正文信息,能更好适应风格多样的网页。通过实验的对比,该方法具有较高正确率,能够满足网页正文信息抽取的实际应用需要。在文本信息抽取方面,研究了相关文献和常用方法,总结了现有方法的特征和适用范围,为了提取文本的主体信息,作者将浅层句法分析和中枢论的思想相结合,提出了基于词性合并的浅层句法分析方法。与以往识别短语确定句子结构的方法相比,该方法通过规则合并词性,简化了句子成分,能够更好的识别句子结构。通过与基于规则与统计的浅层句法分析算法作对比实验,本文的方法在谓语识别上具有较高准确率。并且通过进一步的实验,验证了本文在句子识别上具有较好的效果。通过上述工作,本文实现了对大规模网页的采集以及网页信息的抽取,最后提取出网页的主体信息,结果达到了预期目标。

其他文献

动三轴试验中橡皮膜顺变性的影响及其校正方法

本文介绍在震动三轴试验中,采用试件表面涂液体硅橡胶的方法以消除橡皮膜顺变性的影响.通过涂硅胶和不涂硅胶两类试验的对比表明,橡皮膜顺变性效应阻滞了震动孔隙水压力的发

期刊

橡皮膜孔隙水压力液体硅橡胶动三轴试验校正方法

鲜卑诸部与北方民族的融合

鲜卑族在中国历史上具有重要的作用和影响。本文论述鲜卑族的历史走向及其与其他民族的融合。出自东胡族的鲜卑诸部,除与鲜卑本部互为融合外,也融合于匈奴、丁零、高车、蠕蠕

期刊

拓跋鲜卑慕容鲜卑大兴安岭段氏鲜卑匈奴族秃发乌孤大漠南北饶乐水鲜卑族北方民族

中央美术学院2017届毕业生陶瓷作品赏析

<正>2017中央美院毕业季始于初夏,研究生毕业作品展如期拉开帷幕,时入盛夏,本科生毕业作品展如约开启。本、硕、博毕业生同期呈现创作成果,毕业季向全社会开放,全面接受社会

期刊

陶瓷艺术创作中央美术学院陶瓷器皿作品赏析毕业生

晚清社会公共生活领域的矛盾与冲突——以晚清四大谴责小说和《申报》为中心的考察

晚清公共生活领域的矛盾与冲突十分激烈,譬如华洋矛盾,全面激化;流氓横行,会党猖獗;厘捐病商,民怨沸腾;宗族涣散,友情变质;尚奢轻俭,践踏礼法;迷信鬼神,截然对立等等。这些在

期刊

晚清公共生活矛盾冲突现代化

泰剧热播中国的受众接受心理分析

在经历了日、韩、美剧风浪的冲击之后,中国荧屏又出现了另一道新的风景线—泰国电视剧。2011年5月中国网站进行了日、韩、美、泰最受欢迎的外来电视剧的调查,结果泰剧获得了8

学位

泰国电视剧中国受众中国受众接受心理使用与满足

大学生信息消费心理与高校信息服务质量

阐述大学生信息消费心理特点,提出必须针对消费性格、消费动机和消费需要等不同类型消费心理,提高高校信息服务质量,并指出应把握影响大学生信息消费的几个因素:群体、能力、

期刊

高校大学生信息消费心理信息服务质量

ZTSJQ公司转型发展中的战略研究

现如今,我国建筑和施工企业发展十分迅速,随之而来的竞争也是很激烈的,在众多的施工企业当中,要想稳定发展,就必须积极进行企业转型,并寻求适合自身发展的长久战略,从而应对

学位

ZTSJQ公司转型战略

面向陶瓷模具制造订单与生产计划控制系统设计与开发

陶瓷模具企业是典型的面向订单、离散型的生产企业,订单到达时间随机且任务量不可预测,同时生产计划稳定性差和生产过程复杂多变、不易控制。企业在订单管理和生产计划控制方

学位

陶瓷模具企业信息系统订单管理生产计划生产控制

电项针疗法对椎—基底动脉系统短暂脑缺血发作性眩晕的影响

目的：观察电项针疗法对椎-基底动脉系统短暂性脑缺血发作性眩晕的影响。方法：将38例椎-基底动脉系统短暂性脑缺血发作性眩晕的患者随机分为(治疗组)电项针组19例及(对照组)常规

学位

电项针椎-基底动脉系统短暂性脑缺血发作眩晕

JC医疗器械销售公司营销战略分析

随着近几年来我国经济的发展和新医改政策的推动,人们对医疗服务需求的日渐提高,医疗行业成为一个炙手可热的发展市场,但同时众多资本力量的投入也使得竞争环境非常激烈,而作

学位

中小医疗经营企业营销战略SWOT分析

大规模网页信息抽取技术研究

与本文相关的学术论文