大规模网页信息抽取技术研究

被引量 : 0次 | 上传用户:iserce
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今互联网已成为一个巨大的开放式知识库,包含了海量的信息。人们越来越依赖于从互联网上获取信息,但是这些信息格式复杂多样,同时包含了大量的垃圾信息,所以研究如何自动准确的抽取互联网信息成为重要的研究课题。本文的研究重点是互联网信息抽取的相关关键技术,主要包括大规模网页的采集与整理、网页正文信息抽取和文本信息抽取三方面内容。在网页采集与整理方面,主要任务是建立大规模的网页库,作为信息抽取的数据源。使用网络爬虫实现对网页的大规模采集,通过链接分析判断网页重要性,对采集的网页进行筛选。本文对比分析了HITS算法和PageRank算法的性能,进而确定了PageRank作为链接分析算法。由于要处理的网页规模较大,单机处理能力不足,所以选择并实现了基于Hadoop平台的PageRank算法。在网页信息抽取方面,本文通过分析现有网页信息抽取方法存在的不足及其原因,提出基于多特征融合的网页正文信息抽取方法。与以往选用少量特征的方法相比,本文的方法通过选用多种特征确定正文信息,能更好适应风格多样的网页。通过实验的对比,该方法具有较高正确率,能够满足网页正文信息抽取的实际应用需要。在文本信息抽取方面,研究了相关文献和常用方法,总结了现有方法的特征和适用范围,为了提取文本的主体信息,作者将浅层句法分析和中枢论的思想相结合,提出了基于词性合并的浅层句法分析方法。与以往识别短语确定句子结构的方法相比,该方法通过规则合并词性,简化了句子成分,能够更好的识别句子结构。通过与基于规则与统计的浅层句法分析算法作对比实验,本文的方法在谓语识别上具有较高准确率。并且通过进一步的实验,验证了本文在句子识别上具有较好的效果。通过上述工作,本文实现了对大规模网页的采集以及网页信息的抽取,最后提取出网页的主体信息,结果达到了预期目标。
其他文献
本文介绍在震动三轴试验中,采用试件表面涂液体硅橡胶的方法以消除橡皮膜顺变性的影响.通过涂硅胶和不涂硅胶两类试验的对比表明,橡皮膜顺变性效应阻滞了震动孔隙水压力的发
鲜卑族在中国历史上具有重要的作用和影响。本文论述鲜卑族的历史走向及其与其他民族的融合。出自东胡族的鲜卑诸部,除与鲜卑本部互为融合外,也融合于匈奴、丁零、高车、蠕蠕
<正>2017中央美院毕业季始于初夏,研究生毕业作品展如期拉开帷幕,时入盛夏,本科生毕业作品展如约开启。本、硕、博毕业生同期呈现创作成果,毕业季向全社会开放,全面接受社会
晚清公共生活领域的矛盾与冲突十分激烈,譬如华洋矛盾,全面激化;流氓横行,会党猖獗;厘捐病商,民怨沸腾;宗族涣散,友情变质;尚奢轻俭,践踏礼法;迷信鬼神,截然对立等等。这些在
在经历了日、韩、美剧风浪的冲击之后,中国荧屏又出现了另一道新的风景线—泰国电视剧。2011年5月中国网站进行了日、韩、美、泰最受欢迎的外来电视剧的调查,结果泰剧获得了8
阐述大学生信息消费心理特点,提出必须针对消费性格、消费动机和消费需要等不同类型消费心理,提高高校信息服务质量,并指出应把握影响大学生信息消费的几个因素:群体、能力、
现如今,我国建筑和施工企业发展十分迅速,随之而来的竞争也是很激烈的,在众多的施工企业当中,要想稳定发展,就必须积极进行企业转型,并寻求适合自身发展的长久战略,从而应对
陶瓷模具企业是典型的面向订单、离散型的生产企业,订单到达时间随机且任务量不可预测,同时生产计划稳定性差和生产过程复杂多变、不易控制。企业在订单管理和生产计划控制方
目的:观察电项针疗法对椎-基底动脉系统短暂性脑缺血发作性眩晕的影响。方法:将38例椎-基底动脉系统短暂性脑缺血发作性眩晕的患者随机分为(治疗组)电项针组19例及(对照组)常规
随着近几年来我国经济的发展和新医改政策的推动,人们对医疗服务需求的日渐提高,医疗行业成为一个炙手可热的发展市场,但同时众多资本力量的投入也使得竞争环境非常激烈,而作