论文部分内容阅读
当今互联网已成为一个巨大的开放式知识库,包含了海量的信息。人们越来越依赖于从互联网上获取信息,但是这些信息格式复杂多样,同时包含了大量的垃圾信息,所以研究如何自动准确的抽取互联网信息成为重要的研究课题。本文的研究重点是互联网信息抽取的相关关键技术,主要包括大规模网页的采集与整理、网页正文信息抽取和文本信息抽取三方面内容。在网页采集与整理方面,主要任务是建立大规模的网页库,作为信息抽取的数据源。使用网络爬虫实现对网页的大规模采集,通过链接分析判断网页重要性,对采集的网页进行筛选。本文对比分析了HITS算法和PageRank算法的性能,进而确定了PageRank作为链接分析算法。由于要处理的网页规模较大,单机处理能力不足,所以选择并实现了基于Hadoop平台的PageRank算法。在网页信息抽取方面,本文通过分析现有网页信息抽取方法存在的不足及其原因,提出基于多特征融合的网页正文信息抽取方法。与以往选用少量特征的方法相比,本文的方法通过选用多种特征确定正文信息,能更好适应风格多样的网页。通过实验的对比,该方法具有较高正确率,能够满足网页正文信息抽取的实际应用需要。在文本信息抽取方面,研究了相关文献和常用方法,总结了现有方法的特征和适用范围,为了提取文本的主体信息,作者将浅层句法分析和中枢论的思想相结合,提出了基于词性合并的浅层句法分析方法。与以往识别短语确定句子结构的方法相比,该方法通过规则合并词性,简化了句子成分,能够更好的识别句子结构。通过与基于规则与统计的浅层句法分析算法作对比实验,本文的方法在谓语识别上具有较高准确率。并且通过进一步的实验,验证了本文在句子识别上具有较好的效果。通过上述工作,本文实现了对大规模网页的采集以及网页信息的抽取,最后提取出网页的主体信息,结果达到了预期目标。