论文部分内容阅读
论坛帖子和近规范化文本所承载的丰富信息为很多网络应用提供了宝贵的基础数据。同时,基于模板的信息抽取方法具有抽取准确率高、抽取速度快等特点,是业界常用的信息抽取方法。因此本文的研究目标是使用基于模板的方法,从论坛帖子和近规范化文本中抽取信息。论文的主要贡献包括三部分: 第一,针对论坛帖子记录的抽取问题,经过深入分析,本文选择使用模板自动生成方法解决。经典算法RoadRunner的抽取模板使用Html标签序列定位网页信息,导致模板对于标签的变化过于敏感。针对该缺陷,本文提出一种基于标签聚类技术的模板自动生成算法。实验结果表明,该算法具有抽取准确率高、抽取速度快等优点。因此在互联网应用中,使用该算法处理海量异构论坛帖子时,能够较好地满足实际需求。 第二,针对近规范化文本的信息抽取问题,在借鉴经典网页信息抽取算法SoftMealy的基础上,结合基于CRF(Conditional Random Fields,条件随机场)模型的自然语言处理技术,本文提出一种基于有限自动机的中文近规范化文本的信息抽取算法,该算法是一种基于模板的信息抽取方法。实验结果表明,该算法具有人工标注代价小、抽取准确率高的优点。这些特点使得该算法在处理大规模数据时,能够在保证模板维护代价较低的前提下,获得较高的抽取准确率。 第三,依托相关项目背景,基于上述提出的两个算法,并结合实验室自主研发的网络信息采集器,本文设计并实现了金融市场信息获取系统。该系统能够满足项目需求,提高业务人员的工作效率和工作质量,为后期的金融大数据分析提供全面而精细的基础数据,同时系统还具有很好的可扩展性和易用性,为系统未来的升级打下良好的基础。目前该系统已经成功应用于项目中。