基于模板的信息抽取关键问题研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:virusniper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论坛帖子和近规范化文本所承载的丰富信息为很多网络应用提供了宝贵的基础数据。同时,基于模板的信息抽取方法具有抽取准确率高、抽取速度快等特点,是业界常用的信息抽取方法。因此本文的研究目标是使用基于模板的方法,从论坛帖子和近规范化文本中抽取信息。论文的主要贡献包括三部分:  第一,针对论坛帖子记录的抽取问题,经过深入分析,本文选择使用模板自动生成方法解决。经典算法RoadRunner的抽取模板使用Html标签序列定位网页信息,导致模板对于标签的变化过于敏感。针对该缺陷,本文提出一种基于标签聚类技术的模板自动生成算法。实验结果表明,该算法具有抽取准确率高、抽取速度快等优点。因此在互联网应用中,使用该算法处理海量异构论坛帖子时,能够较好地满足实际需求。  第二,针对近规范化文本的信息抽取问题,在借鉴经典网页信息抽取算法SoftMealy的基础上,结合基于CRF(Conditional Random Fields,条件随机场)模型的自然语言处理技术,本文提出一种基于有限自动机的中文近规范化文本的信息抽取算法,该算法是一种基于模板的信息抽取方法。实验结果表明,该算法具有人工标注代价小、抽取准确率高的优点。这些特点使得该算法在处理大规模数据时,能够在保证模板维护代价较低的前提下,获得较高的抽取准确率。  第三,依托相关项目背景,基于上述提出的两个算法,并结合实验室自主研发的网络信息采集器,本文设计并实现了金融市场信息获取系统。该系统能够满足项目需求,提高业务人员的工作效率和工作质量,为后期的金融大数据分析提供全面而精细的基础数据,同时系统还具有很好的可扩展性和易用性,为系统未来的升级打下良好的基础。目前该系统已经成功应用于项目中。
其他文献
对于建立在数据仓库之上的决策支持系统,数据的正确性对避免错误的决策是至关重要的,错误的数据将会导致"垃圾进,垃圾出".因此在构建数据仓库时,必须对各种异质数据源进行数
针对Internet和Web媒体的不可预见性所导致的Web应用测试上的困难,该文在对现有的Web应用测试工具和相关测试方法研究的基础上,提出了一种Web应用的自支化测试系统的ROTS.文
随着多媒体技术和计算机技术飞速发展,多媒体CAI广泛应用在现代化教育中,已成为重要的教学手段之一.又由于网络技术和通信技术的进一步发展,将CAI与计算机网络相结合,这就是
该文在研究了现有入侵检测系统和代理技术的基础上,提出一种基于移动代理的入侵检测系统模型,利用移动代理的移动性、灵活性、适应性、跨平台性、代码可重用等特性以克服目前
学位
该论文所设计的应用服务器完全遵循SUN公司的J2EE规范标准,支持多种工业标准和界面引擎,各功能模块均以组件的形式给出,具有良好的可扩展性和与其它产品的兼容性.由于采用JAV
该文在考察了国外相关技术的基础上,设计了基于GPS的车辆监控系统,它由车载GPS信号接收/控制终端(简称车载终端)、通讯网络和监控中心组成,并经比较,选取GSM数字蜂窝移动通信
工作流技术是进入90年代以后计算机领域的一个新的研究热点,使用工作流技术构建的信息管理系统可以充分支持BPR,具有很好的灵活性、良好的可扩展能力等特点。所以对工作流管理
可穿戴智能移动终端的发展,使得接触式手势识别方法难以直接应用于屏幕较小的可穿戴设备。基于超声波的手势识别方法利用可穿戴设备内置的传感器实现对用户手势的识别,具有设备
新信息、新产品、新服务每天都在不断被推上web,同时,用户的种类、数量和关注点也在增加。一方面,用户已经疲于以“大海捞针”的方式搜寻信息,另一方面web网上的服务商也在不断设