基于模板的信息抽取关键问题研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：virusniper

【摘要】

：

论坛帖子和近规范化文本所承载的丰富信息为很多网络应用提供了宝贵的基础数据。同时，基于模板的信息抽取方法具有抽取准确率高、抽取速度快等特点，是业界常用的信息抽取方法。

【作者】

：

彭兴久

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

近规范化文本自然语言处理信息抽取金融市场可扩展性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

论坛帖子和近规范化文本所承载的丰富信息为很多网络应用提供了宝贵的基础数据。同时，基于模板的信息抽取方法具有抽取准确率高、抽取速度快等特点，是业界常用的信息抽取方法。因此本文的研究目标是使用基于模板的方法，从论坛帖子和近规范化文本中抽取信息。论文的主要贡献包括三部分:　　第一，针对论坛帖子记录的抽取问题，经过深入分析，本文选择使用模板自动生成方法解决。经典算法RoadRunner的抽取模板使用Html标签序列定位网页信息，导致模板对于标签的变化过于敏感。针对该缺陷，本文提出一种基于标签聚类技术的模板自动生成算法。实验结果表明，该算法具有抽取准确率高、抽取速度快等优点。因此在互联网应用中，使用该算法处理海量异构论坛帖子时，能够较好地满足实际需求。　　第二，针对近规范化文本的信息抽取问题，在借鉴经典网页信息抽取算法SoftMealy的基础上，结合基于CRF（Conditional Random Fields，条件随机场）模型的自然语言处理技术，本文提出一种基于有限自动机的中文近规范化文本的信息抽取算法，该算法是一种基于模板的信息抽取方法。实验结果表明，该算法具有人工标注代价小、抽取准确率高的优点。这些特点使得该算法在处理大规模数据时，能够在保证模板维护代价较低的前提下，获得较高的抽取准确率。　　第三，依托相关项目背景，基于上述提出的两个算法，并结合实验室自主研发的网络信息采集器，本文设计并实现了金融市场信息获取系统。该系统能够满足项目需求，提高业务人员的工作效率和工作质量，为后期的金融大数据分析提供全面而精细的基础数据，同时系统还具有很好的可扩展性和易用性，为系统未来的升级打下良好的基础。目前该系统已经成功应用于项目中。

其他文献

数据清理系统EDCS的研究与实现

对于建立在数据仓库之上的决策支持系统,数据的正确性对避免错误的决策是至关重要的,错误的数据将会导致"垃圾进,垃圾出".因此在构建数据仓库时,必须对各种异质数据源进行数

学位

数据仓库数据清理近似重复记录识别记录匹配近似字符串匹配

Web应用测试系统ROTS的设计与实现

针对Internet和Web媒体的不可预见性所导致的Web应用测试上的困难,该文在对现有的Web应用测试工具和相关测试方法研究的基础上,提出了一种Web应用的自支化测试系统的ROTS.文

学位

Web应用软件测试通用测试对象分布式组件Web服务J2EEXML

多媒体CAI及远程教育的研究

随着多媒体技术和计算机技术飞速发展,多媒体CAI广泛应用在现代化教育中,已成为重要的教学手段之一.又由于网络技术和通信技术的进一步发展,将CAI与计算机网络相结合,这就是

学位

多媒体CAI课件远程教育实时交互式系统

基于入侵检测理论的系统安全机制研究

该文在研究了现有入侵检测系统和代理技术的基础上,提出一种基于移动代理的入侵检测系统模型,利用移动代理的移动性、灵活性、适应性、跨平台性、代码可重用等特性以克服目前

学位

入侵检测移动代理系统安全综合防御网络安全

基于上下文学习的推荐算法研究

学位

基于J2EE规范的网络平台应用服务器的研究

该论文所设计的应用服务器完全遵循SUN公司的J2EE规范标准,支持多种工业标准和界面引擎,各功能模块均以组件的形式给出,具有良好的可扩展性和与其它产品的兼容性.由于采用JAV

学位

J2EE规范网络平台应用服务器

基于GPS的定位系统车载终端的设计与实现

该文在考察了国外相关技术的基础上,设计了基于GPS的车辆监控系统,它由车载GPS信号接收/控制终端(简称车载终端)、通讯网络和监控中心组成,并经比较,选取GSM数字蜂窝移动通信

学位

全球定位系统单片机短消息业务GPS信号

工作流作业调度系统的研究

工作流技术是进入90年代以后计算机领域的一个新的研究热点，使用工作流技术构建的信息管理系统可以充分支持BPR，具有很好的灵活性、良好的可扩展能力等特点。所以对工作流管理

学位

工作流工作流管理系统分布式系统排队网络负载均衡业务过程重组

融合情境感知信息的超声波手势识别方法研究

可穿戴智能移动终端的发展，使得接触式手势识别方法难以直接应用于屏幕较小的可穿戴设备。基于超声波的手势识别方法利用可穿戴设备内置的传感器实现对用户手势的识别，具有设备

学位

人机交互超声波手势识别情境感知智能移动终端

基于概念格的Web使用日志挖掘及其在个人化技术中的应用

新信息、新产品、新服务每天都在不断被推上web，同时，用户的种类、数量和关注点也在增加。一方面，用户已经疲于以“大海捞针”的方式搜寻信息，另一方面web网上的服务商也在不断设

学位

web使用日志挖掘个人化系统推荐引擎椎荐集概念格

基于模板的信息抽取关键问题研究

与本文相关的学术论文