基于树型条件随机场的特定域事件提取方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:basilmhb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件提取是指把非结构化文本中出现的事件的时间,地点,事件主体和事件的具体内容提取出来。随着垂直搜索引擎的出现,事件提取作为信息提取的一个研究方面,近年来成为研究的热点,并被应用到信息提取的许多领域,如信息检索、垂直搜索引擎等。本论文主要针对web上存在的大量简历类型的网页,研究如何利用文本分类技术自动识别简历并下载;并在此基础上进一步研究如何利用条件随机场从非结构化的简历文本提取出结构化的事件信息。论文首先对当前常用的分类方法和事件提取模型进行了总结和回顾,比较和研究了当前文本分类和事件提取研究的进展、各自常用的方法和模型。其次,本文结合社会标注及传统的文档向量模型技术提出了一种融合社会标注和文本词频的新的文档向量表示模型,利用新的模型构建文档的表示并结合传统的文本分类方法可有效地提高分类精度。最后,通过分析简历信息具有层次结构这一特点,利用树型条件随机场来建模简历文本中的层次化信息,并实现了基于树型条件随机场提取简历文本中事件的原型系统。本文还针对所提出的融合社会标注及文本词频的向量模型和基于树型条件随机场的事件提取算法做了大量的文本分类实验和事件提取实验。实验结果显示,本文所提出的方法针对特定领域的文本分类及事件提取具有较好的效果。
其他文献
中医药学是我国具有独特理论体系和原创思维的医学体系,在长期的临床实践研究中形成了诸多创新性的理论如方剂配伍和药物配伍理论等。作为以复方为主的处方治疗体系,实现不同药物合理配伍,从而形成一个具备多个药物及其剂量合理组合的方剂。其中,药物配伍和剂量配伍是两个重要因素,研究两者的配伍模式,从而实现药物更好的配伍以达到个性化治疗,是中药配伍研究的主要目标。当前,随着大规模临床数据的积累,如何以人机结合的方
随着多媒体技术的发展和网络的不断普及,数字多媒体成为广受人们欢迎的工作和娱乐内容,在人们享受数字化给生活工作带来便捷的同时,易于拷贝和分发的数字作品也给版权保护带
作业车间调度问题是公认的最难的组合优化问题之一,也是一个典型的NP 难度问题。研究作业车间调度问题具有很高的理论价值。同时,作业车间调度问题是实际工业生产调度问题的抽
随着Internet和信息技术的高速发展,XML文档作为数据存储介质应用范围越来越广泛,XML数据的重复元素检测问题已经引起了从事数据库和Internet应用等研究人员的大量关注。而XM
随着数字信息的爆炸式增长和应用需求的不断提高,企业比以往任何时候都更加依赖于数据。如何对数据进行备份和灾难恢复已成为存储业界研究的热点。传统的数据保护技术已经越来
ERP是整合了企业管理理念、业务流程、基础数据、人力物力、计算机硬件和软件于一体的企业资源管理系统。本文首先阐述了ERP的原理和思想以及发展的历史阶段,论述了中小企业
数据竞争是多线程程序中最复杂的一种并发错误。由于线程调度与多线程程序执行顺序的不确定,导致数据竞争的检测变得异常困难。动态检测数据竞争是指在程序执行过程中实时监
信息技术在当今企业生产活动中的作用越来越重要,实现它的主要方式是企业资源规划(Enterprise Resource Planning)。ERP系统要具有相当的灵活性和扩展性,才能帮助企业在瞬息
出于隔离性和安全性等考虑,虚拟机间的通信过程在通信路径上引入了前后端设备驱动,导致虚拟机间的通信性能与传统的进程间通信相差甚远,而虚拟机间通信的结果仅把数据从内存
飞速发展的网络革命正在改变着人类的生活,高速的通讯系统的研发给IPTV(Internet Protocol Television)的问世和普及带来福音。目前,IPTV正在逐渐成为网络中一项重要的业务走