基于半结构化文本信息抽取的简历识别系统

被引量 : 16次 | 上传用户:kkk00011123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在日常生活中,简历是一类常见文本。从功能上看,简历是其作者介绍自己,推销自己,最终达到有效沟通的重要手段;从行文结构上看,它是一种半结构化文本。该类文本应用广泛、数目众多,因此,高效、准确的实现其信息抽取成为一个迫切的需求。在本文中,将就如何实现简历信息抽取进行研究。一方面,从信息抽取效率上看,人工读取显然已经不能满足现实需求,而必须要利用计算机相关技术;另一方面,从准确抽取的可行性上看,根据半结构化文本的特征和文本信息抽取技术,如正则表达式匹配、关联性分析、统计等方法可以使抽取结果满足实际需要,即实现机器智能化识别是可行的。本文的主要研究对象是简历,主要任务是针对以简历文本为代表的半结构化文本进行信息抽取的研究工作,主要研究成果包括三个方面:第一,提出了一种可广泛应用于各类半结构化文本的信息抽取思路;第二,设计了一套切实可用的简历信息抽取算法;第三,实现了一个可用的简历识别系统。从本文的内容结构上看,论文主要分为五章:首先,绪论介绍论文半结构化文本在实际情况中的应用、进行信息抽取研究的必要性及可行性和项目的主要成果;其次,在第二章中根据实际项目需求,阐述了半结构化文本的定义,描述了该类文本的特点,提出了实现有效信息抽取的方案;再次,在第三、四中具体介绍简历信息抽取系统。该系统描述主要包括两个方面:系统设计和算法研究。前者主要是从工程应用上对系统进行描述,后者则是从算法实现上阐述系统的运作原理;最后,在第五章中对本文所论述的内容进行总结。
其他文献
高分子材料的不可生物降解性及其对不可再生化石资源的过度依赖是当今高分子材料发展面临的两大问题[1-2]。本文以能够来源于生物质资源的单体(丁二酸、癸二酸、富马酸、1,4-
本文从技术和艺术发展史来分析,探讨技术与艺术在当代艺术中各自所处的的地位,关系等问题.21世纪后的当代艺术艺术与技术不再分门而列,而不断走向某种“合流”的可能中去.这
本文紧密结合西藏军区部队实际,针对军区车辆管理中存在的偏、散、远等车辆管理难点,在充分考虑军区网络建设现状的基础上,运用成熟的网络、数据库技术、GPS定位技术和先进的射
利用柠檬酸的乳酸菌在食品加工过程中具有重要作用,它们能产生芳香性代谢产物双乙酰,本课题对分离于传统发酵乳制品中的102株乳酸菌进行发酵生产双乙酰的筛选试验。通过邻苯
一、什么叫芽变在生产实践中,有时会发现某一棵树的个别枝条结的果实比其它枝条上结的果实颜色鲜艳,果形好,吃起来味道更好。这种情况,说明这个枝条发生了变化,变得与原来品
目的:临床观察肺康方治疗中晚期肺癌的疗效,实验研究肺康方的抑瘤率及其抗肿瘤转移的作用机理。方法:将94例经细胞学、病理学确诊的原发性支气管肺癌患者采用简单随机对照方
智能交通系统包含许多研究内容,其中车辆定位技术是目前的主要研究与开发热点之一。本文介绍了各种定位方法,阐述了公交车辆定位的特点,着重探讨适用于公交车辆的定位技术。
盛百椒崇拜任正非,也像任正非一样精明、低调、勤勉“进公司10多年了,我从来没有见盛百椒笑过。”百丽的一位老员工回忆说。可是在5月23日百丽国际在香港联交所上市那天,百丽
本文通过对合唱指挥的排练前的准备工作——案头工作的分析与阐述,进一步明确作为合唱指挥,在排练前应该做好哪些方面的准备工作,不然很容易给实际的排练工作带来极大的影响,