简历及软件需求信息抽取方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zhaominjie88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自由文本中有着这样一类信息,它们在内容上是以非结构化方式存储,但是在本质上是遵循着一定的标准,具有结构可分析性。像简历,病历和满足一定书写标准的需求文档等。本文针对简历信息抽取和软件产品线功能需求信息抽取领域,提出了一个基于本体的信息抽取框架。本体的概念分为实体概念和事件概念,并且定义了这些概念之间可能存在的关系。在信息抽取过程中利用了本体中的实体概念、事件概念,概念间的关系和实例。本体的引入保证了结构的一致性,使来源不同的数据都能以统一的视图呈现,使得信息抽取结果更加准确。在简历信息抽取领域,通过对大量简历文本的分析,概括出了一个简历信息的本体模型,本体模型中包括了相关的实体概念,并且将简历中的教育经历、工作经历和获奖经历作为事件概念,设计了概念之间的关系。在信息抽取实现中,在文本预处理阶段,利用概念实例的名称提高中文分词的准确性;在实体信息抽取阶段,利用本体中的实体概念和概念关系,编写抽取规则,抽取出实体概念;在此基础上,结合本体中的事件概念及事件与其构成要素之间的关系,利用已经抽取出来的实体信息,识别出文本中的事件信息,抽取出事件概念。在软件产品线功能需求抽取领域,针对符合IEEE-STD-830标准的需求文档,根据软件产品线需求分析中不同于一般需求分析的特点,提出了一个能体现出需求可变性的EFRF模型。每个功能就是一个可变点,每个可变点中又分析概括出了10个语义case。创建了EFRF本体,将10个语义case和体现不同需求描述的分隔符等信息作为实体概念,事件概念对应可变点,由相应的实体概念所构成。结合Stanford Parser中的依存关系分析和Gate框架中的NE组件,利用本体的概念关系和实例,编写了一系列转换规则,实现了实体信息和事件信息的抽取。
其他文献
国内首创的用于评价固体材料真密度值检测准确度和校正仪器的真密度标准物质的研制方法,包括材料的选择,制备及材料分装前后均匀性的检验,由国内具有一定经验的八家实验室,用不同
介绍了手征性季铵盐作为手征性相转移催化剂在不对称合成中的应用,包括其类型和制备。并讨论了催化剂的结构对立体选择性的影响。
研究了5-Br-PADAP 在 H_2SO_4介质中的质子化,并与 IO_3~-和 SCN~-形成紫红色低配位的三元缔合物。在0.4~0.6 mol·L~(-1)H_2SO_4溶液中,其表观摩尔吸光系数ε_(540)=1.05
二(1′-乙酰基)二茂铁基丙二酮的合成方法;元素分析及IR红外特征吸收;化合物的物理性质。
随着全球化推进和我国经济近几十年的高速发展,加速了各国之间的经济、文化、政治交流,同时也带动了国内酒店业的蓬勃发展。与此同时,国民生活水平也在物质和精神层面上不断
利用缩合反应合成出8种尚未见报道的α-位取代的异色满-4-酮衍生物,其结构均已经红外光谱、核磁共振谱及元素分析证实。
UPS (Uninterrupted Power Supply)是一种电力设备,当电网供电出现紧急故障时,UPS逆变电源可以利用蓄电池为负载提供应急供电。同时UPS也具有改善电网电力质量的作用。我国UP
四(4-二甲氨基苯基)卟啉合成的新方法刘彦钦,韩士田,周基清,谢虹(河北师范学院化学系,石家庄050091)四(4-二甲氨基苯基)卟啉及其季铵盐在光度分析、极谱分析和LB膜研究中得到广泛应用[1,2]。但目前以两酸
随着全球经济一体化和信息技术的发展,全球竞争更为白热化,从而令企业经营所面临的生存和发展环境比以往更为复杂。企业在想尽各种办法去降低资源消耗、提高劳动生产率之后的
用相转移催化的方法合成了苯乙哌啶中间体。探讨了中间体合成的最佳条件,使改进前后的收率由34.6%提高到72.4%。