简历及软件需求信息抽取方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：zhaominjie88

【摘要】

：

自由文本中有着这样一类信息,它们在内容上是以非结构化方式存储,但是在本质上是遵循着一定的标准,具有结构可分析性。像简历,病历和满足一定书写标准的需求文档等。本文针对

【作者】

：

木云鹤

【出处】

：

上海交通大学

【发表日期】

：

2010年期

【关键词】

：

信息抽取本体简历软件产品线功能需求基于规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自由文本中有着这样一类信息,它们在内容上是以非结构化方式存储,但是在本质上是遵循着一定的标准,具有结构可分析性。像简历,病历和满足一定书写标准的需求文档等。本文针对简历信息抽取和软件产品线功能需求信息抽取领域,提出了一个基于本体的信息抽取框架。本体的概念分为实体概念和事件概念,并且定义了这些概念之间可能存在的关系。在信息抽取过程中利用了本体中的实体概念、事件概念,概念间的关系和实例。本体的引入保证了结构的一致性,使来源不同的数据都能以统一的视图呈现,使得信息抽取结果更加准确。在简历信息抽取领域,通过对大量简历文本的分析,概括出了一个简历信息的本体模型,本体模型中包括了相关的实体概念,并且将简历中的教育经历、工作经历和获奖经历作为事件概念,设计了概念之间的关系。在信息抽取实现中,在文本预处理阶段,利用概念实例的名称提高中文分词的准确性;在实体信息抽取阶段,利用本体中的实体概念和概念关系,编写抽取规则,抽取出实体概念;在此基础上,结合本体中的事件概念及事件与其构成要素之间的关系,利用已经抽取出来的实体信息,识别出文本中的事件信息,抽取出事件概念。在软件产品线功能需求抽取领域,针对符合IEEE-STD-830标准的需求文档,根据软件产品线需求分析中不同于一般需求分析的特点,提出了一个能体现出需求可变性的EFRF模型。每个功能就是一个可变点,每个可变点中又分析概括出了10个语义case。创建了EFRF本体,将10个语义case和体现不同需求描述的分隔符等信息作为实体概念,事件概念对应可变点,由相应的实体概念所构成。结合Stanford Parser中的依存关系分析和Gate框架中的NE组件,利用本体的概念关系和实例,编写了一系列转换规则,实现了实体信息和事件信息的抽取。

其他文献

固体真密度标准物质的研制

国内首创的用于评价固体材料真密度值检测准确度和校正仪器的真密度标准物质的研制方法，包括材料的选择，制备及材料分装前后均匀性的检验，由国内具有一定经验的八家实验室，用不同

期刊

固体材料真密度标准物质制备真密度值检测定值

手征性季铵盐在不对称合成中的应用

介绍了手征性季铵盐作为手征性相转移催化剂在不对称合成中的应用,包括其类型和制备。并讨论了催化剂的结构对立体选择性的影响。

期刊

不对称合成季铵盐手征性催化剂

5—Br—PADAP—IO3—SCN^—三元离子缔合物光度法测定微量...

研究了5-Br-PADAP 在 H_2SO_4介质中的质子化,并与 IO_3~-和 SCN~-形成紫红色低配位的三元缔合物。在0.4～0.6 mol·L~(-1)H_2SO_4溶液中,其表观摩尔吸光系数ε_(540)=1.05

期刊