论文部分内容阅读
自由文本中有着这样一类信息,它们在内容上是以非结构化方式存储,但是在本质上是遵循着一定的标准,具有结构可分析性。像简历,病历和满足一定书写标准的需求文档等。本文针对简历信息抽取和软件产品线功能需求信息抽取领域,提出了一个基于本体的信息抽取框架。本体的概念分为实体概念和事件概念,并且定义了这些概念之间可能存在的关系。在信息抽取过程中利用了本体中的实体概念、事件概念,概念间的关系和实例。本体的引入保证了结构的一致性,使来源不同的数据都能以统一的视图呈现,使得信息抽取结果更加准确。在简历信息抽取领域,通过对大量简历文本的分析,概括出了一个简历信息的本体模型,本体模型中包括了相关的实体概念,并且将简历中的教育经历、工作经历和获奖经历作为事件概念,设计了概念之间的关系。在信息抽取实现中,在文本预处理阶段,利用概念实例的名称提高中文分词的准确性;在实体信息抽取阶段,利用本体中的实体概念和概念关系,编写抽取规则,抽取出实体概念;在此基础上,结合本体中的事件概念及事件与其构成要素之间的关系,利用已经抽取出来的实体信息,识别出文本中的事件信息,抽取出事件概念。在软件产品线功能需求抽取领域,针对符合IEEE-STD-830标准的需求文档,根据软件产品线需求分析中不同于一般需求分析的特点,提出了一个能体现出需求可变性的EFRF模型。每个功能就是一个可变点,每个可变点中又分析概括出了10个语义case。创建了EFRF本体,将10个语义case和体现不同需求描述的分隔符等信息作为实体概念,事件概念对应可变点,由相应的实体概念所构成。结合Stanford Parser中的依存关系分析和Gate框架中的NE组件,利用本体的概念关系和实例,编写了一系列转换规则,实现了实体信息和事件信息的抽取。