论文部分内容阅读
车辆行驶指令抽取是从非结构化的车辆行驶描述文本中抽取出能够控制车辆行驶的结构化信息,是信息抽取在车辆行驶领域的一个应用。对于一个车辆行驶文本,我们如果想从中抽取出能控制车辆行驶的结构化信息,如控制车辆行驶的方向,速度等,对这些描述车辆行驶信息的词或短语进行定位以及给它们打上属于自身语义的描述符成为关键。本文构建了一个基于自然语言处理的车辆行驶指令自动抽取系统VIAES (vehicle instruction automatic extraction system),该系统由四个模块组成:①语义分类模块:给指令文本中的每个词或短语打上属于自身语义类别的标签;②车辆行驶指令判别模块:对于用户输入的指令进行判别其是否和车辆行驶相关;③结构切分模块:将一个具有多个子指令的指令进行结构切分;④结构化模块:对一个语义分类序列用6个行车基本元素来表示。本文提出一种基于CRF、self-training与词典相结合的方法对车辆行驶文本进行语义分类。实验结果表明,本文的方法能够有效的对车辆行驶文本进行语义分类,整体正确率为92.8432%,并且本文的方法有很好的可移植性。根据得到的语义分类序列,本文利用多种方法来检测一个文本是否是车辆行驶指令,实验结果表明高斯混合模型(GMM)有更好的检测性能。一个用自然语言描述的车辆行驶指令可能是由多个子指令组成,如:“车辆向前行驶500米右转”,其由两个指令组成。结构1为:“向前行驶500米”,结构2为:“右转”。本文把结构切分看做一个序列标注问题.CRF可以有效的解决序列标注问题,利用CRF来对语义分类序列进行结构切分,实验结果表明结构切分标记准确率达到96.89%。结构化模块包含两个部分,一个是起止位置识别,如“从蓟门桥向前行驶到知春路”其中“蓟门桥”是起始点,“知春路”是终止点。本文采用标签传播算法来实现起止位置识别。实验表明其准确率达到92.78%。另一个是结构化,即把一个语义分类序列(起止位置识别后)用6个行车基本元素来表示。6个元素分别是:起始点、速度、距离、方向、动作、终止点。本文构建的车辆行驶指令自动抽取系统VIAES是自然语言处理在人机交互领域的一个具体应用,是走向智能驾驶的一个探索。VIAES系统的整体准确率为89.7%。