论文部分内容阅读
摘 要: 实时交通信息在交通诱导中有着重要的作用,然而与之不相适应的是大量的实时语言交通信息没得到有效应用。针对这一问题,分析了自然语言交通信息的表达特点,得出了自然语言交通信息中地理位置的表达方式,提出了针对自然语言交通信息的最大匹配分词算法;提出了自然语言交通信息与位置信息的匹配融合方法,并通过实例对该方法进行了测试,结果表明,该方法能对自然语言交通信息与交通网络进行有效的融合。
关键词: 实时交通信息; 信息融合; 自然语言理解; 交通网络
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2014)02-42-03
0 引言
随着经济的稳步发展、人口的持续增长和城市化进程的加快,城市机动车拥有量和道路交通量急剧增加,交通拥堵问题日益严重,由此引发的交通安全和环境污染,已严重影响了人们的日常出行,并成为制约城市社会和经济发展的瓶颈问题。如何让出行变得更为有效、方便和快捷已成为世界难题。调节出行需求,进行实时动态交通诱导,就成为交通拥堵问题解决的有效途径[1-2]。
动态交通诱导依赖于实时交通信息。实时交通信息实现动态路况信息的实时播报,传达道路拥挤、通畅等信息,可以更好地指导人们的出行,一直以来备受国内外关注。移动通讯、互联网技术等现代通信技术使得实时交通信息呈现了信息获取的广泛性、信息载体的多样性和信息发布的高频性等特点,如交通广播电台每天以一定的频率播送大量的实时交通信息,因特网也发布大量的实时交通信息,出行者可以方便地接收到这些信息。然而与之不相适应的是,出行者获取自然语言实时交通信息后只能凭经验调整行驶路径,这使得大量的实时交通信息使用效率极低。原因之一是自然语言交通信息是以语义来表达地理位置,信息的接收者不能准确地判断实时交通信息对交通状况的影响,所以要提高自然语言交通信息的使用效率,就要使自然语言交通信息与交通网络融合,使自然语言交通信息能与导航软件结合,准确地对出行者进行诱导。
交通信息融合方面的研究也日益受到学者的重视[3-8]。杨兆升等应用神经网络算法,融合固定检测器和浮动车检测数据进行交通事件检测,其检测效果达国内先进水平[3];陈传彬等对城市路网信息融合的关键技术进行了研究[4];孔庆杰探讨了信息融合理论及其在交通监控信息处理中的应用,研究了交通行为监控系统中多源异类传感器信息融合、多特征信息融合的模型和算法[5]。
本文针对目前自然语言实时交通信息利用效率低的情况,研究自然语言实时交通信息的解析方法,并在此基础上,提出了自然语言交通信息与空间位置信息的融合方法。分析了自然语言交通信息的表达方式;设计了针对自然语言交通信息的切分算法,提出了自然语言交通信息与路网位置信息的融合方法;以南京市城市交通网络作为实验对象,验证了文中提出融合算法。最后对所研究的内容作了进一步总结。
1 自然语言交通信息的表达
交通网络是由道路、隧道、桥梁等抽象的边和交叉口、兴趣点(POI)等抽象成的节点组成的有向网络。实际上道路是由多个车道组成的复杂对象,不同的车道具有丰富的交通特征信息。在车辆导航或网络分析中,要考虑的因素往往与车道密切相关。同一条道路的不同方向车道往往具有不同的交通特征,如交通量的变化等,交通拥堵也往往只在道路的单向车道上发生;同一道路不同方向车道与邻接车道往往有着不同的拓扑关系,为此,我们把同向车道抽象成一条有向边。
实时交通信息主要是指交通网络上所有物体所具有的特定信息,主要包括交通流状态特征信息(流量、速度、密度等),交通紧急事故信息,环境状况信息,交通动态控制管理信息等[3]。实时交通信息具有以下主要特征:①具有时态性,实时交通信息动态表达道路的交通状态;②具有线性分布特征,交通信息依附于交通网络,可以用线性定位参考系来表达事件发生的相对位置。实时自然语言交通信息是以自然语言来描述道路上交通状况的实时变化,自然也具有以上两个特点。自然语言交通信息的格式一般是:地点+交通事件,如:玄武湖隧道新庄入口多车追尾,其中玄武湖隧道新庄入口为地点,多车追尾为事件。
自然语言交通信息的定位方式是基于参照物的线性参考方法(linear reference method)。线性参考方法是根据定位参照物确定线性分布事件在线性网络中的位置,定位参照物主要有路口、桥梁、道路、隧道、POI等现实地理空间要素。定位的具体形式如表1所示。
2 自然语言交通信息与交通网络的融合
自然语言理解可分为两个方面,一是口语的理解(如语音识别等);二是文本语言的理解(如信息检索等)。本文主要研究文本自然语言交通信息的理解。自然语言交通信息与普通自然语言相比,主要有以下几个特点:①使用的词汇量比较少,主要是有关于交通方面的词汇;②词义较明确,歧义较少;③句型变化较少,多为陈述句。因此对自然语言交通信息进行解析相对较容易。
2.1 自然语言交通信息的分词算法
汉语是一种词根语,主要特点有:①汉语缺乏形态变化,没有英语的性、数、格的变化标志,因此词本身不能显示与其他词的语法关系;②汉语结构松散;③虚词是主要的语法手段;④汉语词与词之间没有明显的形态间隔[9]。这些特点决定了汉语的自动分词是汉语自然语言理解的首要任务,分词是进行语义分析的基础。
2.1.1 词库的建立
词库是自然语言理解的核心部分,词库的建立直接影响着自然语言交通信息的正确理解。不同的语言理解系统对信息处理的目的和应用不同,词库的组成类型也不同。自然语言交通信息理解所涉及的词库包括地址词库,如道路名、机构名、POI等;空间关系词库,如拓扑关系、方向、偏移等;交通事件词库,如车流量、相撞等;基础词库,指在语言理解过程前预先加载的领域相关词汇,包括动词、量词、介词等。 2.1.2 自动分词处理分词算法
汉语自动分词是自然语言理解的关键因素。目前的自动分词算法主要有:一是机械匹配法,如正向最大匹配法(MM)、逆向最大匹配法等[10]。机械匹配法不需要任何的词法、句法、语义知识,不需要复杂的数据结构,执行起来简单,但要求有一个很大的匹配字典,不能很好地解决歧义问题。二是基于统计的分词方法,如N元文法模型、隐Markov模型、最大熵模型等[11]。此类分词法不需要一个机器可读词典,但需要大量的训练文本。三是人工智能法,如神经网络模型分词法、专家系统分词法等[12]。
正向最大匹配法是一种常用的分词方法,是基于一定词库的机械分词方法,其核心思想是长词优先原则,即在语句切分过程中字数较多的词优先被匹配切分,以得到的词汇数量最少时为最佳切分结果。其切分步骤为:假定最大词长为M,首先从待切分句子的句首取长度为M的子字串进行匹配,如果匹配成功则切分此字串为一个词,如果匹配不成功则减去字串的最后一个字继续进行匹配,按此方法直至匹配成功或字串减至为空;按此过程对下一个子字串进行匹配切分直至句尾。此方法设计思想简单,在计算机上容易实现,且时间复杂度较低,但是最大词长M的大小难以确定,定得过大,则切分时匹配效率太低,算法的时间复杂度明显增加;M定得太小,则会对切分的正确率产生影响。
2.2 自然语言交通信息与交通网络的融合方法
自然语言交通信息中的空间位置信息是模糊的,并没有坐标信息,为此对于得到的自然语言交通信息要能对交通流进行诱导,必须让自然语言交通信息与路网进行融合,只有使自然语言交通信息具有了地理位置信息才能分析此位置发生的交通事件对交通流的影响。
如上述分析,交通网络是由边和节点组成,交通事件是发生在路网上。自然语言交通信息的定位方式有以道路交叉口(路口)或道路名来定位,有以离网络边或网络节点很近的地物来描述交通事件发生的地点。道路交叉口(路口)对应着交通网络上的节点,对于以道路交叉口(路口)来定位的交通信息可以直接与交通网络匹配融合;对于偏移交叉口(路口)一定距离的,可以沿着网络边按偏移方向加上偏移量然后取得定位点的坐标。交通事件都是发生在网络中,并不是发生在地物这个位置上,人们只是习惯于用最近的地物表示发生交通事件的位置,由于地物并不对应着网络上的节点或边,所以对于以地物定位的自然语言交通信息首先要找到与地物最近的网络边或节点,如果没有偏移量就直接获取与交通网络最近点的坐标,如果有偏移量就从最近点按偏移方向加上偏移量然后取得定位点的坐标。具体的匹配融合方法如图1所示。
3 实验
以南京市交通网络为例,南京市交通网络由2668条路段和1677个节点组成(如图2所示)。选择2012年9月8日早上8点半到下午17点半这一时间段内南京交通广播电台播送的实时交通信息,共计327条。
4 结束语
自然语言交通信息是以自然语言表达与交通相关的信息,用来说明交通事件中反映出的交通特征。本文通过对大量自然语言交通信息的分析,总结出自然语言交通信息的表达方式,设计了一最大匹配分词算法来对自然语言交通信息进行切分处理,此方法不仅遵照长词优先的原则,而且提高了切分的效率。本文还提出了自然语言交通信息与交通网络的位置信息进行融合的方法。
充分利用实时语言交通信息对提高交通网络的效率有着重要的作用,对缓解交通的拥堵具有一定的意义。充分利用各渠道发布的实时交通信息,发展实时动态导航技术,是智能交通导航的发展趋势和主要形式。本文的研究有望实现大量的实时自然语言交通信息能高效地运用于出行诱导。
在交通网络中,由于道路的修建等原因,常出现地名的增加或者更改,使得在进行自然语言理解时会出现未登录词,这会影响分词的准确性,为此在自然语言交通信息的解析中,要处理好未登录词的切分。自然语言交通信息与空间信息融合后,如何用来预测行程时间等还需进一步研究。
参考文献:
[1] 张海东.实时路况分析系统在治理交通拥堵中的应用[J].计算机时代,2013.7:40-42
[2] 黄睿.Dijkstra算法在物流中的优化与实现[J].计算机时代,2012.2:10-12
[3] 杨兆升.基础交通信息融合技术及其应用[M].中国铁道出版社,2005.
[4] 陈传彬,陆锋,励惠国等.自然语言表达实时路况信息的路网匹配融合技术[J].中国图象图形学报,2009.14(8):1669-1676
[5] 孔庆杰.信息融合理论及其在交通监控信息处理中的应用[D].上海交通大学,2010.
[6] Wang Zhengyou, Guo Chunhua. Intelligent Transportation System(ITS) information fusion:Concept, analysis and implementation[C]. IEEE International Conference on Service Operations and Logistics, and Informatics,2006:999-1003
[7] Nour-Eddin El Faouzi, Henry Leung, Ajeesh Kurian. Data fusion inintelligent transportation systems progress and challenge a survey[J]. Information Fusion,2011.12(1):4-10
[8] Qing-Jie Kong, Zhipeng Li, Yikai Chen, et al. An approach to urban traffic state estimation by fusion multisource information[J]. IEEE Transactions on Intelligent Transportation Systems,2009.10(3):499-511
[9] 张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005.17(1):138-143
[10] 赵曾贻,陈天娥,朱兰.一种基于语词的分词方法[J].苏州大学学报,2002.18(3):44-48
[11] 石佳,蔡皖东.基于N元语法的汉语自动分词系统研究[J]. 微电子学与计算机,2009.26(7):98-101
[12] 尹锋.基于神经网络的汉语自动分词系统的设计与分析[J].情报学报,1998.17(1):41-49
关键词: 实时交通信息; 信息融合; 自然语言理解; 交通网络
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2014)02-42-03
0 引言
随着经济的稳步发展、人口的持续增长和城市化进程的加快,城市机动车拥有量和道路交通量急剧增加,交通拥堵问题日益严重,由此引发的交通安全和环境污染,已严重影响了人们的日常出行,并成为制约城市社会和经济发展的瓶颈问题。如何让出行变得更为有效、方便和快捷已成为世界难题。调节出行需求,进行实时动态交通诱导,就成为交通拥堵问题解决的有效途径[1-2]。
动态交通诱导依赖于实时交通信息。实时交通信息实现动态路况信息的实时播报,传达道路拥挤、通畅等信息,可以更好地指导人们的出行,一直以来备受国内外关注。移动通讯、互联网技术等现代通信技术使得实时交通信息呈现了信息获取的广泛性、信息载体的多样性和信息发布的高频性等特点,如交通广播电台每天以一定的频率播送大量的实时交通信息,因特网也发布大量的实时交通信息,出行者可以方便地接收到这些信息。然而与之不相适应的是,出行者获取自然语言实时交通信息后只能凭经验调整行驶路径,这使得大量的实时交通信息使用效率极低。原因之一是自然语言交通信息是以语义来表达地理位置,信息的接收者不能准确地判断实时交通信息对交通状况的影响,所以要提高自然语言交通信息的使用效率,就要使自然语言交通信息与交通网络融合,使自然语言交通信息能与导航软件结合,准确地对出行者进行诱导。
交通信息融合方面的研究也日益受到学者的重视[3-8]。杨兆升等应用神经网络算法,融合固定检测器和浮动车检测数据进行交通事件检测,其检测效果达国内先进水平[3];陈传彬等对城市路网信息融合的关键技术进行了研究[4];孔庆杰探讨了信息融合理论及其在交通监控信息处理中的应用,研究了交通行为监控系统中多源异类传感器信息融合、多特征信息融合的模型和算法[5]。
本文针对目前自然语言实时交通信息利用效率低的情况,研究自然语言实时交通信息的解析方法,并在此基础上,提出了自然语言交通信息与空间位置信息的融合方法。分析了自然语言交通信息的表达方式;设计了针对自然语言交通信息的切分算法,提出了自然语言交通信息与路网位置信息的融合方法;以南京市城市交通网络作为实验对象,验证了文中提出融合算法。最后对所研究的内容作了进一步总结。
1 自然语言交通信息的表达
交通网络是由道路、隧道、桥梁等抽象的边和交叉口、兴趣点(POI)等抽象成的节点组成的有向网络。实际上道路是由多个车道组成的复杂对象,不同的车道具有丰富的交通特征信息。在车辆导航或网络分析中,要考虑的因素往往与车道密切相关。同一条道路的不同方向车道往往具有不同的交通特征,如交通量的变化等,交通拥堵也往往只在道路的单向车道上发生;同一道路不同方向车道与邻接车道往往有着不同的拓扑关系,为此,我们把同向车道抽象成一条有向边。
实时交通信息主要是指交通网络上所有物体所具有的特定信息,主要包括交通流状态特征信息(流量、速度、密度等),交通紧急事故信息,环境状况信息,交通动态控制管理信息等[3]。实时交通信息具有以下主要特征:①具有时态性,实时交通信息动态表达道路的交通状态;②具有线性分布特征,交通信息依附于交通网络,可以用线性定位参考系来表达事件发生的相对位置。实时自然语言交通信息是以自然语言来描述道路上交通状况的实时变化,自然也具有以上两个特点。自然语言交通信息的格式一般是:地点+交通事件,如:玄武湖隧道新庄入口多车追尾,其中玄武湖隧道新庄入口为地点,多车追尾为事件。
自然语言交通信息的定位方式是基于参照物的线性参考方法(linear reference method)。线性参考方法是根据定位参照物确定线性分布事件在线性网络中的位置,定位参照物主要有路口、桥梁、道路、隧道、POI等现实地理空间要素。定位的具体形式如表1所示。
2 自然语言交通信息与交通网络的融合
自然语言理解可分为两个方面,一是口语的理解(如语音识别等);二是文本语言的理解(如信息检索等)。本文主要研究文本自然语言交通信息的理解。自然语言交通信息与普通自然语言相比,主要有以下几个特点:①使用的词汇量比较少,主要是有关于交通方面的词汇;②词义较明确,歧义较少;③句型变化较少,多为陈述句。因此对自然语言交通信息进行解析相对较容易。
2.1 自然语言交通信息的分词算法
汉语是一种词根语,主要特点有:①汉语缺乏形态变化,没有英语的性、数、格的变化标志,因此词本身不能显示与其他词的语法关系;②汉语结构松散;③虚词是主要的语法手段;④汉语词与词之间没有明显的形态间隔[9]。这些特点决定了汉语的自动分词是汉语自然语言理解的首要任务,分词是进行语义分析的基础。
2.1.1 词库的建立
词库是自然语言理解的核心部分,词库的建立直接影响着自然语言交通信息的正确理解。不同的语言理解系统对信息处理的目的和应用不同,词库的组成类型也不同。自然语言交通信息理解所涉及的词库包括地址词库,如道路名、机构名、POI等;空间关系词库,如拓扑关系、方向、偏移等;交通事件词库,如车流量、相撞等;基础词库,指在语言理解过程前预先加载的领域相关词汇,包括动词、量词、介词等。 2.1.2 自动分词处理分词算法
汉语自动分词是自然语言理解的关键因素。目前的自动分词算法主要有:一是机械匹配法,如正向最大匹配法(MM)、逆向最大匹配法等[10]。机械匹配法不需要任何的词法、句法、语义知识,不需要复杂的数据结构,执行起来简单,但要求有一个很大的匹配字典,不能很好地解决歧义问题。二是基于统计的分词方法,如N元文法模型、隐Markov模型、最大熵模型等[11]。此类分词法不需要一个机器可读词典,但需要大量的训练文本。三是人工智能法,如神经网络模型分词法、专家系统分词法等[12]。
正向最大匹配法是一种常用的分词方法,是基于一定词库的机械分词方法,其核心思想是长词优先原则,即在语句切分过程中字数较多的词优先被匹配切分,以得到的词汇数量最少时为最佳切分结果。其切分步骤为:假定最大词长为M,首先从待切分句子的句首取长度为M的子字串进行匹配,如果匹配成功则切分此字串为一个词,如果匹配不成功则减去字串的最后一个字继续进行匹配,按此方法直至匹配成功或字串减至为空;按此过程对下一个子字串进行匹配切分直至句尾。此方法设计思想简单,在计算机上容易实现,且时间复杂度较低,但是最大词长M的大小难以确定,定得过大,则切分时匹配效率太低,算法的时间复杂度明显增加;M定得太小,则会对切分的正确率产生影响。
2.2 自然语言交通信息与交通网络的融合方法
自然语言交通信息中的空间位置信息是模糊的,并没有坐标信息,为此对于得到的自然语言交通信息要能对交通流进行诱导,必须让自然语言交通信息与路网进行融合,只有使自然语言交通信息具有了地理位置信息才能分析此位置发生的交通事件对交通流的影响。
如上述分析,交通网络是由边和节点组成,交通事件是发生在路网上。自然语言交通信息的定位方式有以道路交叉口(路口)或道路名来定位,有以离网络边或网络节点很近的地物来描述交通事件发生的地点。道路交叉口(路口)对应着交通网络上的节点,对于以道路交叉口(路口)来定位的交通信息可以直接与交通网络匹配融合;对于偏移交叉口(路口)一定距离的,可以沿着网络边按偏移方向加上偏移量然后取得定位点的坐标。交通事件都是发生在网络中,并不是发生在地物这个位置上,人们只是习惯于用最近的地物表示发生交通事件的位置,由于地物并不对应着网络上的节点或边,所以对于以地物定位的自然语言交通信息首先要找到与地物最近的网络边或节点,如果没有偏移量就直接获取与交通网络最近点的坐标,如果有偏移量就从最近点按偏移方向加上偏移量然后取得定位点的坐标。具体的匹配融合方法如图1所示。
3 实验
以南京市交通网络为例,南京市交通网络由2668条路段和1677个节点组成(如图2所示)。选择2012年9月8日早上8点半到下午17点半这一时间段内南京交通广播电台播送的实时交通信息,共计327条。
4 结束语
自然语言交通信息是以自然语言表达与交通相关的信息,用来说明交通事件中反映出的交通特征。本文通过对大量自然语言交通信息的分析,总结出自然语言交通信息的表达方式,设计了一最大匹配分词算法来对自然语言交通信息进行切分处理,此方法不仅遵照长词优先的原则,而且提高了切分的效率。本文还提出了自然语言交通信息与交通网络的位置信息进行融合的方法。
充分利用实时语言交通信息对提高交通网络的效率有着重要的作用,对缓解交通的拥堵具有一定的意义。充分利用各渠道发布的实时交通信息,发展实时动态导航技术,是智能交通导航的发展趋势和主要形式。本文的研究有望实现大量的实时自然语言交通信息能高效地运用于出行诱导。
在交通网络中,由于道路的修建等原因,常出现地名的增加或者更改,使得在进行自然语言理解时会出现未登录词,这会影响分词的准确性,为此在自然语言交通信息的解析中,要处理好未登录词的切分。自然语言交通信息与空间信息融合后,如何用来预测行程时间等还需进一步研究。
参考文献:
[1] 张海东.实时路况分析系统在治理交通拥堵中的应用[J].计算机时代,2013.7:40-42
[2] 黄睿.Dijkstra算法在物流中的优化与实现[J].计算机时代,2012.2:10-12
[3] 杨兆升.基础交通信息融合技术及其应用[M].中国铁道出版社,2005.
[4] 陈传彬,陆锋,励惠国等.自然语言表达实时路况信息的路网匹配融合技术[J].中国图象图形学报,2009.14(8):1669-1676
[5] 孔庆杰.信息融合理论及其在交通监控信息处理中的应用[D].上海交通大学,2010.
[6] Wang Zhengyou, Guo Chunhua. Intelligent Transportation System(ITS) information fusion:Concept, analysis and implementation[C]. IEEE International Conference on Service Operations and Logistics, and Informatics,2006:999-1003
[7] Nour-Eddin El Faouzi, Henry Leung, Ajeesh Kurian. Data fusion inintelligent transportation systems progress and challenge a survey[J]. Information Fusion,2011.12(1):4-10
[8] Qing-Jie Kong, Zhipeng Li, Yikai Chen, et al. An approach to urban traffic state estimation by fusion multisource information[J]. IEEE Transactions on Intelligent Transportation Systems,2009.10(3):499-511
[9] 张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005.17(1):138-143
[10] 赵曾贻,陈天娥,朱兰.一种基于语词的分词方法[J].苏州大学学报,2002.18(3):44-48
[11] 石佳,蔡皖东.基于N元语法的汉语自动分词系统研究[J]. 微电子学与计算机,2009.26(7):98-101
[12] 尹锋.基于神经网络的汉语自动分词系统的设计与分析[J].情报学报,1998.17(1):41-49