论文部分内容阅读
智能交通系统是现代城市发展的必然趋势之一。而智能交通系统的有效部署与实现需要完备的实时交通信息作为支撑,以提高交通规划、交通诱导、导航出行的科学水平,从而优化交通运输效率,保障交通安全,促进交通节能减排。现有的固定传感器、浮动车定位数据和移动通讯终端信令分析等实时交通信息采集技术,虽然能够有效感知途经路段通行状态,但无法获取突发性交通事件、临时交通管制、新增交通限制及交通环境信息等类型的交通事件信息,也难以捕获明确空间点位上的交通状态信息。实时交通信息的完整性存在缺陷。 社交网络平台的快速发展,吸引了大量用户分享与传播信息,其中蕴含了丰富的交通事件描述文本,可以成为实时交通事件信息的数据来源。由社交网络文本抽取交通事件信息属于文本信息抽取任务,需要自然语言处理领域的理论和方法支持。然而,当前研究在交通事件信息抽取领域存在如下问题:其一,目前所提出的方法主要针对蕴含事件关键词的文本数据,训练集代表性受到限制,用于识别社交网络开放数据流环境中的交通事件信息效果不佳,造成数据资源无法被充分利用。其二,现有方法处理交通信息语义的能力较弱,如文本描述中存在的道路实体关系语义和交通事件语义等,影响事件要素抽取和事件语义抽取质量。 本论文以社交网络文本为研究对象,针对交通事件信息自动抽取和交通事件语义分析任务面临的挑战,综合利用自然语言处理和机器学习领域的技术手段,开展社交网络文本蕴含交通事件信息抽取的相关研究。论文主要研究工作和创新点包括: (1)针对交通领域标注语料资源匮乏问题,研究了交通事件语料自动构建方法。将层次主题模型引入文本筛选过程,构建交通事件社交网络文本语料,提出交通事件要素抽取的模式匹配方法,结合自动回标技术构建交通事件要素标注语料。通过改进动态时间弯曲(Dynamic Time Warping,DTW)距离中的交通事件显著度,提高了模式匹配效率。 (2)针对已有的长文本蕴含事件检测方法不适用社交网络开放环境问题,将交通特征增强的上下文语义引入社交网络文本蕴含交通事件检测过程,并通过事件相关度计算实现了文本有效性甄别过程。 (3)针对社交网络文本不规范表达影响交通事件要素抽取问题,提出了网络文本蕴含交通事件要素抽取方法,将抽取过程分解为交通事件要素属性类型标注、空间要素属性关系标注和事件要素关系标注3个阶段,突出了文本中的交通语义关系特征,降低了社交网络文本用词和句式不规范对抽取效果的影响,改善了交通事件要素抽取质量。 (4)针对社交网络文本描述交通事件的模糊性和多用户描述的差异性问题,通过上下文增强的方式进一步抽取交通事件消息中的交通事件影响对象和影响程度等事件语义信息。同时,提出了交通事件语义融合的D-S证据理论方法,并利用开放百科知识实现交通事件语义联系的评价过程,以处理社交网络文本对交通事件描述的语义差异现象,提高了社交网络文本蕴含交通事件信息抽取的可靠性。