论文部分内容阅读
随着我国全球化程度的加深和经济实力的增强,旅游行业的发展非常迅速,已经成为国民经济中不可或缺的重要产业。在全球化的背景下,越来越多的不确定因素导致了旅游突发事件的时有发生,严重威胁着游客的生命财产安全。旅游业对于突发事件具有更高的敏感性,突发事件对于旅游业的破坏性和影响力非常巨大。近年来积累了大量的旅游突发事件相关信息,包括突发事件的案例、应急预案、政策法规、专家知识和应急经验等,根据已有的信息构建旅游突发事件领域知识,并在此基础上研究事件的发生、发展和演化规律,可提高对突发事件的应急管理能力,有效降低游客的生命财产损失。论文的主要研究工作和创新点如下:(1)基于旅游突发事件的互联网数据信息,采集了领域术语和概念,定义了领域本体中的概念及概念之间的关系,主要包括层次关系、类别关系和演化关系等,给出了概念的属性及其属性约束条件,并基于旅游突发事件的事件属性、事件生命周期阶段和事件演化关系等建立了领域知识本体模型,以消除旅游突发事件中的术语和概念的歧义性,并表示出领域知识的组织和结构。建立了本体模型,提供了一系列明确定义的形式化概念描述规范,增强了获取和表示领域知识的能力,并可用于本体的重用和共享,为事件的发生、发展和演化机理研究提供了语义基础和框架模型。(2)提出并建立了基于领域知识本体的事件框架模型,结合基于粗糙集的属性约简方法,用于旅游突发事件Web文档的特征抽取。对于领域本体中包含的属性及实例,采用粗糙集的方法对领域知识本体进行属性约简,获得对于Web文档特征贡献度较大的属性。根据领域知识建立事件框架模型。提出了一种特征抽取方法(DK-CHI),基于领域知识和CHI统计量进行特征抽取,与其它基于目标函数的特征抽取方法相比,本方法能提高特征抽取的效率。(3)提出了一种旅游突发事件状态评估方法,将互联网信息作为评估参数,建立状态评估体系和评估函数。提出了一种针对旅游突发事件时序Web文档分类算法(TS-ISVM),用于旅游突发事件的主题追踪,实现了对当前旅游突发事件主题的后续报道进行识别和获取。实验表明TS-ISVM算法在小训练集情况下取得了较好的分类效果,在不明显降低训练精度的同时,提高了训练速度,并获得了较好的主题追踪效果。建立了一种综合考虑页面热度、页面数目、时间衰减度和主题相似度的状态评估体系,根据状态评估函数进行事件状态评估。实验表明本文的主题状态评估模型能较好地反映旅游突发事件的发生和发展规律。(4)提出了一种旅游突发事件演化关系评估方法,该方法建立在同一主题事件的话题聚类基础上,并可根据事件属性距离对演化关系进行评估和预测。为了研究旅游突发事件各子事件之间的演化关系,提出了一种基于Gauss密度和EFD距离的增量聚类方法(EGIC),对互联网话题进行聚类。该方法针对时间序列Web文档增量地进行数据聚类,将旅游突发事件Web文档划分为不同的话题。实验表明EGIC算法能够较好地进行话题聚类和新话题的发现,并且聚类后的话题能够较好地与实际中的事件相对应。提出了一种话题演化关系评估方法(TERE),建立了事件属性距离与话题演化关系之间的概率模型。实验结果表明了TERE方法的有效性,TERE可以根据事件属性距离的分布特点对两个话题之间的关系进行推测。