论文部分内容阅读
近年来,随着“一带一路”政策的一步步付诸实施,我国与世界其他各国经济联系愈加紧密、相互合作愈加深入、发展空间愈加广阔;我国企业在海外投资更加便捷,投资规模逐年呈增加趋势。随着“一带一路”政策的进一步实施,中国企业与国际市场的交往越来越频繁,但同时,类似“资源掠夺论”、“新殖民主义论”等思维的舆论信息正逐步影响中国市场在海外的投资。中国企业对海外东道国家的文化、政策、风俗等的不了解增加了中国企业在海外东道国投资的难度,要求中国企业在海外投资过程中,实时了解东道国的舆论方向,进一步推断东道国的文化、政策、风俗等,随时根据海外环境和变化动态调整投资策略。 论文基于OODA环(观察-判断-决策-行动,Observe-Orient-Decide-Act)对海外网络舆情进行高效监测与引导,在分析网络舆情对海外中国企业影响现状的基础上,重点研究针对中国企业海外投资的网络舆情监测与引导表示模型,随后,研究了网络舆情监测与引导表示模型中的三个关键技术:基于要素融合的群体性抗议事件检测、结合文本与标签传播的网络用户兴趣空间建模、基于指派问题的引导模型研究。 (1)针对中国企业海外投资的网络舆情监测与引导表示模型研究 针对中国企业海外投资的网络舆情监测与引导过程遵循OODA环(观察-判断-决策-行动,Observe-Orient-Decide-Act)。本文用一个5元组来表示网络舆情监测与引导模型:引导目标事件、对象、受众用户、实施信息投送的我方观点用户(也即网络中我方观点的账号)集合、引导计划。即针对海外中国企业的舆情事件,选定恰当的信息,使用我方观点账号在恰当的时间投送给恰当的受众用户,针对引导目标事件,论文主要研究了基于要素融合的群体性抗议事件检测;针对受众用户,论文主要研究了结合文本与标签传播的网络用户兴趣空间建模;随后,结合引导计划,论文主要研究了基于指派问题的引导模型。 (2)基于要素融合的群体性抗议事件检测研究 首先设计并实现了Twitter数据采集器,通过Twitter REST API实现对数据的采集,并通过充分分析API频率限制机制展开较为高效的采集工作,然后研究了基于规则的单文本事件要素抽取,通过将事件消息识别与事件要素抽取融合迭代,相互影响,以达到较好的事件识别能力以及事件要素抽取性能;在此基础上,提出了基于在线聚类算法的群体性抗议事件检测与跟踪算法,对多条博文的事件抽取结果进行融合,通过在线增量聚类算法,对事件博文进行聚类,然后对事件博文聚簇进行要素融合,提出了事件融合的基本原则和算法,实现了对事件要素的融合,并取得了较好的效果。 (3)结合文本与标签传播的网络用户兴趣空间建模研究 以Twitter中文用户兴趣空间精细分类为目的,从用户博文内容和社交关系两方面分析用户的兴趣空间。基于支持向量机(SVM)模型对用户的博文进行了多类别分类,构建了用户的兴趣空间,针对Twitter的数据集,在特征提取过程中采用的算法是特征评价较好的卡方检验的统计方法,但对每个类别考虑到数据集的非均衡性,去除了负相关的特征,使得提取的类别特征词库更符合该类别,对类别的贡献度更高。在构建SVM分类器的过程中,本文只构建了前五个有效类别的分类器,对其他类的分类方法采用的是拒绝法,只有当某篇博文不属于五个有效类的时候才判定其属于其他类。提取了用户好友显式社交关系和隐式社交关系,并进行融合。显式社交关系是用户在Twitter社交平台中关注其他用户构成的社交关系,隐式社交关系是用户在博文内容中与其他用户交流(回复和转发)构成的社交关系。显式社交关系在一定程度上能印证用户隐式社交关系的对象,隐式社交关系又能对显式社交关系的关系重要程度进行补充。本文融合两种社交关系能更加全面,更加丰富的反映用户真实的社交关系。基于用户博文内容的分类结果和用户多网络社交关系,利用标签传播算法将活跃用户的类别标签扩散到整个社交关系中,并与用户通过个人博文分类的方法构建的兴趣空间进行对比。 (4)基于指派问题的引导模型研究 Twitter的提及(@)功能能够将信息定向地投送到指定用户。考虑我方观点账号最大引导效果进行优化,将最合适的帖子在最恰当的时间提及(@)给最合适的目标用户。将Twitter中的提及(@)问题转换为一个不平衡的指派问题。根据用户使用Twitter的实际情况,将用户一天内的发帖模式根据小时划分为24个时间窗口。为了计算Twitter用户在每个时间窗口的上线概率,同时考虑了用户在一天24小时内的时序模式和持续一段时间内的整体时序模式。为了解决不平衡指派问题,本文灵活地将不平衡指派问题转换为平衡指派问题,随后,采用匈牙利(Hungarian)算法来解决上述的指派问题,实验结果表明了本文方法的有效性。