论文部分内容阅读
随着"一带一路"战略的不断推进,我国有色金属行业的国际化程度越来越高,有色金属企业对每天发生在不同国家的与有色金属产品、企业、市场、、技术等相关的事件越来越关注。及时全面的掌握这些事件信息,对于有色金属企业预防风险,提升国际竞争力具有重要作用。不同国家互联网上大量对这些事件进行报道的新闻,为有色金属企业了解相关事件信息,提供了及时广泛的信息。本文研究有色金属行业跨语言新闻事件信息获取与分析方法,目的是借助于计算机,利用不同国家互联网上与有色金属行业相关的不同语言新闻,实现对发生在各个国家相关事件信息以及不同事件之间关联的自动获取与分析,并将获取与分析的结果展示给用户,能够为有色金属企业获取与分析相关事件信息,提供一个方便快捷的手段,具有重要的现实意义。通过互联网新闻对有色金属行业新闻事件信息进行自动获取与分析,面临的关键问题在于,如何准确识别互联网上不同语言的有色金属行业相关新闻,如何对报道相同事件的不同语言有色金属行业相关新闻进行自动整合,以及在此基础上如何从众多对事件进行报道的不同语言新闻中自动提取出重要的事件信息形成摘要,如何对不同事件之间的相互关联关系进行分析和结果展示。针对这些任务由于有色金属行业缺乏相关的双语资源以及可用的机器翻译工具,现有方法难以适用,此外现有方法,没有考虑有色金属行业相关新闻所具有的特点,难以取得很好的效果。本文针对这些关键问题对有色金属行业跨语言新闻识别方法,跨语言新闻聚类方法,跨语言新闻摘要方法,跨语言事件相关性识别及关联图构建方法开展研究,主要取得了如下成果:(1)提出了基于CNN的有色金属行业跨语言新闻识别方法。针对现有跨语言新闻识别方法没有考虑领域特点的问题,在有色金属行业缺少相关双语资源的情况下,利用双语词典构建跨语言词向量对不同语言新闻进行统一表示,再在此基础上利用CNN,对不同语言有色金属行业新闻进行识别特征的学习和识别模型的构建。实验结果表明该方法取得了很好的识别效果,相较于传统基于词典的方法效果提升的较为明显。(2)提出了基于事件要素的有色金属行业跨语言新闻聚类方法。针对现有跨语言新闻聚类方法没有考虑新闻中事件信息的问题,将有色金属行业新闻中包含的有色金属企业、产品等作为事件要素对新闻进行表征。在此基础上采用有监督的方式对不同语言新闻间的相似度进行计算,并采用增量聚类的方法对在线增量出现的新闻进行聚类。实验结果表明该方法有效提升了对不同语言新闻事件进行自动归类的效果。(3)提出了结合双语主题模型和图模型的有色金属行业跨语言新闻摘要方法。针对现有方法依赖机器翻译工具以及无法同时利用新闻主题信息及句子之间关联关系的问题,利用互译的领域实体术语作为跨语言桥梁对不同语言新闻进行双语主题挖掘;借助于跨语言词向量以及双语主题模型构建句子关联图对不同主题下句子的重要程度进行打分;最终同时根据摘要与不同主题的语义相似度以及不同主题下句子的重要程度进行摘要的生成。实验结果表明所提出的方法能够在不使用机器翻译的情况下对不同语言有色金属行业新闻进行自动摘要,而且能够有效提升自动摘要的效果。(4)提出了显式和隐式两种跨语言相关事件识别方法,并在此基础上进一步提出并构建了一个融合时间信息的事件关联图,对所有事件之间的前后关联,直接和间接关联进行表示。两种相关事件识别方法,针对现有事件相关性识别方法只在单语环境下,只对单个事件词或句之间关系进行识别的问题,将对事件进行报道的所有不同语言新闻作为判断不同事件之间是否相关的依据,前者根据相关事件在新闻中共现特点进行识别,后者则根据不同事件要素之间相似度和相关度对事件之间是否相关进行推断。实验结果表明两种方法都取得了不错的效果,共同使用能够更加全面准确的识别出有色金属行业不同语言新闻事件之间的关联。