论文部分内容阅读
双语文本对应分析在处理多语言文本数据、克服语言障碍等方面有着重要的作用,基于语料库技术的跨语言潜在语义索引方法没有充分考虑双语的语义相关性。本文将双语平行文档看作同一语义内容的两种语言表达,运用偏最小二乘方法构建双语文本的语义相关性,为每种语言建立单独的潜在语义空间,并在这两个空间上实现跨语言的分类任务。在香港政府网中英双语新闻的实验结果显示,本文方法构造的双语潜在语义空间上完成的跨语言和单语言文本分类性能接近或优于原始特征空间的单语言分类,并具有良好的稳健性。