论文部分内容阅读
多文化交流平台(Intercultural Collaboration Environment,ICE)是一项由亚洲多个国家共同参与的国际合作项目,其目标是利用机器翻译及其他相关技术,使得亚洲各国的用户可以通过互联网用自己的母语进行交流。目前,项目组从成立之初的ICE2002发展到现在的ICE2005,已吸引了亚洲多所大学与科研机构的合作参与,项目组已经开发出TransBBS、AnnoChat等在线交流工具,可以实现简单的在线多语交流,并先后在亚洲各国间进行了大规模的在线多语交流测试。然而,测试表明,使用AnnoChat互动交流过程中双方对翻译结果的可理解程度还有待提高。 为了改进翻译质量,提高用户对AnnoChat翻译结果的可理解程度,我们研究小组提出了一个基于本体的ICE系统框架,并实现了基于该系统框架的原型系统OBICES(Ontology-Based ICE System)。该系统集成了本体、智能Agent、文本挖掘三大模块,作为对AnnoChat的有益补充。本文工作主要集中在文本挖掘模块。 在OBICES系统中,文本挖掘模块主要完成两方面的工作:对在线聊天文本进行语义挖掘,协助Agent进行语义选择;对聊天事务数据库中历史文本进行语义和主题挖掘。这两方面挖掘得到的知识均放入聊天知识库,并进一步改进、修正和精化用于提供背景知识支撑的领域本体。 在进行文本挖掘过程中,根据在线聊天文本的特点,本文对文本特征选取算法TFIDF(Term Frequency Inverse Document Frequency)作了改进,提出了一种动态定义窗口大小进行文本挖掘的方法,并通过实验验证了该方法有利于提高文本挖掘的效果和质量。 论文最后通过对比使用OBICES系统前后,用户对AnnoChat翻译结果在关键词、语句、主题等方面的正确理解数据,验证了OBICES系统有利于提高用户对AnnoChat翻译结果的可理解程度。