论文部分内容阅读
科技文献是科研工作者了解和研究最新科技动态和新技术的重要信息来源,因此多语种科技文献的共享平台对于不同国家科研工作者之间相互了解科研工作进展和共同促进科技创新方面有着重要的意义。科技文献翻译的主要难点之一就是不同领域科技文献中专业术语的翻译,准确定位并按统一规则翻译专业术语是科技文献翻译工作的重要步骤和内容。为此,本学位论文针对中韩科技信息综合平台设计了翻译辅助系统。该系统在新录入科技文献中自动获取新术语且进行标记,并通过辅助译文生成系统快速地生成翻译工作者所选术语的译文、相似译文和翻译历史纪录,从而让非专业领域翻译工作者也能够高效地完成科技文献的翻译工作。首先,设计并实现了结构特征与互信息相结合的术语自动抽取算法。该算法将已有科技文献中的关键词作为领域术语进行分词并分析获得相关领域术语的组词特征(词项数量和词性组合)。利用这些组词特征构建筛选模板和停用词模板,并对新输入的科技文献进行筛选以获取候选术语,再使用互信息评估组成候选术语的相邻词项间的组词稳固程度,最终根据所设定的阈值确定候选术语是否应处理为专业术语。其次,将已有术语、抽取到的新术语、术语译文和历史翻译记录等信息存储到系统数据库中形成术语数据库。术语数据库包含所有术语的相关信息,翻译工作者可通过翻译辅助系统和术语搜索功能快速地获取到所选术语的所有相关信息。最后,设计并实现了翻译辅助系统。该系统包含针对翻译工作者的用户接口,翻译工作者可通过该接口获取已有术语的译文信息、新术语的相似译文信息和译文记忆库为基础的历史翻译数据。该系统根据相似度算法将翻译工作者获取到的辅助译文信息进行排序,能够让翻译工作者快速地找到匹配的翻译结果,从而提高翻译工作效率。测试结果表明,本论文设计的术语自动抽取功能和辅助译文生成功能达到了预定的设计目标,术语自动抽取算法召回率达到61.8%,结合优化方法进行优化后达到66.9%,提高了 5.1%;辅助译文生成平均响应时间为0.031秒,MRR为0.951,测试结果满足用户需求。