论文部分内容阅读
本文介绍了一个SQL数据库支持下的、基于C#正则表达式的英汉翻译对抽取方法,待抽取的资料均来自网络,包括机读电子词典和多种含英汉翻译对的网页,它们具有固定的正则表达式模式。抽取工作用到两个用C#开发的Windows应用程序:网页爬虫和翻译对抽取应用程序。下载的网页和抽取的翻译对都存在SQL数据库中,可供进一步研究使用。结果显示,这种方法抽取的翻译对准确率非常高,能很快收集大量翻译对建成生英语平行语料库。