论文部分内容阅读
本文报告作者从网上获取香港法律英汉双语文本,利用法律文本的原有体系结构和编号机制进行子段级文本对齐,并将对齐结果进行XML标注,构建双语语料库的工作.文章表述上述工作的基本方法和技术.最终获得的双语语料库有10.4M英语词和18.3M汉字,是香港法律最全面最权威的文本,对于经验型的机器翻译研究具有特别价值.此工作也为我们进一步从网上探索和获取更大规模的双语文本打下坚实基础.