论文部分内容阅读
平行网页文本中除了互为对照的内容,还存在一些无关的噪声,因此利用网页结构相似的方法解决平行网页中句对齐问题受到一定的限制。通过引入互译词典或同类词典的方法可以提高句对齐质量,但是双语词典的规模是有限的,不能覆盖所有对应的词汇。
本文利用基于向量空间模型提供的相似度计算方法对平行网页文本进行句子对齐,在向量空间模型中,网页文本中的句子为一维空间中的向量,选取实词作为特征项,利用CHI统计量计算词汇关联度,采用TF-IDF算法计算特征项权重,采用cosine距离计算句子向量之间的相似度,解决平行网页文本句对齐问题。以蒙古文-中文平行网页为实验对象,设计了相关实验。实验结果证实了本文方法的有效性。
本文利用基于向量空间模型提供的相似度计算方法对平行网页文本进行句子对齐,在向量空间模型中,网页文本中的句子为一维空间中的向量,选取实词作为特征项,利用CHI统计量计算词汇关联度,采用TF-IDF算法计算特征项权重,采用cosine距离计算句子向量之间的相似度,解决平行网页文本句对齐问题。以蒙古文-中文平行网页为实验对象,设计了相关实验。实验结果证实了本文方法的有效性。