URL模式与HTML结构相结合的平行网页获取方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：bolen9999

【摘要】

：

平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长，但由于平行网站的异构性和复杂性，如何快速自

【作者】

：

刘奇刘洋孙茂松

【机构】

：

清华大学计算机科学与技术系智能技术与系统国家重点实验室

【出处】

：

中文信息学报

【发表日期】

：

2013年3期

【关键词】

：

平行网页获取平行语料库 URL模式 HTML结构 parallel pages mining~ parallel corpus~ URL patterns H

【基金项目】

：

国家863计划资助项目（2012AA011102,2011AA01A207）,媒体与网络技术教育部一微软重点实验室资助项目（20123000007）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长，但由于平行网站的异构性和复杂性，如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法，首先利用HTML结构实现平行网页的递归访问，其次使用URL模式优化遍历平行网站的拓扑顺序，从而实现高效准确的平行网页获取。在联合国与香港政府0两个平行网站上的实验表明，该方法相对传统获取方法在获取时间上减少50％以上，准确率

其他文献

高油酸花生轻简化栽培技术

高油酸花生指的是油酸含量在75%以上的花生品种,这种花生可以有效降低人体中的低密度胆固醇含量,在预防心脑血管疾病方面有着很好的效果。高油酸花生的种子和农产品容易进行

期刊

高油酸花生轻简化栽培技术要点

电池电压对锂离子电池高温存储性能的影响

研究了电池电压对磷酸铁锂锂离子动力电池高温(45℃)存储性能的影响。结果表明,电池电压对锂离子电池厚度及不可逆容量损失有很大影响。电池电压越高,电池厚度增加量越小,不

期刊

电压磷酸铁锂厚度不可逆容量损失voltageLiFePO_(4)thicknessirreversible capacities loss

基于朴素贝叶斯分类器的朝鲜语文本分类的研究

　　该文基于朴素贝叶斯分类器时朝鲜语文本分类进行了研究。首先，利用基于类别选择的特征选择方法时朝鲜语文本进行特征选择，并使用类TF—IDF估算方法计算权重；其次，构

期刊

《黄帝内经》脾藏象理论术语语义类型研究

目的:确立《黄帝内经》脾藏象理论相关术语的语义类型,为中医药语义类型研究提供思路与方法。方法:基于中医术语学研究方法,依托中医基础理论,经文献梳理、提取、规范、分类

期刊

《黄帝内经》脾藏象语义类型本体中医术语The Inner Canon of HuangdiSpleen visceral manifestation

URL模式与HTML结构相结合的平行网页获取方法

与本文相关的学术论文