URL模式与HTML结构相结合的平行网页获取方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:bolen9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府0两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率
其他文献
高油酸花生指的是油酸含量在75%以上的花生品种,这种花生可以有效降低人体中的低密度胆固醇含量,在预防心脑血管疾病方面有着很好的效果。高油酸花生的种子和农产品容易进行
研究了电池电压对磷酸铁锂锂离子动力电池高温(45℃)存储性能的影响。结果表明,电池电压对锂离子电池厚度及不可逆容量损失有很大影响。电池电压越高,电池厚度增加量越小,不
  该文基于朴素贝叶斯分类器时朝鲜语文本分类进行了研究。首先,利用基于类别选择的特征选择方法时朝鲜语文本进行特征选择,并使用类TF—IDF估算方法计算权重;其次,构
期刊
目的:确立《黄帝内经》脾藏象理论相关术语的语义类型,为中医药语义类型研究提供思路与方法。方法:基于中医术语学研究方法,依托中医基础理论,经文献梳理、提取、规范、分类