URL模式与HTML结构相结合的平行网页获取方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:bolen9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府0两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率
其他文献
高油酸花生指的是油酸含量在75%以上的花生品种,这种花生可以有效降低人体中的低密度胆固醇含量,在预防心脑血管疾病方面有着很好的效果。高油酸花生的种子和农产品容易进行
我院近两年共收治202例小儿腹泻,对用足三里药物封闭或药物治疗小儿腹泻进行了观察,发现用足三里药物封闭治疗小儿腹泻有显著疗效。现将治疗方法、临床观察及护理总结如下。
目的观察中西医结合治疗急性乳腺炎的疗效。方法将符合急性乳腺炎诊断的患者随机分为治疗组和对照组,前组在西医抗炎基础上加用“清热托脓汤”治疗,后组采用西医抗炎治疗未用中
目的 观察干扰素联合无环鸟苷治疗慢性乙型肝炎的临床疗效。方法选取60例慢性乙肝患者,随机分为A、B组,A组、B组均用一般保肝药物,A组加用a-1b干扰素300万u肌注,每周3次,无环鸟苷
研究了电池电压对磷酸铁锂锂离子动力电池高温(45℃)存储性能的影响。结果表明,电池电压对锂离子电池厚度及不可逆容量损失有很大影响。电池电压越高,电池厚度增加量越小,不
学前教育是人的一生中接受最早的有计划、有组织的教育,是终身教育的开端,基础教育的基础,而幼小衔 接作为学前教育质量的重要衡量标准之一,近年来备受世界各国的关注。越来
  该文基于朴素贝叶斯分类器时朝鲜语文本分类进行了研究。首先,利用基于类别选择的特征选择方法时朝鲜语文本进行特征选择,并使用类TF—IDF估算方法计算权重;其次,构
期刊
目的:确立《黄帝内经》脾藏象理论相关术语的语义类型,为中医药语义类型研究提供思路与方法。方法:基于中医术语学研究方法,依托中医基础理论,经文献梳理、提取、规范、分类
目的 了解双腔管冲洗引流加尿激酶溶解法治疗高血压性脑室出血的效果。方法双腔管冲洗引流加尿激酶溶解治疗高血压性脑室出血30例作为治疗组,并以另外30例行单纯脑室外引流术
现在的科学教育提倡生活化、探究化,但笔者认为,生活化,并不表示随便或者任何内容都适合,我们强调的 是探索内容要来源有幼儿生活,探索方式应该注重生活化,但是科学的严谨性