Web汉英平行新闻语料获取的困难及对策

来源 :第十届全国少数民族语言文字信息处理学术研讨会 | 被引量 : 0次 | 上传用户:junee1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文分析了Web汉英平行新闻语料获取过程中的困难,对于Web信息抽取技术做了综述,分析了Web平行双语抽取的基本方法并具体介绍了几个主要门户网站汉英平行新闻语料的获取过程,指出基于锚文搜索是较好的语料获取途径.
其他文献
在动力、化工、材料、医药、冶金等许多行业和领域经常遇到需要对颗粒进行在线监测的要求,如粉体颗粒的制备过程、喷雾、粉体管道输运、河流泥砂流动等.这里颗粒包括固体颗粒
本文是中国颗粒学会超微颗料专业委员会第四届学术年会暨海峡两岸纳米颗粒学术研讨会的论文摘要集,全文共54篇,介绍了纳米技术的应用,阐述了纳米材料的制备工艺以及其性能。
网页上蒙古文的显示和编辑一直是蒙古文网页制作中的难题,甚至到现在也没有完全解决.在这个方面的研究和探索过程中,找出了几种方法和技术.本文主要给大家介绍网页上显示和编
本文主要介绍了我们民族语言文字信息专业委员会成立时的背景、过程;全国少数民族语言文字信息处理学术讨论会的基本情况;少数民族语言文字信息处理专业委员会成立后给中央政
本文描述了针对浏览器的藏文字体显示的解决方案.它是建立在Microsoft提供的IE基础之上,利用IE的ActiveXControl扩展特性以及Windows操作系统对TrueType字体的底层基础设施,
本文介绍了国际互联网上藏文信息交换平台的特点和组成,论述了藏文信息交换平台的设计与实现方法.本系统由藏文系统平台界面、藏文输入法、藏文编码与藏文字库和系统安装程序
本文主要介绍基于XML实现汉文网页转换为藏文网页的主要思想和实现的主要方法:提出了转换的主要框架,以及产生基于XML的XLIFF中间翻译格式的方法,并对未来的工作进行展望,这
网站是互联网上信息交流的载体,其检索功能是一项很重要的网站性能指标.本文将藏文网页上的检索与XML文档独特结构结合在一起,加速网页上的检索提高网页的性能提高网站上的信
由于专业文献间的引用关系隐含在其析专业文献之间的链入链出.并采用向量空间模型建立特征项向量,用向量来表示文献,通过向量的计算来确定含有引用关系文献间的相似度,从而对
本文介绍了我们开发的针对蒙古文及相关文字在网络上的传输与显示的信息处理系统,解决了蒙古类文字在网络上传输与显示问题,制作动态网站成为可能.本技术包括蒙古文在支持Act