藏文网页定题采集方法研究

被引量 : 0次 | 上传用户:fangwd_clily
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
与汉文相比,藏文信息处理技术发展较慢,加之缺乏支持藏文搜索引擎,互联网上的藏文信息常常处于“孤立状态”,给用户的查找和获取带来较大的困难。因此,探讨一种通过网络采集藏文信息的方法,对于藏文研究者显得尤为重要。在分析了网页采集流程、网络爬虫工作基本原理和主题网页采集的相关知识的基础上,对藏文网页的采集方法进行了深入研究:1.对比分析藏文网页的字体、藏文音节点、藏文高频词等区别于其他网页的特征参数,设计出适合于判断藏文网页的相关算法。2.探讨了藏文主题爬虫的关键技术,如藏文分词、主题判断方法以及爬虫的爬行策略等内容,提出基于“导向词”的藏文主题判断方法。3.研究Heritrix软件,并通过对其关键模块Extractor和Frontierscheduler的改进和扩展,实现“导向词”算法的藏文主题信息网站的抓取;另外,运用哈希算法,扩展Queue-assignment-policy模块,大大提升了爬虫的采集效率。4.利用HTMLParse软件对采集的新闻信息进行提取,并将新闻的标题、发布时间、来源、正文信息存入数据库。5.对采集的藏文网页文本进行编码“归一化”处理,转化成国际标准的Unicode编码。利用上述研究结果,以网页的查准率和查全率为参考指标,对“导向词”主题判断算法的几个阙值进行了测试,根据测试的结果对中国西藏网进行了网页抓取,抓取的准确率在62%左右。测试数据表明,研究结果对于藏文定题信息采集行之有效,具有较高的应用和理论参考价值。
其他文献
大跨桥梁是公路交通运输网络中的重要组成部分,其安全性和适用性直接关系到路网的畅通与否。在正常运营状态下,大跨桥梁不仅要承受结构自重、桥面铺装等恒荷载,还要承受各种
中国书法历史悠久,独具魅力。在其三千年的漫长发展过程中,曾迎来一个个鼎盛时期,也历经过一场场重大变革,书法艺术的形式与内涵在不断的变革与发展中变得日益丰富与完善起来
<正>唐诗是中国传统文化一座不可逾越的高峰。格律诗就是起源于南北朝,而成熟于唐朝,并为唐诗的辉煌作出过伟大贡献的诗歌体裁。唐朝人把本朝以前的诗歌,如《诗经》、《离骚
会议
微信平台中的海外代购市场由于准入门槛低、监管难、买方维权成本高,造成微信平台中的海外代购方易发侵犯消费者合法权益,偷逃关税等问题。由于是跨境交易,所涉法律关系较复
英国的济贫法作为官方救助贫困的主要措施,自1601年颁布,到1948年废除,走过了漫长的历史道路。其间,法律经过多次调整,努力适应不同历史时期的社会环境。英国工业革命是英国
第二次世界大战以后,艺术界的创新思潮迅速蔓延,各种不同的风格和流派纷至沓来,形成了人类文化史上又一个黄金时代。音乐的发展当然也顺应着这个趋势,那些在战争期间被中断的
在中国高等职业教育是高等教育的一种类型,已占踞半壁江山,高职学院学生是高校学生的重要组成部分.高校心理弱势学生群体是心理危机的高发人群,严重影响着大学生的成长和发展
回族社区作为伊斯兰教传统与国家共同缔造的产物,它是研究回族社会与国家互动的基础单位。基于云南的案例研究表明,国家民族宗教政策是决定回族社会与国家互动关系的决定性因
目的:研究NICCD患者SLC25A13基因型与生化表型关系,并探讨血清铜蓝蛋白水平与其他生化改变的相关性,为深入认识NICCD患者的实验室特征提供科学依据。对象与方法:研究对象为2005年