藏文网页相关论文
随着互联网和藏文信息化的快速发展,藏文网页中出现了一些反动、迷信内容影响着舆情安全,亟需建立针对藏文网页的舆情自动实时的监......
本文利用Heritrix开源和组件特性,讨论藏文网页的抓取问题。首先介绍了Heritrix网络爬虫的体系架构,然后开发了网页抓取扩展的算......
本文通过分析目前存在的网页采集程序的构造模式,设计了的藏文网页采集模块TibetSpider.提出了采集的藏文网页在数据库中的存储模......
网站是互联网上信息交流的载体,其检索功能是一项很重要的网站性能指标.本文将藏文网页上的检索与XML文档独特结构结合在一起,加速......
随着互联网时代的发展,如何有效地组织和分析藏文信息,提高藏文信息领域获取信息的效率,成为满足藏文信息领域人们需求的关键问题,这使......
藏文文本资源的收集对藏语信息处理研究有着至关重要的作用.文章在分析国内外藏文网页主要编码方式的基础上,提出了藏文网页的编码识......
藏文网页搜索是藏文计算机技术和藏文网站发展的必然要求,藏文字的特殊结构和藏文编码的多样性给网页的统一检索造成一定的困难,使......
针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判......
通过分析总结藏文网页的结构特征,在借鉴汉语主题句抽取方法的基础上,提出了结合语义信息的藏文网页主题句抽取算法。该方法根据藏......
随着藏文信息技术的发展,互联网上的藏文信息呈爆炸式增长,无疑变成了最密集最丰富的网络信息资源,通用搜索引擎的功能无法满足一......
网页消重一方面能解决互联网上存在的信息冗余问题,另一方面能减轻用户的浏览负担,对提高搜索引擎工作效率起着至关重要的作用。藏......
文章依据所抓取的大量藏文网页URL,对相关的藏文信息网页进行除噪去重处理,得到较为完善的藏文信息库。对用户要查询的藏文信息进......
文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网......
消除重复网页是搜索引擎不可或缺的一部分,藏文搜索引擎也是如此。从信息处理的角度而言,藏文属于“复杂文字”的范畴,其编码在实际使......
互联网发展到现在,由于其开放式和共享式等特点,一方面方便快捷地给人们提供了大量的信息资源,大大方便了人们获取信息的效率。但......
随着互联网的普及和藏文信息技术的发展,藏文网站的数量越来越多,藏文信息资源从匮乏的时代过渡到极为丰富的藏文数字化时代。但面对......
如今互联网上藏文信息也不断的扩充,藏文搜索引擎作为常用的信息检索的工具和渠道,倒排索引又是搜索引擎的核心技术之一,倒排索引直......