论文部分内容阅读
消除重复网页是搜索引擎不可或缺的一部分,藏文搜索引擎也是如此。从信息处理的角度而言,藏文属于“复杂文字”的范畴,其编码在实际使用当中仍不统一。本论文实现了统一的藏文编码并选择合适的Shingle粒度,提出了消除重复藏文网页的完整解决方案。经过试验其效果能够满足藏文搜索引擎消除重复网页的需求。