基于藏文搜索引擎的藏文网页消重研究

来源 :青海民族大学 | 被引量 : 1次 | 上传用户:hanosn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网发展到现在,由于其开放式和共享式等特点,一方面方便快捷地给人们提供了大量的信息资源,大大方便了人们获取信息的效率。但另一方面却使网上的信息具有大量的重复性和相似性。尤其在搜索引擎中充斥着内容完全相同或内容部分相同的大量网页,藏文网页亦不例外。对开发者来说重复网页即浪费了存储资源,又占用了网络带宽,严重降低了搜索引擎的工作效率。对于用户来说,他们不希望正确的检索结果沉没在大量的重复或相似网页之中而难以被发现,从而加重用户的浏览负担。所以,高精度而快捷地消除重复网页无疑是提高搜索引擎质量和改善用户体验的关键技术之一。目前关于中文和英文来说网页消重方法不胜枚举,各种消重方法的效率和准确度也是参差不齐。但是大多数都遵循一个通用框架,即首先从给定的网页文档中选取能表示其核心内容的特征项集合,其次对该特征项集合进行降维处理,然后对降维后的数据集合进行相似度计算,最后对相似度结果进行对比判断重复程度,进而消除重复网页。由于中英文与藏文存在着差异,上述通用框架并不能直接套用于藏文网页消重。因此必须通过研究各个功能模块,设计出一个符合藏文特点的网页消重框架。本文所研究的藏文网页消重系统以上述通用框架为基础,通过查阅国内外的相关文献资料,主要对藏文网页的净化处理、网页正文分块处理、网页特征选取与权值计算、藏文信息指纹计算、相似度计算及消重处理等相关技术进行了深入的分析和研究。并且,在藏文信息指纹计算模块通过三种算法的对比来采取最好的方案。网页净化模块则通过在原算法上进行改进,添加位置标记功能来实现对藏文网页主题句的提取。对特征权值计算模块进行改进,实现位置权重的计算。消重处理模块在原有的基础上增添信息指纹聚类保存、分类匹配的功能来提升系统的整体效率。最后,通过各个模块的实验来证明本藏文网页消重系统功能结构的实用性。用大规模的网页对本系统进行整体测试,得出了93.8%的查全率、97.7%的查准率和0.957的F值。
其他文献
国际金融危机对全球经济的冲击仍在持续,对全球经济增长、国际金融市场、全球版图和治理模式将继续产生深远影响。在此背景下,本文分析了危机后全球经济增长率下滑的成因、国
长沙浏阳河人行景观桥(汉桥)桥梁平面为月牙形,来源于长沙民谣"月亮粑粑"。平面弧形半径小,跨度大,造型优美施工难度大。根据现场实际条件和结构特点,采取现场分段吊装的方法
热力学分析法是从理论上对物理—化学现象进行分析研究的最有效的方法之一,它广泛地应用于各种化学热处理工艺。热力学分析既能用来建立物质向被处理表面迁移的过程的模型,又
通过外业样地的群落调查,结合前人的研究成果,对武夷山典型常绿阔叶林群落的物种组成、区系特征、数量特征、结构特征、空间分布、种间联结、物种多样性等方面进行了研究,主
为探讨牛磺鹅去氧胆酸(taurochenodeoxycholic acid,TCDCA)对热应激条件下AA肉鸡、海兰褐仔鸡及昆明种小白鼠的抗热应激作用,试验检测了TCDCA对热应激条件下AA肉鸡死亡率、海
老舍独特的戏剧理论极具研究价值。在抗战时期,老舍对自己的艺术创作进行调整,开始了戏剧创作。老舍在艺术创作上一向不愿意摩仿他人,反对艺术家凡事以先前的模式为规则而消失了
在砂层修筑地下工程时,由于其特殊的工程性质,在施工过程中极易造成围岩失稳、坍塌等工程事故。本文以石家庄地铁建设项目为背景,对石家庄地铁工程涉及到的主要砂层,通过资料
风积沙是一种广泛存在于我国西北的松散沙体,粘聚力低、保水性差,属于级配不良的含细粒土砂。隧道开挖过程中极易出现衬砌背后脱空、流沙甚至掌子面坍塌等工程灾害。极其有限的风积沙隧道工程中采用了改进台阶法穿越了该地层,但是如何保证隧道安全、快速地穿越风积沙地层,例如如何定量确定台阶长度以及台阶高度还悬而未决。更深入地,施工工法的选择对于风积沙隧道掌子面失稳特征以及围岩稳定性的影响规律研究还不成体系。针对以
随着网络技术的快速发展,越来越多的人际交流通过互联网完成。人们通过微信、邮件、网络电话等进行交流的同时,也在这些消息载体上留下了大量的记录,其中隐藏着非常具有价值
本文以我国劳动关系的认定标准为研究对象,以《劳动法》实施以来我国劳动关系认定标准在实务操作中面临的问题为研究起点,使用案例分析法、比较研究法对我国劳动关系认定标准