基于web的藏文文本自动分类研究与实现

来源 :青海民族大学 | 被引量 : 5次 | 上传用户:limitfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和藏文信息技术的发展,藏文网站的数量越来越多,藏文信息资源从匮乏的时代过渡到极为丰富的藏文数字化时代。但面对海量的藏文信息资源,人们又很难得到实际需要的信息。因此,人们常对藏文网页按照其内容进行分类。目前,用传统的分类方法来处理是不切实际的,必须借助计算机对藏文网页进行自动分类,一来减少了人力的耗费和财力的投资,二来提高了网页分类的效率和准确率。因此,用计算机进行藏文网页文本的自动分类,可以满足人们所期望对各类藏文文本分类应用需求,这也成为迫在眉睫的研究课题。笔者认为对藏文网页文本自动分类的研究在藏文搜索引擎、藏文数字图书馆和藏文出版等领域,以及对推动藏文信息技术的发展与应用有着重要的现实意义和使用价值。本文主要对藏文网页的净化、藏文分词、特征选取、权值计算、分类算法等相关技术进行了较深入的分析和研究,其中重点研究了藏文分词和藏文网页分类算法,并借鉴现有的中英文分类算法,提出了符合藏文文法及藏文字结构特征的分类算法,即词频统计+词匹配法、基于标题的藏文网页分类算法和基于导航栏的藏文网页分类算法的一种新的混合分类算法,该方法大大提高了基于web的藏文文本自动分类系统的查全率和查准率。最后实现了基于web的藏文文本自动分类系统,同时对实验结果进行了分析并具有良好的分类结果。
其他文献
解题信息论认为,数学解题的过程,就是数学问题信息的获取、存储、处理、输出,从而实现解题目标的活动过程.罗增儒教授则将数学解题过程总结为"三位一体"的工作:有用捕捉、有关提
<正>随着旅游业的持续快速发展,人们对旅游产品和旅游服务的需求越来越广泛,红色革命圣地在人们心目中愈来愈受到重视,我们党在各个时期领导革命斗争的纪念地、标志物和重要
会议
广州小虎岛工业园区污水处理厂采用集中处理的方式,主要接收园区精细化工和制药企业排水,采用水解酸化—接触氧化—MBR的主体工艺,在膜工艺后增设活性炭吸附装置,介绍了工艺
“X是X”格式是现代汉语中使用频率较高的一种表达方式,但是学术界与该句式相关的研究并不多。因此本文试图从句法、语义及语用等角度出发对“X是X”格式进行分析。绪论部分
设计实现了一种能应用在空间机器人计算机控制系统中的冷热双冗余CAN总线系统。详细论述了这种冗余CAN总线系统的硬件电路设计方案,以及该总线系统相较其他冗余方式的不同特
日前,国务院正式对外发布山东、江苏、广西、河北、云南、黑龙江6个新设自由贸易试验区总体方案,旨在通过在更大范围、更广领域、更多层次差别化探索,开展对比试验、互补试验,激
报纸
本文搜集了从2005年到2010年两种国际翻译研究刊物和两种国内核心翻译刊物的240篇英文摘要,运用Swales的体裁分析理论,采用实证研究方法,结合定量与定性分析,通过对比研究国际和
对不同温度,不同储藏时期魔芋块茎的发芽率,呼吸强度,淀粉酶,过氧化氢酶,多酚氧化酶活性和休眠生理特性进行了测定。结果表明,魔芋的休眠属于生理型休眠,解除过程较长,收藏后经历4个月
20世纪80年代,第二语言教育和研究者经过大量研究、实践提出的一个具有重要影响的教学理论─任务型语言教学。笔者立足于第二语言教学研究者对国内外任务型教学法丰富的理论与
一、古代太仓港的兴衰回顾太仓港的兴起与古太湖三江的变迁有着密切的联系。所谓三江即东江、吴淞江和娄江。由于东江在唐时已淹塞,吴淞江在宋时“潮汐不通”也逐渐废弃,吴淞