多模式匹配在维吾尔文本处理中的应用研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:shuxiaopei110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维吾尔文模式匹配与其它语言的模式匹配一样有着很多的用处,如维吾尔文搜索引擎、维吾尔文本信息的滤波、维吾尔文网站的监控、维吾尔文翻译器等方面,在这些应用中维吾尔文模式匹配技术成为至关重要的环节之一。虽然改进一些算法和技术能解决此问题,但未能从语言特性、书写等方面考虑提出适合处理维吾尔文的模式匹配算法。本文通过研究维吾尔本身的特点提出了一种高效、快速且适合于维吾尔文的多模式匹配算法。考虑维吾尔文字特点并对现有的多模式匹配算法进行改进,改进的模式匹配算法在匹配时按照其文字特点从右至左方向比较字符和移动模式。改进后的算法匹配效率并不高,因为维吾尔文32个字母有独立、词头、词中、词尾等120多种形式,匹配时必须模式中的字母形式与文本中的字母形式完全匹配。改进算法按照此精确方法匹配使匹配次数较多导致匹配效率低。本文考虑影响改进多模式匹配算法匹配效率低的因素,提出了一种新的维吾尔文多模式匹配算法(Uyghur Bohum patterns Match Algorithm)。该算法通过Bohum-sani函数与Bohum-xekli函数分析单词音节规律,两个函数分别得到音节数和音节组合形式。如果文本单词的音节数与模式中的任何一个单词音节数不相等则直接跳过此单词比较下一个单词,若发现与任何模式音节数相等进一步比较音节组合形式,结果两个函数值都相等匹配成功输出模式。算法采用一个单词为单位长度的比较方法来跳跃,此跳跃方法可以避免较多字母形式的比较次数繁多的环节,测试实验结果可发现本文提出的算法比改进的多模式匹配算法效率更好。为了给用户提供更好的维吾尔文模式匹配处理平台,搭建了一个基于多模式匹配算法的维吾尔文本过滤系统。课题项目的要求并建立了新的《不良信息关键词库》,建立的库涉及到色情、毒品、诈骗等方面,用户可以使用《不良信息关键词库》库过滤文本提供绿色的文本资源。
其他文献
反腐倡廉是廉政建设的基本内容也是思想道德建设的集中体现。中国共产党历来坚持“反腐倡廉”,尤其是在经济体制转换的改革开放时期,更是把“反腐倡廉”作为党风廉政建设的行
中国共产党的执政地位是历史和人民的选择。党的执政地位和执政权威随着中国革命和建设历程而不断得到巩固,这是由于中国共产党为中国社会发展和人民幸福带来源源不断的执政
城乡规划是行政法学界研究的一个薄弱点,虽然有一些研究成果,但主要集中于基本理论、程序以及可诉性方面的研究,对于其进入司法审查之后的审查标准等问题关注较少。与一般行
随着国民经济的发展,近海工程项目投入建设力度加大,与此同时,海洋灾害对其造成的损失也愈发严重。琼州海峡衔接广东、海南两省,因其独特的地理位置,琼州海峡频受风暴潮侵袭
社区教育是非正规教育中的重要组成部分,而社区教育的动力机制研究是目前非正规教育中主要的理论根基,只有厘清社区教育动力机制发展运行规律,分析社区中各要素联系推动机理,才能更进一步发展社区教育服务社会,尤其是农村地区的社区教育成为扶贫脱贫,乡村振兴战略的有力抓手,M社区作为云南省少数民族农村社区真正做到了通过社区教育实现社区脱贫,推动乡村产业振兴,乡村人才振兴,乡村文化振兴,乡村生态振兴和乡村组织振兴
作为一个有前景的密码学技术,基于属性加密已经用于保护外包数据安全。然而,在现有的基于属性加密方案中仍然存在一些问题。首先,用户的访问特权可能会动态且频繁地变动,因此
波浪冲击荷载问题是海洋工程领域的传统问题,但它同时又一直是一个前沿问题,因为随着人们对海洋环境更深入的认识,波浪冲击荷载问题又不断地出现新的挑战。这其中就包括近年
作为油田勘探与开发过程中重要的承载构件,井架是钻机系统起升设备中必不可少的组成部分。由于钻井作业常常要在野外恶劣的环境下进行,其工作环境远比一般的钢结构物恶劣。近
微藻含有丰富的油脂和多不饱和脂肪酸等重要成分,可成为油脂生产的理想原料。微藻生长在水性介质中,具有较强的光合效率,较短的生长周期,利用CO_2减少温室气体的排放等优势。本文旨在探究微藻油脂湿法提取工艺及其作用机制,并评价藻油成分及其品质。以裂殖壶藻(Schizochytrium sp.)为原料,比较不同的预处理方法对微藻细胞破碎率和油脂得率的影响。结果表明,采用超声及高压均质处理可有效破碎微藻细胞
随着太赫兹科学与技术的快速发展,一系列太赫兹功能器件的研究得到了广泛关注。利用太赫兹超材料的异常透射效应和石墨烯的高电子迁移率、高载流子浓度和可调谐特性,为设计太