基于N-gram的维吾尔文文本分类研究与系统实现

来源 :新疆大学 | 被引量 : 0次 | 上传用户:bencui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征提取是文本分类的重要环节,特征提取时可以选择字、词和短语作为特征。以词作为特征时,特征提取过程中需要分词工具、词干提取工具、词性标注器、语义分析器、电子词典、拼写校对工具、完整的停用词表和标准的文本语料库等有关工具和资源,但维吾尔文信息处理技术还在处于进一步完善和巩固阶段,在网上公开发布的有关工具和资源很少。由于维吾尔语是黏着型语言,连接单词的附加成分众多,单词的形态变化非常丰富,因此人很难避免拼写错误和语法错误。考虑到以上情况,本文设计与实现了N-gram的维吾尔文文本分类系统,该系统的特点是不需要词干提取、词性标注等自然语言工具,拼写错误对文本分类的影响降低到最低。本文的特征提取过程中探讨了字符级别的N-gram模型。其次深入的研究了维吾尔文N-gram模型的参数N的选取问题。在特征选择方法中采用了与上下文信息有关的N-gram特征项频率统计方法,在收集到的训练文本集上构建了每类的N-gram特征库。在测试文本集上用Manhattan和Dice相似度距离方法进行分类实验。当N-gram模型的参数N相同时,随着特征数目的增大,系统的分类性能有所提高,但是特征数目到400后分类性能有所下降。实验结果表明,用5-gram表示文本时,在特征项数目为400时,Manhattan相似度距离方法得到最佳的分类性能,采用2-gram的分类效果最差。最后将维吾尔文的特点与基于N-gram频率统计的文本分类方法相结合,设计与实现了一个维吾尔文文本分类实验平台(基于N-gram的维吾尔文文本分类系统)。
其他文献
主要资本主义国家政治专题知识体系概说高中历史专题知识体系(七)●胡宏伟孙闻彬●政治是经济的反映,随着经济的发展,旧的政治状况就越来越不适应社会经济发展的需要,于是政治变化
<正>临床试验表明,降压能降低脑卒中风险,尤其是在高龄老人。生理功能和认知功能受损,又将影响老年人脑血管病的发生发展。然而既往关于生理功能和认知功能受损与高血压及脑
<正>自2003年下半年起,中央对电解铝实施宏观调控以来,中国电解铝工业发生了巨大变化。电解铝投资热一下降到了零,按生产经营成本分析,目前约78%的产能处于亏损状态,整个电解
在信息技术日益发展、电子文本信息迅速膨胀的今天,文本分类作为组织和处理大量文本数据的关键技术,越来越受到人们的关注。本文研究了文本分类的相关技术,包括文本预处理技
长城要塞嘉峪关,作为一座见证大漠风云五百余年的关城,其存在形式随着王朝的更迭在人们观念中几经变迁。明人将其视为华夷"关限",清人视其为"鬼门关",民国时更视其为"废垒"。
从外贸企业的角度 ,分析了国际贸易结算中所面临的政治风险、信用风险和货币风险及其产生的后果 ,指出运用有理有效的预测方法对未来风险及其事故、后果进行科学预测是有效防
培养和发展学生的思维能力,是当前中学历史教学与搞好素质教育的重大课题。中学生的思维能力是在学习、掌握知识的过程中形成和发展的。现代教学理论认为“各门学科拥有源于各
<正>鹅足滑囊炎又称胫骨内髁炎,临床较少见,本院自1990年1月至2010年12月,应用局部封闭、中药外敷治疗72例效果满意,现报告如下。1临床资料72例患者均为本院门诊病人,患者主