基于NaiveBayes的维吾尔文文本分类算法及其性能分析

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:zzj0926
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以大规模网络维吾尔文文本的自动分类技术研究为背景,设计模块化结构的维吾尔文本分类系统,在深入调研基础上选择NaiveBayes算法为分类引擎,用.C#实现分类系统。预处理中,结合维吾尔语的词法特征,通过引入词干提取方法大大降低特征维数。在包含10大类共计3000多个较大规模文本语料库基础上给出分类实验结果,再通过x2统计方法选择不同数目的特征,也分别给出分类实验结果。结果表明,预处理后的维吾尔文特征空间中只有1%-3%特征是最佳的,因而进一步确定哪些是最佳特征或降低特征空间维数是有可能的。
其他文献
文章对肉毒杆菌毒素A的药理作用、毒副作用、禁忌证及在耳鼻喉科的应用进行综述,认为在治疗局灶性肌张力障碍方面,是安全而有效的,值得推广应用。
慕课在高中思政课运用中要加强慕课平台建设,培训专业制作团队,坚持以教学内容为主,教学方式为辅,注重意识形态的引领以及知识的系统化。
肝移植是治疗肝细胞肝癌(Hepatocellular carcinoma, HCC)的重要方法,但移植后的HCC复发影响了治疗效果,尽管有严格的纳入标准,但移植术后仍有较高的复发率。随着分子生物学
电力的良好发展是国民经济良好发展的助推器。当然,电力的健康发展除了为国家创造更高的经济效益外,还可以使人们的生产经营和日常生活更加顺利,从而创造更高的社会效益。其
大众文化是以满足人们娱乐需求的商业文化。在新媒体的助力下对人们的精神生活发生了很大影响,并在一定程度上造成了大学生价值选择的混乱。源远流长的中华民族传统文化包含着
新课程标准是国家教育方面的一个基本纲领性文件,新课程同时也带来了新一轮的课程改革。在小学语文的课堂教育中,一些新思想新的领域渐渐取代了一些旧的教育方式。新课程的发展
基于双语平行语料库的翻译教学是一种以学习者为中心的教学模式,能充分调动学生的学习主动性。双语平行语料库在翻译教学中的应用主要体现在词汇、句子和语篇三个层次上。基
随着国家经济发展越来越快,科学技术不断的提高和实践,电力业也到了发展巅峰,配电线路带电作业的相关技术随着我国的科技发展和用电需求的发展,我国的相关技术也得到了很大的
ABEEMσπ(Atom-Bond Electronegativity EqualizationσπModel)模型中,原串行程序求静电相互作用能的方法非常耗时,致使研究问题的效率降低。针对原程序中多个循环相互嵌套的求解部分,采用带状卷帘存储迭代分配的MPI(Message Passing Inter-face)并行化处理;对体系中所有原子、σ键、孤对电子、π键位点之间的静电相互作用能采用多线程C