维吾尔文文本分类系统的设计与实现

来源 :新疆大学 | 被引量 : 0次 | 上传用户:jeff1986928
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今世界,信息传播越来越依赖于互联网,信息传播呈现出海量、迅速、失控等特点。所以互联网是把双刃剑,既消除了人们因为信息不对称性带来的商机的错失,也使人们陷入了信息量太多而难以识别的尴尬境地,所以说互联网影响甚至改变了世界。互联网的快速发展很自然的也带来了海量数据的指数型攀升,人们对从海量数据中寻找到对自己有用信息感到有心无力,甚至感到厌烦、疲惫。如何使人们快速、准确的寻找到对自己有用的信息呢?文本分类技术就应运而生。所谓文本分类,就是把大量信息分为不同的类,那样人们就会快速准确的找到对自己有价值的信息。所以,研究文本分类技术可以改变这种状况并且具有重大研究意义。本文的主要研究内容如下:经过查阅大量相关资料与文献,提出了一种特征选择方法,经过实验验证该算法大大提高了维吾尔文各项分类指标且算法复杂度低。该方法首先结合平均文档数和类别内特征频率以及类内分散度,然后引入信息增益算法进行平衡,对维吾尔文进行特征提取,形成特征词典。特征词典名显提高了维吾尔文文本分类的各项评估指标。为了更好的提高维吾尔文文本分类的准确率与F1值,在深入观察自然界森林播种的基础上提出森林优化特征提取优化算法。结合维吾尔文语法与构词特点并把此算法应用到维吾尔文文本分类中去。该方法首先运用期望交叉熵算法对所有特征词进行粗提取,然后把所有特征词形成特征森林。接着对特征森林处理,形成不同的特征森林子树,对特征森林局部播种和全局播种,找到其最优树。通过对该方法进行有效的改进,提取出的文本词典更能代表该文本类的含义,极大提高了维吾尔文文本分类的各项评价指标。为了更好的更好的呈现算法处理每个步骤的结果,所以综合不同算法设计了维吾尔文文本分类系统。该系统主要包含以下内容:登录子模块,分类系统模块,鱼群算法子系统,鸟群算法子系统,互信息算法子系统,改进卡方算法子系统,信息增益子系统,森林优化算法子系统等若干子系统。通过对该系统的测试表明,该文本分类系统较为全面呈现了维吾尔文文本处理的各个算法步骤。并且该系统运用加密算法对用户的密码进行加密,所以该系统不仅满足了不同的用户需求,而且还有很好的保密性。
其他文献
近年来,我国建筑产业规模不断扩大,总产值持续增长,传统监管方式逐步显现出许多不适应建筑市场快速发展的特征。在新疆范围内各数字化管理系统的功能大多比较单一,且各相关业
变速抽水蓄能可成为电网负荷频率控制、平衡可再生能源发电出力波动的有效手段。为了充分发挥抽水蓄能机组的调峰、调频能力,采用交流励磁电机替代同步电机,提高机组的效率,增强系统稳定性。目前国内外研究单位大多还是从经济效益出发对常规抽水蓄能电站进行评估,对于抽水蓄能技术评估尤其是变速机组的功率调节能力还很少有量化研究。基于此,本文通过对变速抽水蓄能机组功率调节能力的影响因素指标进行探究分析,提出具体量化评
近年来,随着我国建筑行业的不断升温,越来越多的绿色新型建筑材料投入并应用于建筑市场当中,而作为建筑材料中十分重要的组成—墙体和墙板材料,其发展方向也逐渐向绿色、节能
随着我国高速公路的四通八达建设,逐渐地拉近了各地的经济发展距离,并使得我国经济快速平衡的发展,但是约占全国总面积三分之一是大片的山区,然而山区高速公路建设中所牵涉的环境问题也越来越严重和突出,山区高速公路的建设常常对周围的环境和资源造成了巨大破坏,快速发展更多更好的公路理念和维护环境自然生态的要求,在高速公路工作中一直充满矛盾,为了避免或减少项目对环境的不利影响,建设单位必须从高速公路设计源头路线
研究性学习是一门以学生为主体的、具有实践性的教育与教学活动,目的是使学生通过自主学习,养成终身学习和可持续发展的习惯,并在学习中提升实践能力。伴随全球化进程加快,我国新课程改革进入深化阶段,素质教育全面推进,研究性学习能够为新课程改革提供新方向,使学生和教师的观念都得到转变,能够推动素质教育目标的实现。本文以海南省昌江黎族自治县矿区中学为例,通过在本校高中历史课堂中,对研究性学习的实践与反思,阐述
随着无线通信技术的进步和对新技术的广泛研究,为了实现更可靠,安全和高速的连接,多入多出(MIMO)即将成为最有竞争力的技术。简而言之,MIMO是在发射机和接收机端布置两个或以
目的:本课题采用龙虎交战针法治疗腰椎间盘突出继发坐骨神经痛,并与常规针刺法进行对比,探讨龙虎交战针法对腰椎间盘突出继发坐骨神经痛的有效性与可行性,为治疗腰椎间盘突出继发坐骨神经痛提供临床思路。方法:病例选取2018年10月至2019年11月就诊于石家庄市中医院针灸科门诊及病房并符合纳入标准患者,共60例。采用随机数字表法分为两组,治疗组(龙虎交战针刺组)30例,对照组(常规针刺组)30例。两组治疗
近年来,越南旅游业不断突破和发展,被世界旅游组织列为世界旅游增长最快的国家之一。在对旅游开发有利的条件下,尤其是具有海洋旅游的优势,城市旅游的核心价值,已经达到了吸引人的目的地,并且正逐渐成为全国旅游的亮点,尤其是岘港旅游,每年吸引数百万的游客。对于国际游客来说,在过去的一段时间,随着人流量的不断增长,城市也将面临一定的挑战。随着“旅游热”的迅速升温,并且已经达到了一个高的阶段,如果不解决手头上的
光学乐谱识别(Optical Music Recognition,OMR)是实现乐谱图像数字化的重要途径,在计算机音乐、数字音乐图书馆、计算机辅助音乐教学等领域有着广泛的应用前景。音乐符号的识别是光学乐谱识别的重要研究内容。目前在音乐符号识别上存在着一些难点:乐谱的结构非常复杂、音乐符号的尺寸极小、部分符号过于密集(和弦)等导致音乐符号的识别精度不高。随着人工智能技术迅猛发展,深度学习算法在OMR
微博凭借自身技术和平台优势,已成为公众舆论的主要集散地和最大出口,成为影响社会舆论格局不可忽视的力量。现阶段,我国微博舆情传播总体态势良好,但也存在诸多困境需要引起