基于统计的维吾尔文自动分类研究

来源 :中国科协2005年学术年会 | 被引量 : 0次 | 上传用户:zwj54255
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了把维吾尔语计算语言学自然语言处理的方法应用于维吾尔文文本计算机自动分类的研究.建立了维吾尔文语料库,维文文本表示采用向量空间模型的方法,用词作为维语的语言单位,既用词、词组、词串为特征单位,采用基于词频统计和规则的特征项的抽取,结合维文自然语言理解来提取文本特征.对词进行结构分析,根据词的结构和中心名词的属性,分类领域属性.采用时事新闻、教育、体育、文学、旅游、新疆民族风情等20类型,本文以维文政治、体育、娱乐、医学的分类为主,对此四种分类实现训练和测试,最终以统计的方法确定该文本的类别,开发了一个维文文本自动分类实验系统.
其他文献
精原干细胞(spermatogonialstemcells,SSCs)是出生后动物体内在整个生命过程中经历自增殖并能将基因传至子代的唯一干细胞群.自SSCs移植技术建立以来,SSCs相关研究进展很快,
会议
座落于万里长江第一城宜宾西郊的国营建中化工总公司(以下简称:“建中化工”)伴随着共和国核工业的发展已经走过了四十年的历程。建中化工历经四十多年的艰苦创业,经改革沐风
期刊
用正交设计法研究地骨有效部位的提取工艺.选取浸膏得率、香草酸和肉桂酸的得率作为评价指标.对溶剂用量、提取时间和提取次数三个因素选用L9(34)正交表进行考察.确定最佳工
会议
展聪公司2004年初成立,通过市场细分--目标市场搜寻--市场和产品定位制定营销战略,最后采取整合营销的战略:借助别人品牌,定位自己的市场,设计直接营销渠道,进行国际营销,利
会议
本文系统地介绍了我国长输管道的施工现状,主要内容为长输管道钢管管材的发展、钢管制造、管道内外防腐、管道各种焊接、非开挖管道穿越方法、特殊地段的施工方法.
能源问题越来越被世界各国所关注,面对国际石油和天然气市场日益上涨的价格,许多国家都在考虑建设战略储备基地和LPG/LNG接收站.本文比较详细地介绍了世界上普遍采用的原油储
会议
本文介绍了一种新型的短波跳频通信技术--差分跳频.频率转移函数设计和信号的检测方法是差分跳频中的关键技术,在瑞利衰落信道上的异步多用户环境中,提出了一种改进的非相干
会议
目的:探讨肺隔离药物灌注治疗转移性肺癌的临床疗效. 方法:10例肺功能不能耐受一侧全肺切除的多发性转移性肺癌进行肺隔离药物灌注化疗,即将肿瘤所在的肺或肺叶的肺动静脉
会议
目的:探讨肾素基因新多态性与原发性高血压的关联性. 方法:运用PCR-SS-CP方法,对肾素基因外显子4~8进行扫描,以发现新的多态性;运用PCR-RFLP确定新的多态性及外显子9上的错
会议
烷基苯磺酸盐是一种表面活性剂,用于驱油时则需要与聚合物、氢氧化钠之间的协同效应;在不同的地层条件下其三元体系配方是不同的,本文针对大庆萨南油田对国产烷基苯磺酸盐的