基于混合策略的维吾尔语名词词干提取系统

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:beiebi3807b
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对维吾尔语名词形态结构进行研究,并构造了名词有限状态自动机(FSM).然后针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,最后根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处理方法。本文,有机结合以上三种方法构造出了基于规则和统计的名词词干提取方法.为了有效利用现有的资源,提高系统的性能,把基于词典的词干提取方法与规则和统计相结合的名词词干提取方法的结合,从而开发出多种策略相结合的维吾尔语名词词干提取系统,该系统具有较强的鲁棒性,准确率保持95%以上。
其他文献
所谓学科体系,是指某一学科的内在逻辑结构及其理论框架。对一门学科来说,确立科学合理的体系至关重要。如果体系与学科本身性质相悖,必然会损害到该学科的科学性。只有建立正确合理的学科体系,才能把该学科的各方面内容完整地有机地组合在一起,较客观地反映该学科科学研究的现状,揭示科学发展的规律,并在一定程度上预测该学科科学发展的趋势,发挥学科体系对学科发展、人才培养和科研管理、学术评价、学科建设等工作的重要指
名词性科技术语在整个科技术语中占有很大的比例,这是笔者在研究科技术语翻译的过程中所发现的.要译好名词性科技术语首先要了解并研究其结构的构成特征,然后才能联系实际做出精确翻译.本文首先回顾了国内诸研究工作者对科技术语的特征所做的研究和描述,接着谈到了名词性科技术语的分类.文章认为名词性术语可分为两大类,即某个单独的名词可以表示一个事物或概念,某两个或两个以上的合成名词也可以表示一个事物或概念.具体而
@@节奏、句式和意境是中国古典诗歌研究中极为重要的三个范畴。节奏是传统诗学中的句法论的研究重点。论诗者普遍著重研究分析单音节和双音节词如何组合成句,从而创造出独特的韵律与美学效果。意境或意象则指诗歌作品中所呈现主、客观世界之实相。古代批评家对诗歌意境的研究,都集中于探索这种实相的“超越”特征,即所谓“言外之意”、“象外之象”、“境外之境”,等等,通常是从纯粹的审美角度,对这种“超越”特征加以印象式
会议
事件信息抽取是自然语言处理中一个较新的领域,汉语方面还有很大的研究空间。本文提出了一个以完整突发事件文本为处理对象的事件信息抽取策略。目前语义角色的识别和分类多是基于句子,针对一个完整语篇进行信息自动抽取更加复杂。我们的方法是通过主副线信息结构链的构成分析,确立了突发事件文本三级层次的事件框架体系,并在此基础上首先过滤副线信息链,然后识别事件词,进而进行论元及事件属性的识别以及分类,形成结构化的数
本文在“过程法”写作教学理论的指导下,利用网络讨论区进行了大学英语写作教学的实践。文章不仅详细介绍了实现“过程法”英语写作教学的具体步骤,也论述了如何利用网络教学工具更好的发挥网络的优势为大学英语写作教学服务,以及教师在网络写作教学中要注意角色的转变等问题。文章最后对基于网络讨论区的大学英语写作教学实践进行了反思,并对网络环境下的大学英语教学与研究提出了一些意见。
本文根据Halliday和Hasan的连词分类,采用语言统计的方法,在中国学习者英语语料库(CLEC)的四六级两个作文语料库中,对28个连接词进行检索。目的是为了比较大学英语四六级作文中连接词的使用特点,并揭示研究结果对英语语言教学的启示。研究结果表明四六级学习者作文中的连接词使用情况没有显著性差异并呈现出单一化趋势。这说明大学英语教学并没有使得学生的语篇布局能力和使用语篇衔接手段的能力得以提高,
通用口语语料库由于自身结构和数据冗余的原因,难以和口译教学实践相结合,外语教师可以自建小型口译教学语料库以辅助口译教学。本文从语料选取、标注工具制作和语料呈现三个方面描述口译教学语料库的具体创建过程,并探讨其应用优势及理论基础。
由于藏文编码国家标准和国际标准发布较晚,并且基于国际标准小字符集编码实现藏文支持的技术相对复杂,藏文应用软件一般使用自定义的藏文编码实现对藏文的支持.由于藏文编码繁多,为了实现对有限的藏文电子资源的充分利用,开发一套藏文编码转换软件是十分必要的.本文设计并实现了一套名为“藏码通”的藏文编码转换软件,可以实现藏文Unicode基本集编码、国家标准扩充集A编码、方正Dos编码、方正Windows编码、
本文以提高合成语音自然度为研究背景,以语句韵律层级的手动标注提供理论依据为目标,首先定义了维吾尔语韵律和层级,收集整理了一套适合于现代维吾尔语句子韵律层级划分的规则和方法包括句子成分分析法、词组分析法、助词分析法、独立成分分析法等;筛选了40630个典型文本句子,并进行了各韵律层级的人工标注。为了验证其可靠性,聘请了专业播音员录制1497个句子,对比了文本句子手动标注与语音句子的听觉标注结果。实验
最大熵模型能够充分利用多个任意的特征。本文中提出基于最大熵模型的维吾尔语词性标注方法。本文中主要的工作是选出对兼类词和未登录词词性标注有较大贡献的特征。作为黏着语言,维吾尔语单词为表达语法功能而附加词缀。本文中,除了前后单词的词性和词形之外,把前后单词的最后词缀作为特征使用。实验结果表明,前后单词的最后词缀对兼类词和未登录词的词性标注有着明显的提高,模型准确率到达96.58%。