论文部分内容阅读
专利文本统计机器翻译中使用微粒群优化改进Champollion
【机 构】
:
中国专利信息中心;中国专利信息中心-北京师范大学机器翻译联合实验室 中国专利信息中心
【出 处】
:
中国中文信息学会
【发表日期】
:
2013年11期
其他文献
由于藏文编码国家标准和国际标准发布较晚,并且基于国际标准小字符集编码实现藏文支持的技术相对复杂,藏文应用软件一般使用自定义的藏文编码实现对藏文的支持.由于藏文编码繁多,为了实现对有限的藏文电子资源的充分利用,开发一套藏文编码转换软件是十分必要的.本文设计并实现了一套名为“藏码通”的藏文编码转换软件,可以实现藏文Unicode基本集编码、国家标准扩充集A编码、方正Dos编码、方正Windows编码、
本文以提高合成语音自然度为研究背景,以语句韵律层级的手动标注提供理论依据为目标,首先定义了维吾尔语韵律和层级,收集整理了一套适合于现代维吾尔语句子韵律层级划分的规则和方法包括句子成分分析法、词组分析法、助词分析法、独立成分分析法等;筛选了40630个典型文本句子,并进行了各韵律层级的人工标注。为了验证其可靠性,聘请了专业播音员录制1497个句子,对比了文本句子手动标注与语音句子的听觉标注结果。实验
最大熵模型能够充分利用多个任意的特征。本文中提出基于最大熵模型的维吾尔语词性标注方法。本文中主要的工作是选出对兼类词和未登录词词性标注有较大贡献的特征。作为黏着语言,维吾尔语单词为表达语法功能而附加词缀。本文中,除了前后单词的词性和词形之外,把前后单词的最后词缀作为特征使用。实验结果表明,前后单词的最后词缀对兼类词和未登录词的词性标注有着明显的提高,模型准确率到达96.58%。
本文对维吾尔语名词形态结构进行研究,并构造了名词有限状态自动机(FSM).然后针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,最后根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处理方法。本文,有机结合以上三种方法构造出了基于规则和统计的名词词干提取方法.为了有效利用现有的资源,提高系统的性能,把基于词典的词干提取方法与规则和统计相结合的名词词干提取方法的结
维吾尔语语音合成研究方面,多音词的研究甚少是影响进一步提高合成性能的重要原因之一。本文深入研究维吾尔语中的多音词现象,从包括13,607,507个单词的708,322个句子文本中统计出了多音词在维吾尔语中的出现频率和不同读音的使用频率,通过分析统计结果并根据多音词本身的特征对它们进行分类。从而为进一步研究维吾尔语多音词自动注音方法打好了基础。
本文通过研究国内外相关的句法树库标注体系建设理论,再结合维吾尔语自身的特点,制定了维吾尔语句法树库标注体系规范,该标注体系包含两个标注集:功能语块标记集及短语标注标记集,在此基础上,采用了人工标注与自动标注相结合的方式完成了3000句规模的维吾尔语句法树库,为今后维吾尔句法树库研究的不断深入奠定了一定的基础。
电脑技术带来网际网路上大量且公开的数位资源,成为现代语言分析的丰富材料。网站语料的收集仅为第一步,后绩需根据形式特徵进行语料的整理、分类、撷取与标记等工作。与形式特徵相较之下,语言的功能更复杂多变,至今文献尚未当试语料库在此层面的应用。因此本文利用电脑近似人工智慧的技术分析台湾网路上的交章,将其文字转换为易于理解与分析的结构化段落,借此大幅减少人工标记的时间与人力,提升研究的广度与精度。此语用语料
本文研究从X光录像提取声道形状,并推导声道传递特性。首先根据汉语普通话的X光录像,设计了一种自动提取清晰边缘结合手工标记模糊边缘的方法,来提取声道边缘。并采用Mokhtari(1998)的方法,推导出汉语普通话主要元音的共振峰频率和带宽,计算结果与实际语音和前人的结果做了比较,减小了误差。为验证结果的有效性,根据计算出来的共振峰数据进行了语音参数合成,结果表明合成语音符合相应的元音音色。
@@ A well-known constraint on the mapping between referentiality and word order in Chinese is the prohibition of non-specific indefinite nominals from the subject position of a sentence (Chao 1968, Li
会议
@@ Along the vP-shell analysis by Larson (1988), it has been argued recently in the literature that the lexical category P, just like the lexical category V, also entails an extended projection (an FP
会议