基于PCFG的藏文疑问句句法分析

来源 :第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL 2018) | 被引量 : 0次 | 上传用户:ZYONGF
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文疑问句的句法分析在藏文问答系统、搜索引擎、信息的抽取和检索等领域有着广泛的应用前景.文章通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,归纳了各类藏文疑问句的结构特征,在此基础上利用PCFG对藏文疑问句进行了句法分析.经测试,在封测试集上的准确率、召回率和F值分别达97.6、97.3和97.4,在开放测试集上的准确率、召回率和F值分别达96.0、95.4和95.7.
其他文献
手语汉语平行语料库建立的目的是用于机器翻译和语言对比研究,并且能够系统地保存手语资源,保护手语和聋人文化.手语汉语平行语料库存储的内容主要包括手语视频、被采集者信息和标注者信息,以及通过多媒体标注软件ELAN转写的十四层标注信息,包括手控和非手控信息.本文提出使用基于向量空间的余弦相似性算法实现了手语语料相似度的计算来帮助语料库去重,并取得了较明显的效果;同时用此算法进行专家相似度测试以确保语料库
正确划分句子的韵律结构对于提高合成语音的质量具有重要的意义.而特征的选择是韵律结构预测的关键因素之一.在中文信息处理中,文本特征可以分为浅层文本特征与深层文本特征,浅层特征包括词、词性、词长等,深层特征包括句法信息、语义信息等.该文在挖掘剖析句法结构、依存句法结构同韵律结构之间关系的基础上,从文本中获取相关浅层和深层文本特征,并采用条件随机场模型实现韵律短语预测.该文首先以浅层文本特征进行韵律短语
机器阅读理解是NLP领域的一个研究热点,目前大部分是对答案简短的问题进行研究,而具有长答案的问题,如描述类问题是现实世界无法避免的,因此有必要对该类问题进行研究.本文采用QU-NNs模型对阅读理解中描述类问题的解答进行了探索,其框架为嵌入层、编码层、交互层、预测层和答案后处理层.由于该类问题语义概括程度高,所以对问题的理解尤为重要,在模型的嵌入层和交互层中分别融入了问题类型和问题主题、问题焦点这三
反问是一种带有强烈情感色彩的表达方式,对其进行自动识别将提升隐式情感分析的整体效率.针对汉语反问句识别问题,本文分析了反问句的句式特点,将反问句的句式结构融入到卷积神级网络的构建中,提出一种融合句式结构的卷积神经网络的反问句识别方法.首先利用置信度大于70%的反问句的特征词、序列模式,对大规模未被标注的微博语料进行初步筛选,获取大量伪反问句.然后通过多个卷积核分别对句子的词向量和反问句的特征进行抽
藏语语义依存分析是以藏语依存句法分析为基础的深层语义研究.本文从词法分析和句法分析等浅层研究出发,结合藏语自身语法结构和语义单位之间的关系特点,首次实现了藏语的语义依存分析.本文在制定了藏语语义依存关系标注规范并设计了藏语语义依存关系特征模板的前提下,采用了感知机进行了藏语语义依存分析模型的训练,经实验本模型在人工标注测试语料上的根准确率、依存弧准确率、依存弧类型准确率及完全准确率等4个指标分别达
为了学习文本的语义表征,之前的研究者主要依赖于复杂的循环神经网络(recurrent neural networks,RNNs)和监督式学习方法.本文中,提出了一种门控联合池化自编码器(gated mean-max AAE),用于学习通用性的文本语义表征.本文的自编码器完全通过多头自注意力机制(multi-head self-attention mechanism)来构建编码器和解码器网络.在编码
特定目标情感分类是一个极具挑战的任务,其目的是确定上下文语境中某些实体所表达的情感.由于目标实体的情感依赖于实体本身以及对上下文的理解,在分类时应该同时考虑句子和目标实体,并且需要将目标实体与上下文语义进行充分地整合.因此,本文提出:句子、目标实体共同编码方法;基于动态注意力DAGRU(Dynamic Attention Gated Recurrent Unit)的特定目标情感分析方法.共同编码是
法律文本中有一种表条件“的”字结构,本文对其英译进行语法标注与统计分析.考察《民法通则》的汉英平行文本,确定“的”字结构的英语对应单位,分析发现,“的”字结构的英语对应单位,状语远多于定语(84.67%>15.33%);限定式远多于非限定式(87.59%>12.41%),限定式中一般现在时占绝对多数(99.17%),非限定式以介词短语为多(64.71%);3.状语引导词远多于定语引导词(86.57
人机交互中最自然、最理想的交流方式为语音,其中主要涉及到了语音合成,即文本转换为语音的技术.随着神经网络理论的不断深入,基于神经网络的语音合成技术越来越引起人们的关注.文章通过分析藏文字结构与拼读规则,融合Sequence to Sequence模型和注意机制,研究了基于神经网络的藏语语音合成技术.实验数据表明,该文方法对藏语语音合成具有良好的性能表现.
语义双关语是幽默、笑话和喜剧等作品的来源之一,在人类写作的发展进程中具有重要的历史地位.由于语义双关语存在歧义难懂的特点,因此难以挖掘语义双关语的潜在语义信息,故目前语义双关语的检测和双关词的定位是自然语言处理任务中的一项困难和挑战.本文在语义双关语的理论基础上,挖掘了一系列的潜在语义特性,并构建了对应每个特性的特征集,用以检测语义双关语;同时从潜在语义特性出发,本文提出了一种基于词向量和同义词融