基于远监督的语义知识资源扩展研究

来源 :第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD | 被引量 : 0次 | 上传用户：lichengjing626

【摘要】

：

　　语义知识资源蕴含了深刻的语言学理论，是语言学知识和语言工程的重要接口。本文以形容词句法语义词典为研究对象，探索对语义知识资源自动扩展的方法。本文的目标是利用大规

【作者】

：

卢达威[1]王星友[2]袁毓林[1]

【机构】

：

北京大学中文系,北京100871

【出处】

：

第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD

【发表日期】

：

2016年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　语义知识资源蕴含了深刻的语言学理论，是语言学知识和语言工程的重要接口。本文以形容词句法语义词典为研究对象，探索对语义知识资源自动扩展的方法。本文的目标是利用大规模语料库，扩展原有词典的词表及其对应的句法格式。具体方法是根据词的句法格式将词典的词分类，将待扩展的新词通过分类器映射到原有词典的词中，以此把词典扩展问题转化为多类分类问题。依据的原理是词典词和待扩展新词在大规模语料中句法结构的相似性。本文通过远监督的方法构造训练数据，避免大量的人工标注。训练过程结合了浅层机器学习方法和深度神经网络，取得了有意义的成果。实验结果显示，深度神经网络能够习得句法结构信息，有效提升匹配的准确率。

其他文献

英汉《小王子》AMR语义图结构的对比分析

　　AMR是国际上一种新的句子抽象语义表示方法，有着接近于中间语言的表示能力，其研发者已经建立了英文《小王子》等AMR语料库.AMR与以往的句法语义表示方法的最大不同在于两个

会议

借重于人工知识库的词和义项的向量表示:以HowNet为例

　　本文旨在以HowNet为例，探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型，在大规模语料库上无监督训练得到，但这种框架面临两个困

会议

词典与机器学习方法相结合的维吾尔语文本情感分析

　　随着互联网整体水平的提高，大量基于维吾尔语的网络信息不断建立，引起了对不同领域的信息进行情感倾向性分析的迫切需要.本文考虑到维吾尔文没有足够的情感训练语料和完整

会议

利用源域结构的粒迁移学习及词性标注应用

　　迁移学习在一定程度上减轻了目标域的数据稀疏问题对泛化能力的影响,然而泛化能力的提高仍然受到负迁移等问题的影响。为了解决负迁移问题,本文提出使用源域结构的文本语

会议

Error Analysis of English-Chinese Machine Translation

　　In order to explore a practical way of improving machine translation(MT)quality,the error types and distribution of MT results have to be analyzed first.Thi

会议

面向阅读理解复杂问题的句子融合

　　阅读理解的研究是目前NLP领域的一个研究热点.阅读理解中好的复杂问题解答策略不仅要进行答案句的抽取，还要对答案句进行融合、生成相应的答案，但是目前的研究大多集中在前

会议

基于DNN的汉语框架识别研究

　　框架识别是语义角色标注的基本任务，它是根据目标词激起的语义场景，为其分配一个合适的语义框架.目前框架识别的研究主要是基于统计机器学习方法，把它看作多分类问题，框架识

会议

基于文本语义离散度的自动作文评分关键技术研究

　　本文尝试从文本语义离散度的角度去提升自动作文评分的效果，提出了两种文本语义离散度的表示方法，并给出了数学化的计算公式.基于现有的LDA模型、段落向量、词向量等具体方

会议

汉语谈话类节目语料库的构建与分析

　　口语语料库的建设是口语研究的基础工作，本文选择具有代表性的交谈式谈话节目《锵锵三人行》和对谈式谈话节目《鲁豫有约》作为语料，建立了一个小型的谈话节目语料库，并构建

会议

网络用语词典的构建及问题分析

　　随着互联网应用的快速发展，网络用语的使用越来越普遍，网络新词层出不穷。网络文本中大量的网络用语，对基于自然语言处理的情感分析、产品推荐、自助问答系统等应用带来了一

会议

网络用语词典构建自然语言处理语料互联网应用问题问答系统

基于远监督的语义知识资源扩展研究

与本文相关的学术论文