借重于人工知识库的词和义项的向量表示:以HowNet为例

来源 :第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD | 被引量 : 0次 | 上传用户:xiaokeai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文旨在以HowNet为例,探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型,在大规模语料库上无监督训练得到,但这种框架面临两个困难问题:一是低频词的词向量质量难以保证,二是多义词的义项向量无法获得。本文提出了融合HowNet和大规模语料库的义原向量学习神经网络模型,并以义原向量为桥梁,自动得到义项向量及完善词向量。初步的实验结果表明该模型能有效提升在词相似度和词义消歧任务上的性能,有助于低频词和多义词的处理。作者指出,借重于人工知识库的神经网络语言模型应该成为今后一段时期自然语言处理的研究重点之一。
其他文献
  本文标注《世说新语》的篇章结构,据此研究其连接词的显隐、语义及用法.研究发现:1)隐式关系(3346,81.9%)多于显式关系(786,18.1%),17类关系仅有3类(假设,选择,让步)显多隐
  We introduce a monolingual query method with additional webpage data to improve the translation quality for more and more official use requirement of statis
会议
  The paper proposes a sentence alignment method based on maximum entropy model using anchor sentences to align ancient and modern Chinese sentences in histor
会议
  Hedge detection aims to distinguish factual and uncertain information,which is important in information extraction.The task of hedge detection contains two
会议
  Unlike previous Mongolian morphological segmentation methods based on large labeled training data or complicated rules concluded by linguists,we explore a n
会议
  实体相似度的计算有诸多应用,例如电商平台的相似商品推荐,医疗疗效分析中的相似病人组等。在知识图谱的实体相似度计算中,给出了每个实体的属性值,并对部分实体进行相似
  A great number of clinicians in mainland China are under increasing pressure to publish their research results on international journals,and they urgently n
会议
  高考阅读理解选择题是基于背景材料,通过对材料的“理解”从多个选项中选出最佳选项.由于提供的背景材料相对较短且关键信息极具隐藏性,答案可能无法在背景材料中直接找到.
会议
  经过对大量维吾尔文网站的调查与分析,本文从多语种混合网页中针对维吾尔文网页识别进行了研究.这对维吾尔语信息处理工作起着关键的作用.首先本文探讨了维吾尔文不规范网
会议
  AMR是国际上一种新的句子抽象语义表示方法,有着接近于中间语言的表示能力,其研发者已经建立了英文《小王子》等AMR语料库.AMR与以往的句法语义表示方法的最大不同在于两个
会议