借重于人工知识库的词和义项的向量表示:以HowNet为例

来源 :第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD | 被引量 : 0次 | 上传用户：xiaokeai

【摘要】

：

　　本文旨在以HowNet为例，探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型，在大规模语料库上无监督训练得到，但这种框架面临两个困

【作者】

：

孙茂松[1]陈新雄[2]

【机构】

：

清华大学计算机科学与技术系,清华信息科学技术国家实验室,清华大学智能技术与系统国家重点实验室,北京,100084

【出处】

：

第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD

【发表日期】

：

2016年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　本文旨在以HowNet为例，探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型，在大规模语料库上无监督训练得到，但这种框架面临两个困难问题：一是低频词的词向量质量难以保证，二是多义词的义项向量无法获得。本文提出了融合HowNet和大规模语料库的义原向量学习神经网络模型，并以义原向量为桥梁，自动得到义项向量及完善词向量。初步的实验结果表明该模型能有效提升在词相似度和词义消歧任务上的性能，有助于低频词和多义词的处理。作者指出，借重于人工知识库的神经网络语言模型应该成为今后一段时期自然语言处理的研究重点之一。

其他文献

《世说新语》的篇章连接词

　　本文标注《世说新语》的篇章结构,据此研究其连接词的显隐、语义及用法.研究发现：1)隐式关系(3346,81.9％)多于显式关系(786,18.1％),17类关系仅有3类(假设,选择,让步)显多隐

会议

世说新语连接词类关系用法同义篇章结构个案分析多义

I Can Guess What You Mean:A Monolingual Query Enhancement for Machine Translation

　　We introduce a monolingual query method with additional webpage data to improve the translation quality for more and more official use requirement of statis

会议

Sentence Alignment Method Based on Maximum Entropy Model Using Anchor Sentences

　　The paper proposes a sentence alignment method based on maximum entropy model using anchor sentences to align ancient and modern Chinese sentences in histor

会议

Chinese Hedge Scope Detection Based on Structure and Semantic Information

　　Hedge detection aims to distinguish factual and uncertain information,which is important in information extraction.The task of hedge detection contains two

会议

Semi-supervised Learning for Mongolian Morphological Segmentation

　　Unlike previous Mongolian morphological segmentation methods based on large labeled training data or complicated rules concluded by linguists,we explore a n

会议

知识图谱中实体相似度计算研究

　　实体相似度的计算有诸多应用,例如电商平台的相似商品推荐,医疗疗效分析中的相似病人组等。在知识图谱的实体相似度计算中,给出了每个实体的属性值,并对部分实体进行相似

会议

知识图谱实体相似度计算方法集成学习模型Logistic回归噪声数据学习问题数据类型

The Construction of a Customized Medical Corpus for Assisting Chinese Clinicians in English Research

　　A great number of clinicians in mainland China are under increasing pressure to publish their research results on international journals,and they urgently n

会议

面向高考阅读理解的句子语义相关度研究

　　高考阅读理解选择题是基于背景材料，通过对材料的“理解”从多个选项中选出最佳选项.由于提供的背景材料相对较短且关键信息极具隐藏性，答案可能无法在背景材料中直接找到.

会议

基于多策略的维吾尔文网页识别方法

　　经过对大量维吾尔文网站的调查与分析，本文从多语种混合网页中针对维吾尔文网页识别进行了研究.这对维吾尔语信息处理工作起着关键的作用.首先本文探讨了维吾尔文不规范网

会议

英汉《小王子》AMR语义图结构的对比分析

　　AMR是国际上一种新的句子抽象语义表示方法，有着接近于中间语言的表示能力，其研发者已经建立了英文《小王子》等AMR语料库.AMR与以往的句法语义表示方法的最大不同在于两个

会议

借重于人工知识库的词和义项的向量表示:以HowNet为例

与本文相关的学术论文