实体及其情感表达知识获取方法的研究

来源 :苏州大学 | 被引量 : 2次 | 上传用户:hong_77521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体情感知识获取是自然语言处理领域较为热门的一个研究课题。实体情感知识是文本中非常重要的语义单元。实体情感知识的获取一般分为两步:1)实体识别;2)获取实体对应的情感词。实体识别系统的构建通常需要大量的人工标注语料。但是,现存标注语料主要在新闻领域文本中标注人名、地名和机构名,用于新领域时性能降幅较大,且无法识别新类别。本文针对这一问题,制定多领域的中文实体标注规范并实施人工标注,最终获得多领域多类别的实体标注语料。同时,为了提高实体识别系统在新领域文本上的识别性能,本文研究了跨领域实体识别的方法。最后本文提出了一种从大规模文本中获取实体情感知识的有效方法。主要研究内容分为如下几个方面:(1)制定多种实体的标注规范并构建多领域的实体标注语料库。针对当下流行的人机交互、社交媒体、电子商务三个领域构建了人工实体标注语料,其中包含实体种类有:人名、地名、机构名、行政地名、音乐、品牌、产品、型号、规格、原料等多种具有应用价值的实体类型。在这些新构建的语料上,使用常见的序列标注模型进行实验分析。此外,为了解每种实体类型的特点,我们也进行了实体之间差异性分析。(2)研究跨领域实体识别方法。本文针对不同领域的语料特点,研究跨领域实体识别的方法来提高命名实体识别效果。本文通过对抗学习框架在源领域标注数据和目标领域标注数据上学习领域间的共有特征,通过语言模型在大规模目标领域无标注数据上学习私有特征。最后,通过这两种特征共同促进在目标领域的实体识别效果。(3)提出一种大规模实体情感知识自动获取的方法。本文分析了现有情感词典的不足,提出利用“实体对象词+情感词”进行表示。本文重点研究实体情感知识的自动获取方法。首先,利用实体识别和词性规则获取所有可能的实体和情感词,将它们的全排列组合构成我们的候选集合。然后,将候选集合转化为二部图结构,通过基于Pagerank的二部图排序算法对其进行排序。最后,提出一个基于语义相似性的提炼算法对排序结果进行进一步的提炼。整个过程通过设定合适的阈值来实现全程自动化。实验结果表明,上述方法能够有效的挖掘实体情感知识。基于此,本文构建了一个实体情感知识库并在Github上开源。
其他文献
超深孔一次和分段爆破成井技术,机械化程度高,不需在井筒内进行爆破作业,是目前2种比较先进的筒状硐室施工方法。为进一步阐述2种爆破技术的设计方法和施工工艺,并比较2者的
社会实践是大学生认识社会、了解国情、拓宽视野、丰富自我和改善知识的重要手段,是对大学生进行素质教育的重要途径.笔者认为,我们可以从青年志愿者服务的角度去思考社会实
在临床手术中,术中神经电生理监测越来越广泛地应用于神经外科、骨科、脊柱矫形、心血管外科及五官科的各种临床手术。术中人体神经信号系统监测已逐发展成为现代临床医学中
鉴于石墨烯独特的光学和电学性质,基于石墨烯的复合微纳结构的控光特性研究正成为纳米光子学中的一个重要研究领域。石墨烯/电介质复合结构中等离激元的激发耦合及结构的控光
目的探讨老年胸腔积液病因,为临床诊治提供参考。方法对150例老年胸腔积液患者病因进行回顾性分析。结果 150例老年胸腔积液患者病因中恶性胸腔积液86例(57.3%),结核性胸腔积液
通过建立数值模型,分析了垂直腔面发射激光器相干耦合阵列单元数量、单元间距、单元间相位差对光束质量及偏转角度的影响.仿真结果表明,单元数量越多,发散角越小;单元间距越
静脉输液应用于临床,具有给药方便,疗效快等特点,是临床治疗工作中最常见的一项技术操作。笔者在平时工作中总结了一些静脉穿刺技术的经验,现介绍如下:
预算管理是企业利用价值和价值形式在科学的市场预测基础上,对企业未来的内部生产经营活动所进行的规划、控制与协调.预算包括营业预算、资本预算、财务预算、筹资预算,各项