中文情感词汇本体的扩充及应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zxc569148889
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感是人际交流中重要的组成部分,是态度的一部分,是当代认知科学领域研究的热点问题。目前为止,面对海量数据,以人工的方式进行情感分析已经不能满足需求,迫切需要计算机能够代替人处理文本、图像、声音等蕴含的情感信息,即通过计算机系统实现情感计算。随着国家和企业发展的相关需求,情感计算也逐渐成为一个跨领域跨学科的热门研究领域。情感计算的研究目标就是赋予计算机和人一样能够主动观察,详细分析,深刻理解,流畅表达,深度挖掘各种情感的能力。本体作为一个哲学名词,指的是事物本身,作为一个计算机科学的名词,本体是一种形式化的概念框架,包括概念和词汇标识等,是针对领域的明确详细的说明。在情感计算领域,情感词汇本体就是对语言系统中包含情感的词汇进行明确详细的说明。情感词汇本体可以定义情感的结构,帮助实现基于情感的互动,因此情感本体的构建及扩充与应用是情感计算基本且重要的研究工作。本文基于大连理工大学信息检索实验室发布的中文情感词汇本体,在两个方面对情感词汇本体进行扩充,分别是建立多情感歧义词常识库和二元情感搭配常识库,对情感词汇本体的不足之处进行细致的分析并进行有效的完善。建立多情感歧义词常识库。在汉语语言体系中,较多词语具有个不同的释义,因为不同的释义可能表达不同的情感,会导致多情感歧义词的出现。本文将根据在不同的语境下,同一个词语却表现出不同情感类别的词语称作多情感歧义词。首先获取多情感歧义词,即根据中文情感词汇本体库和同义词词林确定候选词语,再通过人工标注确定最终的多情感歧义词集合。由于存在多情感歧义词,需要根据不同的上下文或表述方式对多情感歧义词进行消歧,才能明确多情感歧义词表达的情感类别,从而进行下一步的情感分析。本文针对多情感歧义词在情感分析中难以明确情感类别,需要进行消歧这一问题,建立多情感歧义词常识库。建立二元情感搭配常识库。在汉语语言体系中,存在这种现象:当词语作为最基本的单元时,并不具有情感,通过两个词语的搭配使用反而产生情感。本文针对中文表达的这种现象,基于中文情语料库中的语料,抽取二元常识。对抽取的二元常识,再根据情感语料确定二元常识的情感类别。最后,在中文情感词汇本体和多情感歧义词常识库、二元情感搭配常识库的基础上,进行新闻情感关键句的抽取与极性判别。
其他文献
移动自组织网络是一种有特殊用途的对等式网络,具有无中心、自组织、可快速展开、可移动等特点。移动自组织网络有许多特殊性,而正是由于这些特殊性,使得安全性成为阻碍移动
多媒体会议业务是网络时代的一项新型基本业务,在互联网和移动网络领域必将得到广泛的应用。该业务可以在会议中为用户提供音频、视频、数据协同等多项服务,具有业务特征丰富
对外开放服务是电信业务发展的趋势,下一代网络将是一个集成了现有各种电信基础设施和大量Internet应用的多网融合的网络。在互联网领域,语义Web已成为一个极具潜力的热点研
目前,随着无线网络的发展和个人移动终端的日新月异,人们已经能够并且习惯通过无线网络随时随地地获取信息。同时,对于移动终端之间的资源共享和数据传送也有了越来越多的需
学位
地铁作为城市公共交通体系的重要组成部分,与城市居民的日常生活息息相关。随着我国城市化水平的不断提高,地铁在缓解城市尤其是特大城市交通压力和疏散城区人口等方面所起的作
海洋平台是进行海上油气开采和运输的重要工程装备,由于所处环境复杂多变,长期服役容易产生疲劳损伤,模型实验因比尺效应等限制无法模拟真实平台结构,为保障平台的安全稳定运
目前,随着技术的发展,传统的信息和媒体服务已经渐渐无法满足人们的需要。人们获取信息的发展趋势正在由固定走向移动,由语音走向图像及多媒体,更多的人们现在希望可以随时随
图像、音频、视频等多媒体文件含有直观和丰富的数据信息,如何有效地、安全地管理这些信息一直是多媒体信息管理的目标。分形集合的整体或者局部都很难用欧氏几何规则表示出
医学影像诊断是医学无创伤性诊断的主要方法之一。医学影像已成为疾病诊断、术前决策、手术导航和术后随访等临床工作的重要依据。面向医学图像的诊断技术研究作为医学和计算