论文部分内容阅读
“情感分析”又被称为“观点挖掘”。情感是人们表达内心喜好、观点的一种方式,是对周围客观世界的一种看法,在可能的情况下都会通过文字的形式保存于各种长短文本中。在信息网络领域,观点是人们在网上表达自己意愿倾向的一种方式,社交语言的主观性研究是一个复杂的问题,从不同角度、不同层面深入则会对主观句有不同的认识和解释。语言信息处理中的情感分析主要的分析目标是主观句,从主观句中挖掘有用信息。随着计算机网络的不断发展和在人们生活中应用范围的逐渐扩大,微博、脸谱等社交网络已经成为现代人们传递态度、意见和评价的重要形式。微博的用户和信息数量每天都在刷新纪录,面对海量的网络资源,一个好的情感分析系统能够更加精确地处理文本的情感倾向,为用户和商家提供更为科学的情感依据,是一种极具潜力的个性化服务技术。本文旨在研究自然语言中情感句所包含的情感极性信息。一般来说,情感句的主要表达手段是通过带有明显评价倾向的词语来表达主体的情感意向,主要承载词语是形容词,以及一些副词、动词和名词等。这些带有情感的信息形成很大的数据库,且这个数据库的数据量每天都在急速地增长着,由于汉语本身的特殊性和网络语言的不规则性,给研究带来了很大的阻碍。总结起来,这些由十几个甚至几十个字组成的语句具有以下特点:(1)实时性。网络情感表达是实时发生的,尤其现在手机终端发展如此迅猛,很多电脑功能已被携带更加方便、使用更加便捷的手机替代,使信息的发布更加实时。(2)不规则性。网民在网上进行情感表达时,为了使自己的情绪表达更加形象,有时候发的信息是完全不合乎语法的,但是却不妨碍交流,简洁明了,没有具体的特征,甚至出现像火星文、谐音等个性化的语言。例如“886”、“八错”、“duang”等。(3)歧义性。汉语的用法十分灵活,表达多种多样,同一个词语可以表达多种含义,很多语言在用法上早就脱离了它们本身的含义,尤其是在网络用语方面,这就加大了分辨的难度。人体免疫系统经过千百年来的进化,形成了一套完整的抵御外界侵害的防御体系,在这个系统中特异性免疫是本文主要借鉴利用的对象。当细菌、病毒等病原微生物侵入人体时,人体的免疫细胞会识别该抗原,并形成具有特殊结构的抗体,这些抗体会特异性地与抗原结合使之失去侵染性,并将其消灭排出体外,且形成的抗体具有记忆性,当具有相同抗原决定簇的抗原进入人体时,抗体细胞会大量释放抗体,在短时间内将抗原消灭掉。本文将这种抗原与抗体特异性识别的机制引入中文短文本情感分析中,期待实现一种针对不同抗原能够自动生成相应抗体,并能够实现抗原极性及强度的自动分类,以实现文本情感的个性化、高效精确识别,为后期相关工作提供支持。本文主要完成以下工作:(1)提出一个系统的针对中文短文本的免疫情感标注方式,针对现有中文情感标注不清晰、不具特异性的特点,本文从生物免疫学的角度出发,借鉴免疫学的相关知识设计了针对不同抗原的抗原决定簇生成法,使具有不同语境和语义的短文本有只属于自己的一套抗原决定簇,使之具有特异性,这些抗原决定簇能在系统中根据自己的特型和相应的语境自动生成,尽量减少人工的参与,提高分辨效率。(2)建立一个较为完整的中文短文本免疫情感极性分析系统,本文通过对前人研究进行学习总结,在人工免疫系统的结构框架下对中文短文本情感进行分析。预处理后的抗原在进入识别区域后能够被有效的识别,并且免疫系统要具有稳定性、健壮性、记忆性和可扩展性。不仅可以有效识别现有的抗原,并且能够自发地将识别过的抗原信息添加到语料库中,更能够对新接触的抗原实现有效识别。最后对系统试验检测,用数学的思想对实验结果进行分析。实验表明,加入人工免疫的中文短文本情感分析能够较好地完成分析任务,并且使整个分析结果趋向最优。