基于语义理解与PLSA的文本情感分类研究

被引量 : 12次 | 上传用户:liu1208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着电子商务,个人博客,社交网站和微博的蓬勃发展,互联网进入了一个崭新的时代,广大用户有了发表自己意见的空间,带有主观色彩的言论和评价随之铺天盖地而来。这些海量的非结构化文本包含了大量的信息,企业需要从中获得用户对产品的意见,政府需要知道群众对某项政策的反映,而用户在消费前想得到更多的建议,如何处理这些信息从而获得我们想要的知识,成为当前学者们关注的焦点。情感分类是随之兴起的一个研究领域,它是指通过挖掘和分析文本中的立场、观点、情绪等主观信息,对文本的情感倾向做出类别判断,将其分为正面(positive)或负面(negative)。文本情感分类可以应用到舆论分析、信息过滤、产品评价、产品推荐、智能化搜索和用户兴趣发掘等方面。本文的主要研究内容包括以下几个方面:首先,本文建立了一个跨领域的语料库,并在知网情感词汇的基础上,加入未登录词的情感计算,构建了一个较为详细的情感词典。未登录词的情感计算采用基于知网的语义相似度计算方法,之后在词汇倾向分析的基础上进行文本情感分类;然后,提出了基于概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)的情感分类方法,该方法使用概率模型表示“文档-潜在语义-词”三者之间的关系,文档和词都可以映射到同一个语义空间中,较好地解决了多义词和同义词的现象,使用EM算法进行迭代求解,可以大大降低时间和空间复杂度。基于语义理解的方法效率较高,但适应性较差,每个领域都有各自的表述情感词,且同样的情感词在不同的分类领域褒贬性也不尽相同,另外,在汉语中,人们常常使用消极情感的间接表达(Indirect Expression of Negative Sentiment, IENS)或“反语”修辞手法来表达负面情感,因此,基于语义理解的分类更倾向于将文本划分到正面类别当中;另一方面,基于PLSA的方法需要大量的人工标注文本集,训练和分类时间都较长,但适用范围较广,由于正面词和负面词在消极态度的文本中出现频率都比较高,所以PLSA方法更容易学习消极的情感表达。本文针对两种方法各自的特点,将两种方法结合起来,提出了一种自监督模型,从而克服了上述缺点,实验表明改进的分类方法准确率可达90%以上。
其他文献
柑橘红蜘蛛是柑橘主要害虫之一,开发或筛选出对其防治效果好的药剂对柑橘产业的发展有重要意义。本文采用叶片残毒法,在室内测定了10种化学杀螨剂和115种植物提取物对柑橘红
7月17日,水利部召开的淮河流域河道采砂专项整治会议后,我省认真贯彻落实会议精神,省及流域内四市,迅速动员部署,在广泛宣传教育、细致调查摸底的基础上,按照凡未经许可在主汛期内
作为信托制度中重要组成部分的遗嘱信托从其诞生开始,就在分配被继承人的遗产、解决继承人之间的遗产纠纷、保障被继承人的意志在其死后能够得到贯彻以及在部分国家的税制下
中国是世界上非物质文化遗产最丰富的国家之一。近年来,随着我国对外交流的发展和改革开放的不断深入,中国的非物质文化遗产将越来越多的展示在世人的面前。因而,非物质文化遗
浅海水声信道具有多途扩展严重、时频域快速变化、多普勒频偏严重、传输衰减大、噪声干扰严重、通信带宽受限等特点,对水声通信的研究提出了严峻的考验。本文首先介绍了单载
目的 探讨利用一种新型聚酯材料—ε 己内酯 D ,L 丙交酯嵌段共聚物 (PCLA)制备微粒型药物载体的可能性。方法 通过双乳化溶剂蒸发技术制备ε 己内酯 D ,L 丙交酯嵌段共
初中信息技术教学对初中阶段的学生来说是至关重要的,信息化即搜学是时代发展的需求。在传统的教学中初中教师并不是很重视信息技术教学,但是随着社会信息技术的发展和社会对
我国《企业破产法》和《民事诉讼法》规定,破产债权人逾期未申报债权的,按放弃债权处理。这一规定造成了实践中很多问题无法得到解决。逾期未申报债权的债权人不应丧失实体权
我国证券市场经历了20多年的发展历程,市场规模不断扩大,上市公司数量日益增加,市场市值逐年增长。由于我国资本市场发展仍处于初级阶段,在发展过程中,从市场的投融资模式,交
由于大量IT技术的引入,eHR可以通过集中式的信息库、自动处理信息、员工自助服务、外部协助以及服务共享等信息化手段,使人力资源管理达到降低成本、提高效率、改进员工服务