细颗粒度情感倾向分析若干关键问题研究

来源 :复旦大学 | 被引量 : 13次 | 上传用户:lingliang416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息处理技术的发展,人们可以从新闻评论、论坛、博客等来源得到海量的评论信息,只有通过对信息的深入分析和提炼,信息才能更有效的为人所用。正是在这一背景下,文本的情感倾向研究成为当前一个具有广泛应用前景且十分新颖的研究领域。本文工作主要围绕着“细颗粒度”情感倾向分析中若干关键技术展开研究,包括:被评价对象抽取、评价关系抽取、情感倾向判定、知识库半自动构建以及半监督学习在情感倾向分析中的应用等方面。在文章和句子级倾向极性分析任务中,我们将条件最大熵算法和熵正则化框架结合,提出了半监督条件最大熵算法。该方法在句子级MPQA语料库中,可以达到78.2%的精度,比有监督方法有5.2%的相对提高。在被评价对象抽取方面,提出了基于条件随机场的被评价对象识别算法。该算法将被评价对象抽取问题转化为序列标注问题,通过上下文、词性、知识库等一系列特征完成被评价对象抽取。通过上述方法被评价对象识别精度可以达到91.17%。在评价关系方面,提出了一种将关系识别问题转化为序列标注问题的方法。利用条件随机场和一系列特征完成评价关系抽取。这一算法结合了语法层信息、词语层信息,并利用相邻关系的分类结果,因而具有更高的准确性。实验结果表明该方法的F值比最近邻方法有15%的提高。在模型自适应方面,提出了一种基于最大后验的条件随机场模型自适应算法。通过实验结果说明这种算法可以有效通过背景模型和适应语料,自适应到另外一个领域中,在被评价对象抽取实验中,经过适应的模型比未经适应的模型有34%的相对提高。此外,在知识库构建方面,我还提出了基于图互增理论的自举学习算法,利用弱监督分类器,从少量种子词和大量未标记语料中自动学习出符合要求的数据,再结合人工判断,半自动的构成所需知识库。最后,我们结合上述研究实现了面向汽车领域的情感倾向分析系统。
其他文献
目的:提高主动脉分离患者的抢救成功率。方法:选择住院治疗的主动脉夹层患者56例进行密切地观察和护理。结果:56例患者的抢救成功率达91%。结论:正确的治疗和细心的临床观察能够
财务管理作为财经类专业的核心课程之一,是一门应用型的学科。传统的教学方法过分注重理论知识的讲授,忽视了学生应用能力的培养。根据高职院校学生的特点改进现有教学模式存在
2008年4月,广东省委、省政府颁布了《关于广东省加快建设现代产业体系的决定》,推动全省的现代产业体系建设。建立现代产业体系是对30年来广东工业化进程的继承与深化,是提高广
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文从分析金牛山景区农业生态旅游经济现状及问题入手,提出应从发挥政府引导作用、发展与保护并重、突出鲜明乡村、地域特色、招商引资、规范企业标准、提高从业人员素质等
自动目标识别是当今世界军事技术研究中最具攻关性的课题之一,众多计算机视觉技术均应用于该课题的研究领域中。许多诸如物体边缘检测、空间位置估计和运动跟踪等对于生物视
聚类分析是数据挖掘、模式识别等方向的重要研究内容之一,已被广泛用于数据压缩、信息检索、语音识别、字符识别、图像分割和文本聚类等。另外,在生物学、地质学、地理学、市
DAS(Database as a Service)模型是云存储中的一种新型数据库应用体系。在DAS模型中,数据所有者将数据交由数据库服务提供商(Database Service Provider, DBSP)托管,数据库以
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
自由曲线曲面技术是计算机辅助几何设计(CAGD)的核心,而非均匀有理B样条(NURBS)方法作为自由曲线曲面的造型方法,由于其统一的数学模型而成为计算机辅助设计和制造(CAD/CAM)