基于概率主题模型的作者情感分析

来源 :湖南大学 | 被引量 : 0次 | 上传用户:mddh9666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,概率主题模型在文本分析领域的应用越来越广泛。这是因为主题模型用于文本分析有下面几点优势:一个是主题模型有良好的数学基础和可扩展性;二是主题模型相对于VSM而言,它建模得到的文本维度更低、计算复杂度更低;三是基于主题模型的方法一般都是无监督的方法,不需要人工定义的语义词典或者情感词典。目前已有主题模型以及它的扩展模型都无法分析作者的情感,因此本文提出了一个对作者情感建模的概率模型。己有的分析文本情感的主题模型建立了一个文本-主题情感-词的三层生成过程,这样的模型能够发现文本中的主题与情感信息。事实上,现在的文本大多都包含了作者信息,而且分析作者的情感具有很强的商业价值。目前的主题情感模型都没有考虑作者层的情感,更无法对作者进行挖掘分析,因此本文最主要是考虑如何在计算机中建立一个作者的表示方法以体现作者的情感并在这个表示方法下对作者进行情感分析。本文所做的贡献如下:(1)建立了一个基于LDA的概率模型,模型建立了一个作者-文本-主题情感-词的四层生成过程,这个模型称为作者主题情感混合模型。模型中包含3个待估计的参数:主题情感词的分布、作者的主题分布和作者在主题已知条件下的情感分布。对模型求解就是估计这3个参数的值,本文采用贝叶斯估计和Gibbs Sampling对模型中的参数进行估计。模型不仅能发现文本中深层次的语义信息和情感信息,还能发现作者的主题和情感信息。因此利用ATSM模型能直接分析作者的情感。(2)设计了一个对作者集合进行聚类分析的框架,这个框架专门针对ATSM模型表示的作者。聚类的结果是一个两层的结构,包括了外层的主题类和内层的情感类。主题类是根据作者的主题分布进行聚类得到的,情感类是对主题类中的作者进一步根据情感相似度进行聚类得到的。这样聚类的好处是能从主题和情感两个角度分析作者集。在进行聚类之前,本文还定义了相应的作者间的相似度。这个框架同样能对文本进行聚类分析,然后通过计算作者与文本类之间的相似度将作者划分到不同的文本类。因此利用这个框架能对作者集合进行情感分析。本文的实验分析了 ATSM模型中3个参数的物理含义并用困惑度对模型的泛化能力进行了评估。实验表明ATSM模型具有较好的泛化能力,并随着数据规模的增大以及迭代次数的增加,模型的困惑度下降。
其他文献
随着信息技术和互联网技术的迅速发展,互联网上的数据量呈指数级增长。如何处理如此庞大而急剧增长的海量数据成为信息科学与技术领域所面临的一大挑战。文本分类作为组织和
目的:使用显微CT和体视显微镜两种方法,研究K3、TF、ProTaper Universal三种镍钛器械预备根管后,根管壁牙本质微裂的形成情况。方法:1.收集32颗单根管的下颌恒前磨牙,使用显
医疗卫生事业是人类健康的关键。然而城乡医疗资源分配失衡已成为我国医疗卫生服务发展比较突出的问题,尤其是湖南。目前,湖南大多数县乡级医院由于医疗专业技术人员少,业务
近年来由于工业的不断发展和人类活动,导致大气干湿沉降中中营养物质增多,在东北地区氮元素沉降速率在5.78g/m2·a,磷元素沉降速率在0.0093g/m2·a~0.014g/m2·a之间。有研究表明适量的氮、磷沉降会促进植物的生长,但过量会造成植物的营养失衡,降低城市生态系统植物的多样性。本研究以蒙古栎苗木(Quercus mongolica Fisch.ex Ledeb)为试验材料,通过连续三年
迅速发展的互联网从根本上改变了信息处理的效率和方式,而移动互联网等新技术的出现,更进一步促进了分布式系统技术的研究。在软件工程中,移动代理技术作为一种新的开发软件
图像盲检测技术主要是利用图像的统计特性分析,来确定数字图像内容的完整性、原始性和真实性,确定数码相机拍摄后的数字图像是否被篡改的技术。本文对图像盲检测技术进行了一
工作流技术是对业务流程各环节间业务规则的抽象、概括、描述和执行的技术,从而最终实现业务执行过程的自动化。目前工作流技术已经被广泛应用到多个领域多个行业中,尤其是大
组织工程支架功能上相当于细胞外基质(ECM),不仅为细胞黏附、生长提供场所,还为细胞生长提供营养并进行气体交换、排泄废物等。其中水凝胶材料具有良好的生物相容性和三维微孔结构,在生物支架材料方面有很高的应用价值。将天然聚合物和人工合成聚合物复合有助于得到功能良好的水凝胶生物材料。此外将水凝胶与纱线、织物等支架复合来制备复合支架,是当前的研究热点,所得复合支架兼具水凝胶特殊微孔结构及纱线优异的可调控和
随着电磁波在雷达、先进探测器和精密武器中的应用越来越多,电磁波的污染也越来越严重。因此,迫切需要研究电磁波吸收材料。电磁波吸收材料是一种能有效吸收带内电磁波并将电磁波能量转换为热或其它形式能量的功能材料。理想的吸波材料是高吸收、宽频带、低密度、薄厚度、环境稳定性好的吸波材料。然而,传统的铁氧体吸波材料由于其密度高、吸收带窄、吸收能力弱等缺点,很难满足上述要求。石墨烯独特的二维结构使其具有较大的比表
为了探索白榆雄性不育系D33花粉败育的机理,解决榆树杂交去雄困难的问题,创制新的榆树种质资源,培育出更加优良的杂交后代。于2016-2017年在河北农业大学三分厂苗圃,以雄性不