面向微博热门话题的主客观分类方法研究

被引量 : 8次 | 上传用户:suyu_001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的快速发展,互联网的载体已经不仅仅是单一的电脑,手机、平板电脑等移动终端已经悄然进入了人们的视野。人们获取、分享信息也不单单通过社区、博客,而是能够随时随地发表微博,实现即时分享。微博用户的大幅度增长吸引了一大批学者对其发表言论进行研究,面向微博热门话题的主客观分类问题是其中的重要课题之一。到目前为止,国内外学者主要针对无话题的微博文本进行研究,而面向热门话题的微博文本研究尚处于起步阶段。热门话题下的微博言论文本具有话题分散性,即用户发表的言论常常与当前的热门话题不相关,这个现象会导致针对微博热门话题的主客观分类方法准确率不高。基于此,本文将面向微博热门话题的主客观分类问题看成是两个子问题——话题相关性分类子问题和主客观分类子问题,对两个子问题独立建模,再使用Logistic回归对两个结果集建模,得出当前热门话题下的主观性观点表达。本文的主要研究内容如下:(1)研究了基于同义词词林的话题相关度计算方法。在话题相关性分类子问题中,主要研究当前微博语料是否与所关注的热门话题相关,如何度量两者之间的相关程度是此问题的关键之处。本文以同义词词林扩展版作为资源,通过计算当前词与热门话题词的距离来刻画两者之间相关程度,以此来简化话题相关度的计算方法。(2)研究了基于汉语框架语义网生成有效观点词集的方法。在主客观分类判断子问题中,主要是判断当前微博是否属于主观观点表达。其中构建有效的观点词集是该问题中重要的步骤之一。本文利用汉语框架语义网中框架间关系和词元,以“观点”框架内词元为种子集,构建了有效的观点词集。(3)研究了将话题相关性模型结果和主客观分类模型结果统一的方法,使用Logistic回归模型将两重结果统一在一个模型下,得到热门话题下的主观文本。(4)本文使用无话题相关性分类的主客观分类方法作为Baseline,并与多分类主客观分类方法与分步主客观分类方法进行对比分析。分析了使用Logistic回归模型并行融合话题相关性分类结果与主客观分类结果的重要性。
其他文献
重构医疗保险体系的基本思路是,短期之内城镇"三网合一",新农合独立运行,当城镇化率达到70%~80%时,自然实现城乡医疗保险一体化。新农合面临的主要问题是尚未实现应保尽保,筹
双频带射频功放的数字预失真技术(DPD)要求支持更宽的带宽。为了保证功放输出的线性指标并降低预失真系统的实现开销,设计一种组合结构的双频带宽带数字预失真方法。该方法采
近些年来,我国城市化进程加快,建筑工程项目如雨后春笋,建筑工程造价管理成为建筑企业的重要工作之一。审核建筑工程造价预结算工作是很复杂的工作,因为它本身既涉及到专业又
为了提高鼓式制动器的设计水平,建立了一种以制动鼓体积最小和制动器温升最低为目标的鼓式制动器多目标优化模型,并使用一种基于差分进化的粒子群算法进行优化设计。为了进一
为了提高飞机线束的装配效率和装配质量,提出了确定线束装配定位方法的总体流程,通过提取线束3D模型数据信息,建立了基于父子分支的线束层次数据链模型。提出一种新的线束展
基于非线性视角,采用时变参数向量自回归模型对汇率改革以来人民币实际汇率、短期国际资本与资产价格之间的互动关系进行了实证分析。实证结果表明:传统的常参数模型所获得的
<正>近年来,输血导致感染丙肝、艾滋病、梅毒等现象频繁发生,引发了社会的强烈关注。在输血感染传染性疾病事件中,患者不仅遭受巨大的物质损失,更是承受了难以想象的精神压力
近年来,持续发生的极端天气引起了人们关注,气候恶化这一个复杂的全球性灾难,影响了每一个国家的生存及发展。为了改变气候不断恶化的状况,减少温室气体的大量排放,世界各国进行了
在实际的地理环境中,不同的土地利用/土地覆盖类型往往具有特定的时/空变化特征,适合于采用案例匹配方法进行求解。但目前常用的案例推理多以静态推理为主,缺乏对动态变化过
大多数数字预失真(DPD)系统都是在各种理想假设条件下进行的理论验证和算法仿真。在真实的硬件系统中由于受到各种误差分量的影响,仿真环境下所得的补偿效果与性能指标有时很