基于自动标注训练集的微博语料情感分类的研究

被引量 : 2次 | 上传用户:vitor330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博问世不久就成为了网民的新宠,作为展示自我与真我的重要信息平台,微博在情感表达中的重要性也逐渐引起人们的关注。本文针对微博语料的情感自动标注及分类方法进行分析和研究,提出一种无人工干预的微博语料库自动标注方法,进而实现微博上文本情感的自动分类。本文将微博情感倾向性分为积极、消极和中立三类。通过微博API与网页解析相结合的方法,获取微博语料。构建微博语料情感分类系统的原模型,采用语料库自动标注的方法对训练语料情感极性进行标注,之后提取已标注训练语料的特征,用于待测的微博数据的分类,实现微博文本情感分类,最后对方法进行验证。其主要工作:一是通过对现有文献和微博数据特征的分析研究,确定研究粒度为整条微博,构建了微博语料情感分类系统的原模型,二是提出了利用表情符号(包括表情图片和字符表情)和情感词相结合的情感倾向自动标注方法,实现训练集的自动标注。这种方法具有较高的通用性,减少了人工标注方式产生的大量人力成本和时间消耗,降低了传统标注方式对领域、主题和时间等因素的依赖,提高了现有自动标注方法的准确度。三是研究训练集的特征提取方法,采用N-gram模型进行特征提取获取热词和特征。四是研究待测数据的分类方法,采用朴素贝叶斯分类器进行分类,同时为了进一步提高分类的准确性,本文还对朴素贝叶斯分类器进行了结合最大熵算法的优化,最后对方法进行实验分析,通过实验结果验证本文方法的有效性和可行性。本文提供的微博情感分类方法有助于及时了解大众对产品、热点、政策的反馈,为用户自身、企业及政府等提供有效地决策支持。虽然结果证实本方法实现分类结果较为让人满意,但研究中部分还存在一些问题,如表情库和情感知识库需要进一步完善,如何实现自动进化等,日后会进一步完善。
其他文献
苏雪林,这位二十世纪初就与冰心、庐隐、冯沅君、林淑华齐名的著名女作家在文学创作和学术著述等方面都有不菲的成就。由于历史的原因,国内学界在二十世纪八十年代才开始重视对
自五四新文化运动以来,在新诗的发展道路上,废名关于新诗的立论可谓是独树一帜。在近年来的废名热中,一些学者对其诗论的传统文化价值取向、现代性指向和内部矛盾等作了卓有
在三网融合背景下,利用农村现代信息网络迅速发展的契机,高起点建设数字农家书屋,积极推动该项事业可持续发展。本文从平台、内容及传输网络三个方面阐述了其技术建设方案。
目的:应用Meta-分析评价局部高度恶性骨肿瘤合并病理性骨折患者保肢与截肢治疗的疗效。方法:通过检索1996-2010年关于局部高度恶性骨肉瘤合并病理性骨折患者保肢与截肢术后疗效
以武河湿地为例,对注入到武河湿地的主要污染源陷泥河的水质进行调查取样,用连续流动化学分析仪对采样点的水质进行分析,通过陷泥河水中不同形态氮、磷含量分析引起该点水污
作为当今一国最为重要的经济制度之一,社会保障制度对维护社会稳定、促进经济发展有不可替代的作用,而社会保障制度功能的发挥,离不开稳定充足的资金基础。我国社会保障制度自建
巫文化是早期人类共同经历的文化形态,华夏先民同样也经历过这样的时代。如果运用文化人类学、文字学和文献学等方法,考察巫文化的起源,粗略地梳理巫文化的发展,可以发现:巫
目的观察胰激肽原酶肠溶片联合贝那普利治疗糖尿病肾病的疗效。方法选取140例糖尿病肾病患者随机分为血管紧张素转换酶抑制剂(ACEI)组和联合用药组,各70例。ACEI组单独使用贝那
目的:研究中药金铁锁中的化学成分。方法:利用葡聚糖凝胶Sephadex LH-20、硅胶、RP-18反相柱、中压等色谱方法进行化合物的分离纯化,根据化合物的理化性质、光谱数据进行结构
化解利益型群体性事件现已成为国家和政府必须正视和解决的重大问题,在以往的解决途径中,政府部门和党政机关是化解危机的主体,这样过于单一的治理主体使得以往的处理结果不