论文部分内容阅读
在点评类网站上,数百万的月活跃用户每月可以贡献出数百万条关于餐馆、景点、电影、产品等有价值的评论。基于这些评论数据的可视分析可以洞察人们的衣食住行等生活的方方面面,是文本可视分析领域的研究重点。面向评论数据的可视分析根据研究角度的不同,主要分为基于词汇的文本可视分析、基于情感的文本可视分析和基于时空的文本可视分析三个方面。基于词汇的文本可视分析用于揭示评论数据谈论的重点以及词汇之间的关系等信息;基于情感的文本可视分析用于自动判断和总结文本情感及其时序趋势,以利于产品分析和舆情分析等;基于时空的文本可视分析用于有效结合评论数据的时空特征,以增强态势感知以及辅助用户决策等。本文以评论数据为主要研究对象,围绕上述三个方面展开研究。论文的主要研究成果概括如下:·提出一个基于词汇的语义词云可视分析方法。词云可以有效展示文本谈论的重点,然而单词不是独立的而是彼此之间相互关联的,所以语义词云能够更好地展示单词的语义信息和文本谈论的主要方面。本文采用分布式单词表示来保留单词的语义信息,然后构建单词相似图,之后基于此图提取方面和布局单词,使词云能够将语义相近的单词布局紧密的同时生成美观的布局。最后,词云集成了直观的交互操作可导引用户快速阅读和理解文本。·提出一个基于情感分歧的争议现象可视分析方法。基于评分数据的统计分析是目前探索评论数据争议现象的主要方法,它可快速判断评论数据是否发生争议,而基于评论文本的情感分析可以描述和总结发生争议的原因。本文提出一个可视分析系统,同时采用一个基于评分数据的定量分析方法用于刻画争议的时序趋势和一个新的基于方面的情感分析方法来识别情感分歧的方面以理解争议发生的起因。最后,本文设计了一个系统来交互地探索争议的时序演化以及发生情感分歧的方面,利于用户理解评论文本中的争议现象和获取洞察。·提出一个基于时空的城市主题可视分析方法。由于商家或景点的评论数据往往具有地理位置和时间戳信息,基于这些时空评论数据的探索可以揭示文化趋势、增强地理感知和辅助用户决策等。本文提出一个可视分析系统从城市的角度来探索评论主题的时空特征,以分析城市特征。由于用户和城市特征的多样性,本文首先支持用户交互地自定义一个主题,然后利用情感分析和统计分析来刻画该主题的时序趋势、情感分布特征和地理分布特征。最后,本文设计了一个系统以支持用户交互探索自定义的城市主题的时空特征。