论文部分内容阅读
近年来,随着互联网的蓬勃发展,网络化的产品越来越多,大量的用户可以直接通过网络对这些产品进行评论。以Android系统为代表的安卓软件已经成为网络化产品的发展热点。安卓软件的特点是开发周期短,更新速度快,同类型产品竞争激烈,所以找到一个能够快速获取用户反馈需求的方法是关键。而针对这些产品的在线用户评论可以及时的反映用户关注的产品属性,同类型其他产品的优势与自身产品的劣势,以及下一版本需要改进的地方。故对这些评论信息进行挖掘能让产品开发者及时有目的性地更新软件,从而提高软件产品的竞争力,与此同时,对于用户来说,种类繁多的软件给他们带来选择上的不便,及时发现大众化的软件评价信息能够使得用户不会盲目地选择软件,能够根据自己的需要得到对应的服务。
本文从软件评论出发,通过一些数据挖掘的方法从用户评论中挖掘出有价值的信息。提出一种无监督的软件特征-情感词对抽取方法,利用特征词频与模板相结合的方法来抽取软件特征,通过构建软件评论中的用户情感词典和网络化用语词典来判别情感词极性,最后通过特征相似度计算的方法来聚类软件特征,从而对软件产品进行特征粒度的评价和精准选择。
本文设计了一个B/S架构的基于评论挖掘的中文软件细粒度评价原型系统,通过特征提取、情感词提取、情感词极性分析以及特征聚类等数据挖掘方法得到用户对软件的总体评价情况以及每个软件在特征粒度上的好评率与差评率。