论文部分内容阅读
作为Web2.0时代具有代表的社交平台,微博已经成为了一种主流的信息分享和交流的平台,微博营销也应运而生。微博营销是一种新型的网络营销方式,商家通过在微博上发表与商品主题相关的帖子,以他的粉丝和偶像为传播媒介,让其他用户能够快速地了解到商品信息。微博营销是一种口碑式的营销方式,用户的评论中携带大量的情报信息,对商家和其他用户都有重要的意义;对商家而言,评论信息越多,说明有更多的用户关注他的商品;评论的内容也能够让商家及时发现商品的优缺点。对用户来说,了解到与商品有关的评论信息,他们能够做出正确的购买决定。然而,微博评论往往较多,以人工的方式来读取所有评论是耗时的,也是不现实的,并且由于评论的自由性,有些评论其实是与微博帖子内容不相关的,而且有些评论者对主题是不了解的,或者评论者是一些新用户,他们的评论不具有权威性。因此,挖掘出那些与主题相关的,而且评论者对主题具有一定偏好和较高的权威性的评论具有重要的现实意义。本文所研究的内容如下:1、微博评论的模型化。传统的文本表达模型,如向量空间模型(Vector Space Model,VSM),将文本抽象成向量,使用词频-逆文档频率(Term Frequency–Inverse Document Frequency,TF-IDF)来计算词语的权重。微博帖子和评论是一种短文本,使用VSM来模型化微博帖子和评论是不科学的。因此,本文提出了用Post Word Graph(PWG)图来模型化微博帖子和评论。在PWG中,节点表示词,边表示词之间的关系。2、从短文本集中提取关键词。微博评论的自由性导致了微博评论中含有一些与主题无关的词语,这些词语不仅仅会增加计算开销,而且会影响准确性。在PWG的基础上,本文提出了Post Word Rank(PWR)算法来计算PWG中的词的权重。词的PWR值反应了该节点的重要性。因此,那些具有较高的PWR值的词将被当做关键词,那些包含关键词的评论将更可能是与主题相关的。3、本文提出了中文短文本语义相似度算法(Chinese Short-Text Semantic Similarity Algorithm,CSSSA)。CSSSA不仅考虑了词语的词性,还考虑了词语之间的语义相似度。4、本文定义了评论相关分值(Comment Related Score,CRS)。CRS不仅仅考虑了评论内容与主题的语义相似性,而且考虑了评论者的主题偏好(User Topic Preference,UTP)和权威值(User Authority Value,UAV)。最后,本文在腾讯微博数据集上实验,用召回率、准确率和F值作为评价指标,实验结果证明本文提出的方法是有效的。