论文部分内容阅读
为了丰富web服务的研究内容,引入了微博客这一新媒体作为服务资源研究媒介。微博客是互动性的网络社交服务平台,由于微博传播机制、影响范围的不断扩大,已经成为当下非常便利的互联网用户交流信息方式。微博具有信息实时性强、用户标签信息丰富、具有明显社会网络属性以及数据可得性好等特征来辅助发现所需要的服务资源。微博标签是用户自身设定的特征属性,代表了用户的兴趣和擅长领域。
本研究分为两个部分:第一,同主题用户筛选模型,设定基于活跃度的标签用户排名算法。通过利用数据获取工具,获得176条有效标签用户个人数据信息,分析基于活跃度的微博标签用户排名算法,研究了面向主题的用户筛选模型,结合特定的业务目标,利用发现的标签用户来构建相应的业务团队,对含有特定标签的微博用户进行实例分析,说明了所得模型的可行性,从而得到基于活跃度的用户排名结果,筛选出活跃度高的标签用户群体。第二,在此基础上完成同主题用户排名优化模型,对这一群体根据微博内容与用户标签的相关性,优化新浪微博中利用标签查询用户的排名结果。结合分词、词频统计以及文本分类等完成微博的内容分析。设定微博内容与用户特定标签的相关性函数,利用数据获取工具,提取了基于活跃度的用户排名结果中前100名标签用户的微博内容信息,共9900条微博数据信息,随机抽取990条数据集,利用分词系统和词频统计工具处理微博文本信息,得到特征属性集,结合朴素贝叶斯分类算法和概率统计方法,设定基于微博内容相关性的标签用户排名函数,并做出对比验证,从而优化基于活跃度的标签用户排名结果,最后利用GoogleMap API得到含有特定标签的微博用户地理分布图,从而结合地域分布特征考虑同主题服务团队的构建。