基于个人微博时序事件的研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:skycat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为一个新兴的社交媒体服务,从各个方面渗透并影响着人们的生活,成为人们共享信息、交流情感的一个重要平台。其中大部分的个人微博内容记录其生活经历、专业兴趣以及热点话题的讨论等,所以微博数据就成了个人履历情感的载体。由于发微博的的实时性、便利性有时甚至是秒发,这样个人微博就逐渐代替了日记,形成了时记或分记,这样长时间后形成的微博数据量会非常庞大,想要了解博主就只能通过逐条浏览其历史微博,这就造成了时间浪费。如何快速准确的了解博主的动态已成为目前急需解决的问题,微博归类就是针对这一问题而提出的。在微博归类过程中,微博相似度的精度决定了其的准确性,本文研究的重点就是如何提高微博相似度的精确性。由于个人微博数据总体数量较多、单条简短及内容随意性大等特性,利用传统分类方法以及信息提取算法进行处理时存在一定的局限性。本文考虑到单条微博文本信息简短包含的有效特征少,且内容比较口语化的特性,从同类词方面对文本的特征词进行了扩展,尽量降低特征丢失的可能性,提出了一种基于改进的Jaccard相似度和余弦相似度的综合相似度算法。首先,对获取的微博数据进行过滤,去除没有任何信息的文本和无关链接、图片等,并利用相关中科院的汉语词法分词系统ICTCLAS对文本进行分词、做词性标记和过滤停用词以及表情词;其次,采用改进的TF-IDF算法提取微博特征词和LDA(Latent Dirichlet Allocation)主题模型构造同类词模板来提高微博相似度的精度,即先利用特征选择评估函数CHI衡量每个特征词对每个类别的重要程度并使特征词在该类别文本中符合均匀分布后再计算TF-IDF值来提取微博特征词;然后,在提取的特征词和构造的同类词模板的基础上结合Jaccard相似度和余弦相似度计算个人微博的综合相似度,该算法克服了传统只基于词语共现方法的不足,能够从同类词特征和个体数值特征等方面更深层次、更全面的计算两条微博的相似度;最后,利用K-Means时序事件归类算法对个人微博数据进行归类,使相同话题微博归类到同一个集合中。实验结果表明本文提出的综合相似度算法比传统的相似度算法具有更高的精确度,在一定程度上提高了个人微博时序事件归类的准确性。
其他文献
近几年来,随着教育数据挖掘领域的快速兴起,结合数据挖掘方法对学生行为数据进行分析成为一种流行趋势,主要致力于对未来行为与兴趣的发现、对学生学习表现的预测、以及学生个人
随着互联网图像数据的海量增长以及人机交互系统的快速发展,如何对图像进行有效的组织分类,便于人们在浩如烟海的图像资源中快速找到想要的图像,成为人们越来越关注的问题。近年
个性化信息检索中用户偏好分析是信息检索领域的重要问题,其核心任务是在给定查询的基础上,通过分析用户的行为特征来挖掘用户的偏好,以获取符合用户查询倾向和符合客观规律的信
二维碎片拼接技术是计算机视觉与图像分析领域的一个有趣课题。由于碎片往往数量很多,人工拼接一般无法完成。为此,本文研究了一款基于形状分析技术的碎片拼接算法。首先,提
工作流技术是一种对某个工作流程及流程间各个操作步骤的抽象、概括和描述。之所以要发展工作流技术,重要原因之一是工作流可以实现企业生产的自动化,当满足给出的约束规则等条
基因表达数据反映的是直接或者间接测量得到的多个不同基因在多个不同条件下的表达水平,通过对这些数据的分析可以发现哪些基因的表达发生了改变,基因之间有何相关性以及在不
随着互联网和电子商务的迅速发展,如何将合适的产品和服务推荐给用户,成为了信息时代最具挑战性的问题之一。个性化推荐系统在这信息爆炸的时代应运而生,它能主动的预测到用户的
随着电力工业的发展,变电站的数字化、信息化的要求越发迫切,数字化变电站成为了变电站自动化系统的发展方向,在变电站在线监测系统中,数字化变电站网络通信也显得尤为重要。本文
自20世纪末以来,虚拟现实技术一直是信息领域研究、开发和应用的热点方向之一。它借助计算机构建出一个与现实环境十分逼真的虚拟环境,而且支持用户使用自然的技能亲身感受它
随着移动互联网、物联网等新兴领域的蓬勃发展,人类社会正逐步从大数据时代向移动大数据时代演进。据统计,全球移动手机占有率预计2020年达到28亿,随之产生的移动数据规模以