微博用户兴趣挖掘技术研究

被引量 : 0次 | 上传用户:pipiskin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为当前最流行的社交网络平台之一,用户可以通过计算机或移动终端关注和分享自己感兴趣的信息,发表个人观点等。微博已经成了一个实时信息获取、分享、交流和传播的平台。互联网上每天都产生着数以亿计的微博数据,这些由用户所产生的海量微博数据背后蕴含着巨大的商业价值,而准确地分析用户兴趣对挖掘微博价值和提升微博用户体验有着重要的意义。本文基于模拟浏览器行为的方式爬取海量微博数据,然后对微博数据进行自动清洗,再利用切词、分类、关键词抽取等多种自然语言处理技术对处理后的用户微博数据进行分析和挖掘。本文主要工作如下:第一,通过Http Watch9.1截取和分析网页数据流,并基于模拟浏览器行为技术和清洗模式规则技术,自动化爬取、采集和清洗海量微博数据;第二,结合微博内容特性,对传统TF-IDF算法模型进行应用改进和拓展,提出融合基本IDF词典和联合兴趣度的动态IDF词典的用户个性化IDF词典,并基于改进的TF-IDF算法应用模型抽取基于用户微博内容的兴趣关键词;第三,研究分析了广义僵尸用户的定义和判别特征的选择,并针对微博用户特点,使用基于多特征融合的AdaBoost.Ml分类算法对目标用户的关联用户进行分类和处理;同时在传统排名算法PageRank的基础上,考虑微博用户关联关系特性,提出了RelationRank算法对关联用户进行重要性排序,最后通过筛选所得到的关联用户的微博内容对目标用户的兴趣进行描述。最后,基于上述研究内容,文中采用模块化分层设计思想,设计并实现了一个微博用户兴趣挖掘平台,并通过实验对比分析了兴趣挖掘平台的有效性和准确性。
其他文献
本文以人体工程学原理为基本,通过国内外设计现状、统计学、设计基本理论等知识,对邵阳市中小学普通教室课桌椅的使用现状进行调查,结合对中小学生进行人体数据测量及对学生
GATT第20条是关于缔约方在什么情况下可以采取与协定中其他条款不相符的国内措施而不需要承担相应义务的条款,即环境保护例外条款。但是关于其序言与各项例外措施的证明顺序
自古以来,海洋领土就是我国版图的重要组成部分。近年来,随着改革开放的日益深入,维护我国海洋权益的活动也逐渐加强。其中学术界针对我国领海历史、现状进行研究的各类史学
2009年10月31日我国创业板在深圳正式成立,首批共有28家公司成功上市。至2013年12月31日,创业板共有386家上市公司。但是,2010年第四季度限售股解禁以来,高管减持潮正式爆发,
食管癌是常见的消化道系统的恶性肿瘤,在我国,90%以上的食管癌病例为食管鳞癌,每年新发病例和死亡病例占全球总数的一半。食管鳞癌是我国最常见、最严重的健康问题之一,亟需
在三网融合的背景下,广电运营商和基础电信运营商在宽带数据业务上竞相角力,广电等非主导运营商如果不发展宽带战略,将在后期的竞争中被逐步边缘化。广电宽带必须尽快寻求合理的
国家十二五规划提出,国家经济要想持续稳定的增长,就应该把调整产业结构,转变经济发展方式当成首要任务对待。当今世界经济发展体现为产业结构越来越合理化的过程,而产业结构的合
甘肃省嘉峪关市地处西部戈壁腹地,干旱少雨,水资源储备不富余。近年来,甘肃省政府拟在嘉峪关市建成年全世界年产量最大的铝产品冶炼和加工基地,此战略的实施,使嘉峪关市原本稀缺的
在我国资本市场上,公司的管理者和外部的投资者之间一直存在着信息不对称现象,如公司只披露一些对公司发展有利的信息,而对公司发展不利的信息则选择少披露或是不披露,甚至还