基于SVM的微博话题跟踪方法及其应用

被引量 : 0次 | 上传用户:wangzhaohai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题跟踪作为信息处理领域中的一项重要问题,自提出以来就受到了广泛的关注,被应用于数字图书馆、舆情分析等领域。目前,大多数的话题跟踪系统研究都是针对新闻信息、博客信息等长文本,关于微博等社交网络短文本信息的研究还比较少。近些年,随着自然语言处理、机器学习等技术方法的发展,话题跟踪系统构建方法也不断丰富。本文针对微博信息,设计了一种基于SVM的微博话题自适应跟踪方法。本方法的最大优势在于能够对微博话题进行自动自适应的持续跟踪,同时自动对话题演变发展进行了分析归纳,只有最初的话题模型训练语料收集以及特征词表构建环节需要一些人工处理。本文的主要工作和研究内容如下:第一,设计了一种基于SVM的微博话题自适应跟踪方法,该方法主要包括以下几个步骤:微博数据采集、特征词表构建、分类模型训练、微博话题发展演变分析。其中特征词表构建与微博话题发展演变分析是本文的重点研究内容。第二,研究特征词表的构建,采用了特征选择的方法,分为三个部分:中文分词、特征选择指标选取、特征全局权重计算。在中文分词环节,加入了新词发现模块,提高分词准确率。比较不同的特征选择指标,选择适合话题的评价指标对特征进行筛选。最后,根据评价指标计算特征词的全局权重。第三,研究话题模型的发展演变。采用反馈机制对分类模型进行动态更新,保证跟踪系统持续有效地跟踪后续微博信息,同时利用LDA方法对新话题进行抽取并进行归纳,检测话题的迁移转变。第四,将基于SVM的微博话题自适应跟踪方法应用到实际微博数据,对热点微博话题进行自动持续的跟踪,最后尝试分析话题的发展演变轨迹。该方法能够自动持续准确地跟踪话题相关的微博信息。
其他文献
蜜柚是一种常绿果树,营养丰富,经济价值高的绿色食品;其适应范围广,抗病、虫、害能力强,山坡地,丘陵地,沙壤土,黄壤土,光照充足,排水灌溉条件好的均可种植。目前大埔县蜜柚种
利用1922~2007年淮河流域和长江中下游夏季降水量资料,使用小波变换、广义极值分布等方法,分析了近86年来淮河流域夏季降水的年际、年代际振荡和概率分布特征.在此基础上,分
<正>岁月如梭又一年,辛劳无愧照苍天。兔去龙来春风绿,万水千山百鸟喧。近年来,学校按照"以人为本,全面协调,可持续发展"的思路,沐阳光,润甘露,迎风霜,挥汗雨,众志成城,共铸
在传统的警犬搜毒、搜爆训练中,犬建立毒、爆气味联系的方法通常是在搜索形式中藏入毒品或炸药(或奖励物品与毒品或炸药同时放入),当犬“嗅”到该处位置时,利用毒品、炸药气味对犬
期刊
随着我国经济的快速发展,水利工程得到了社会的广泛重视。本文主要阐述了水利工程施工管理质量控制的重要性,分析了存在的问题,并提出了解决措施。
本文针对温度对花卉的生长的影响进行了研究,以温度对竹芋的生长和发育的影响作了具体对比,温度是影响植物生长发育最重要的因素之一,制约着植物的生长发育速度以及体内的一
城市地下轨道交通工程由于投资巨大,社会关注度高,其风险管理更显至关重要,风险的发生可能会造成巨大的经济损失和极坏的社会影响。鉴于此,本文以广州地铁建设工程为平台,对盾构施
<正> 怎样的酒吧才算得上是好酒吧? 不久前在京沪穗三地同时启动的寻找格兰菲迪“炼”酒吧活动,谜底已揭晓:北京的Suzie Wong、上海的Park97以及广州的Face café,从北京三里
伴随着改革开放下经济高速发展与历史文化遗产受到重视程度不断增加的大背景,本文通过从都城选址、规划设计、布局特色、宫阙制度、建筑工艺、石雕艺术等方面探讨,进而分析南京
随着全球经济的快速发展以及竞争形势的不断恶化,企业经营管理环境变得日益复杂,企业的生存与发展空间都受到了严峻的考验。传统以财务指标为主的业绩评价体系的局限性不断凸显