微博数据提取及话题检测方法研究

被引量 : 0次 | 上传用户:busyouweb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为近年来急速流行起来的网络应用,正在快速深入每个人的日常生活中。由于其不仅可以通过电脑而且可以通过手机等移动便携设备进行内容发布,所以其具有诸如实时性,碎片性等特点。同时微博博主可以有关注和被关注的关系,微博内容也有评论转发等形式,故也体现出其互动性和灵活性。本文基于微博以上特点做了数据提取和话题检测两方面工作。传统的网络文本数据提取一般是利用图遍历的思想通过网络爬虫搜集信息,本文在此基础上研究了使用微博开放API接口进行数据获取的方法。首先着重分析了OAuth2.0认证原理,然后研究了获取认证的流程,此认证的获取是利用开放接口的前提条件,目的是让第三方应用可以接入服务方的数据且不泄露个人信息,最后利用新浪微博的开放接口实现数据的提取并将获取的数据以更高效的JSON格式保存,实验证明此方法相比传统方法处理效率更高,在同等数据量前提下文件大小更小。话题检测在数据挖掘领域已经得到了深入的研究,其可以从分散的多个文本文件中提取出少量的不同主题,从而可以更清晰明了地展现数据的整体概况。在进行话题检测时传统的基于空间向量模型建模方法容易造成语义丢失的问题,于是本文改进现有的特征权重和相似度计算方法,采用与语义相结合的方式,同时针对微博内容实时性的特点,在前期建模阶段添加时间参数以保证话题检测的正确性,传统的检测方法主要是针对无结构文本的分析,本文中考虑到微博转发功能的结构化特性,最后选取改进的单遍聚类Single-Pass方法实现话题检测。通过比较实验证明本文方法在话题检测标准的漏检率,错检率等上取得了较好的效果。
其他文献
物联网作为信息产业的第三次浪潮,在农业中的应用将会解决一系列科学技术问题,例如分布在广域空间的信息获取,高效可靠的信息传输以及面向不同应用的智能决策等,将是实现传统
随着全球经济一体化的不断发展,世界各地之间联系的不断增强,跨国公司的组织规模不断扩大和复杂,如何保持企业的核心竞争力是CEO及CFO们不得不面对的问题。财务外包作为一种
土壤微生物是植物-土壤系统中比较活跃的组成成分,土壤微生物多样性代表着微生物群落的稳定性,对植物的生长发育和群落结构的演替具有重要作用。通过植物类型、植物多样性、
公安情报学作为一门研究如何有效地运用信息知识、如何有效地驾驭情报规律的科学,必然成为融合自然科学、技术科学和社会科学的综合性学科。公安情报学的理论体系框架结构应
随着国民经济的发展,城市规模的不断扩大,市政公用事业、城市基础设施的建设和发展存在巨大的资金缺口,单靠政府投资的公共服务提供方式已经不可行。另外,公共需求的多元化和
公务员队伍是我国人才队伍的重要组成部分,他们担负着国家行政管理的职能。公务员的能力素质决定着党和国家的管理能力,决定着党的执政水平和国家的管理水平。培训是提高公务
会议
企业经营状况的好坏会直接影响我国经济的平稳发展,制定合理的财务战略成为公司规划企业未来,推动企业发展的重要一环,对公司而言有正确的财务战略具有重要的意义。本文从企
在"互联网+"时代,现代化信息技术对当今企业有着极为重要的作用,且现代化信息技术在会计核算中也具有较为广泛的应用。在管理会计中,业财融合作为其未来发展方向,应充分发挥
地方人大制度在地方治理体系中居于主导地位,是支撑地方治理体系和治理能力现代化的主要政治制度之一。地方人大专门委员会作为地方人大工作机制的重要组成部分,其设立主要源