基于文本聚类的微博信息分析的研究

被引量 : 10次 | 上传用户:free522
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为一种新兴的社交媒体与信息交流平台,近几年得到了飞速的发展和广泛的应用,相比之下微博信息的分析与挖掘还处于起步阶段。微博信息具有海量、短小、不规范、重复度大等特征,传统的信息分析方法难以满足微博信息分析的需求。正是在这种背景下,本文引入文本聚类方法,并针对微博信息的特点展开研究和试验,目的是能够将内容相近或相似的微博聚集到一起,识别出微博话题。这样不仅能够实现信息的有效组织,节省用户查看微博的时间,而且对微博舆情的预警也有一定的帮助作用。本文主要完成了以下几个方面的工作。首先分析了微博文本信息的特点,并根据其特点研究了常用的微博信息分析方法,比较了各种方法的优缺点并确定本文基于文本聚类的研究方案。其次,针对微博信息的特点和处理效率等因素,设计了基于文本聚类的微博信息处理流程,包括微博文本预处理、微博文本表示及聚类处理;接着,对文本表示方法和文本聚类算法进行了深入的分析,选择向量空间模型描述微博文本,选择k-means算法实现微博文本聚类,讨论了微博信息处理流程的具体实现,最后,在经过预处理的微博数据基础上展开试验,并深入讨论了特征维数和距离对聚类结果的影响。本文的研究工作表明,采用“最小最大原则”能够较好地克服k-means算法对初始点敏感的问题;在文本相似度的计算上,余弦距离比欧氏距离更加适用于微博文本的聚类,最终能够获得较高的正确率和召回率,因此从实践上论证了k-means文本聚类算法对微博信息分析的可行性和合理性,并为微博信息的深度分析和后续应用系统的开发提供了基础。本文的研究工作对微博舆情监控等方面的应用开发有着重要的参考意义。
其他文献
流域外源污染包括点源污染和非点源污染。点源污染是指通过排放口或管道排放的污染,是易于直接监测到的污染物排放源。非点源污染是相对点源污染而言的,是指由于降雨产生径流而
本文分析了红外玫瑰线扫描超分辨成像原理,提出小型化高速目标识别系统设计方案,给出了基于专用快速低功耗DSP芯片和可编程逻辑器件的系统实现.与文[3]实现的系统相比较研究
漆画具有绘画和工艺的双重属性,漆画是以漆艺手段为表现语言的美术工艺。漆画材质、技艺是漆画艺术的根基,没有材料的运用和工艺的变异,就没有漆画艺术。因此,工艺手段和材质
常见的骶骨原发肿瘤包括脊索瘤、骨巨细胞瘤、软骨肉瘤及恶性神经源性肿瘤等,此类肿瘤对放化疗均不敏感,且治疗后复发率高、预后差,因此手术治疗成为主要治疗手段。骶骨位于盆腔
在对滚筒式采煤机截割部调高机构受力分析与结构简化的基础上,得出了截割部调高系统的力学模型,并运用Matlab/Simulink建立了截割部调高机构的动态仿真模型,并进行了仿真分析。仿
随着网络安全工作在银行业的不断深入,银行业信息系统管理成为日常工作的重要环节。由于中小型商业银行在规模、技术、资金等方面存在先天不足,因此,其信息系统管理更值得关
当前,我国机动车数量增长迅猛,车辆保险市场日趋活跃。作为中国政治金融中心的北京,截至2013年,机动车保有量已经突破了500万大关,庞大的车辆保险市场成为众多保险公司竞争的重要
从行为金融学的角度出发,探索其在金融科技中的应用场景。借助人工智能、大数据等技术手段,拓展行为金融在证券、保险、银行等机构以及投资、风控、营销等领域的实践应用,帮
如今,经济全球化张力未减,正在成为21世纪世界经济发展的主潮流,生产要素正以更快的速度在全球范围内流动,从而实现着资源在全球范围内的最优配置。经济全球化的核心是产业全球化
本文围绕采动裂隙岩体应力恢复规律及其对裂隙岩体渗透性演化作用机理这一科学问题展开研究。通过模型试验、理论分析对采动裂隙岩体的应力恢复规律进行了研究,指出采空区应力