社交媒体短文本在线聚类方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:chijr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本是互联网中常见的内容形式,如社交媒体文本、广告关键字、观点评论、网页标题、搜索查询等。社交媒体的短文本在线聚类是指对社交媒体的短文本流式数据进行实时增量聚类,有利于海量新闻数据的分类整理和自动摘要,对舆情分析、灾难预警和事件检测等有重要意义。社交媒体短文本以文本流的形式快速产生,通常数据量十分庞大。同时社交媒体文本具有表述不规范、存在大量错误、文本内容简短等特点。传统文本聚类方法从词本身角度构建特征进行聚类,无法应用于高噪声、高稀疏性的社交媒体短文本聚类,同时也缺乏对流式文本数据聚类的解决方案。为此,本文主要从短文本相似度度量和在线聚类方法两个方面开展研究,主要贡献概括如下两个方面:(1)提出了多属性融合的社交媒体短文本相似度度量方法。该方法针对社交媒体文本长度短、信息匮乏的数据特点,作者利用词性识别技术和命名实体识别技术丰富和扩展了传统的向量空间模型,为了弥补向量空间模型在处理复杂语义上的不足,作者利用主题模型开发了一套短文本主题向量推断技术,用以识别文本中的相关词汇之间的联系。同时,利用社交媒体平台上的实体、时间、地理位置信息等其他信息,补充事件要素。最后把三种方法有机组合,组合方法在短文本相似度评价任务上准确率高于传统的文本相似度评价方法。(2)提出了基于标签传播的在线聚类方法BatchLPA。该方法针对传统的流式数据聚类方法SinglePass事件召回率偏低、参数设置复杂的缺点,与SinglePass不同,BatchLPA不再是简单的把新文本加入最相似的簇,而是保留新文本与所有簇的相似度网络,再使用简洁快速的社团划分方法标签传播算法,对相似度网络中的簇和文本进行划分和聚合。这种巧妙的方式间接的对历史数据以极小的代价进行了第二次处理,减少了信息的损失。实验证明,BatchLPA不仅簇的质量令人满意,而且簇的数量比SinglePass更加合理,算法性能对参数的依赖性更弱。
其他文献
探讨了中国古城选址的有关实践、思想学说 ,总结其保护城市自然和生态环境的历史经验 ,以作当今的借鉴。希望通过借鉴古人的历史经验 ,学习国外有关理论 ,逐步创建和完善中国
在新媒体环境下,为了更好的满足受众群体的阅读需求,必须要转变传统的新闻写作方式,朝着视觉化的方向发展。所以,本文对于新媒体环境下新闻写作语言视觉化过程中的问题以及有
现在我国的经济水平有了显著的提高而人们的生活水平也随之不断的提高,所以人们对于自己居住房屋的室内环境设计的要求也逐渐的提高,因为室内装饰设计能够很好的美化室内环境
目的探讨急性心肌梗死(acute myocardial infarction,AMI)患者发病住院的季节分布特征及其与各气象因子的关系。方法收集广州市某三甲医院2008-2017年确诊为AMI的2 471例住院
食管癌手术后,由于全身麻醉致使胃肠功能受到严重抑制,如果胃肠功能不能早期恢复,存在肠麻痹,易导致肠粘连、电解质紊乱、胃肠胀气,肠腔内细菌作用后产生的毒素、硫醇、类固
探讨了在不同环境条件和污染状况下,带膜动态测量的微振荡天平法的自动监测方法能否准确监测空气中的PM2.5质量浓度。通过自动方法与手工重量法的比对,针对2015年8月—2016年
本文介绍一种用于水下声成像系统中的彩色图像终端。它可以实时处理数据率为375KB/S以上的成像信号,能对C—Mode和B—Mode两种工作方式产生的图像信号进行内插处理;在B—Mode
岩溶地区地质条件特殊,覆盖层较厚,在软弱土层上修建高速公路,如不对地基进行处理,路基会产生沉降及稳定问题。PHC管桩施工速度快、成桩质量好,能有效解决软土地区路基质量问
<正> 我刚接触到北京话语音学的时候,就听老师讲过一条儿多音字——一、七、八,不——的读音情况:好比‘一’后头要是‘根’,它就念yì‘块’,它就念yí……。后来我遇上过不
<正>苏教版必修一第四专题"像山那样思考"节选了美国作家梭罗的《瓦尔登湖》(《Walden》)第九章(ThePonds)的一部分,另外取名为《神的一滴》,这篇课文里有四个比喻句,教学中