【摘 要】
:
互联网的快速发展使传统的新闻媒体(报纸、电视等)和新社交媒体(博客、微博、论坛、推特等)共生且互补。新闻媒体以专业的视角对一热点事件与话题提供准确、客观、深入的报道
论文部分内容阅读
互联网的快速发展使传统的新闻媒体(报纸、电视等)和新社交媒体(博客、微博、论坛、推特等)共生且互补。新闻媒体以专业的视角对一热点事件与话题提供准确、客观、深入的报道,同时,社交媒体作为一个网络平台为人们能够及时快捷的表达和分享他们对该热点事件的观点和看法提供便利。但现如今使用社交媒体的人越来越多,大量的与新闻话题无关、冗余的杂质信息和有效的信息混淆在一起,严重干扰了对重要信息的提取。因此在海量的社交媒体文本中寻找与新闻话题相关的信息以及人们感兴趣的信息就显得尤为重要,本文的主要任务就是建立新闻话题与社交媒体文本间的联系,提高用户获取信息的效率。为了实现上述目的,本文采用一种基于Topical N-gram Model(TNG)主题模型的社交媒体文本上下文衔接方法,该方法首先使用TNG模型对新闻文本建模以获得主题信息。因为TNG模型考虑了词序对主题特征词的影响,在模型中加入n-gram短语,充分利用词的上下文信息。在计算主题与社交媒体文本间的相似度时,因为新闻文本与社交媒体文本在词汇使用上的差异,我们利用主题与社交媒体文本中的词共现对主题进行调整之后再计算相似度,这样调整后的主题中不仅包含新闻中的词,还包含社交媒体文本中的词,因此能够更好的实现对社交媒体文本的分类。此外,采用了另一种基于Word Mover’s Distance(WMD)文本距离的社交媒体文本上下文衔接方法,该方法考虑到上一种方法在计算相似度过程中不能捕获不同但相似的词或短语的问题,采用一种新的基于word2vec的文本距离计算方式WMD来计算主题和社交媒体文本间的距离。因为word2vec是对大规模外部语料进行训练后得到词对应的词向量,因此词向量的效果好,并且它只需简单的向量操作就可以得到其对应的语义信息。即使表面上看没有相同的词,但若是词义相近,那么把一个词“搬运”到一个与它相似的词的代价肯定小于其他词。
其他文献
随着社会的发展,全球能源的需求持续增长。分布极其不均衡的石油作为不可再生资源,在需求持续增长的社会环境下,供应增长速度却相对缓慢,造成油价持续高涨。石油分布的不均,海洋面积的广阔和海底能源的丰富,使得海洋石油开采和运输活跃,海上溢油现象频繁发生。国内外相关领域主要利用遥感方法来检测海上溢油事故。航空高光谱遥感图像具有波段多,分辨率高,数据量丰富和及时性强等优点,使得其在海上溢油检测中具有较高的研究
随着数字技术和因特网的快速发展,多媒体信息的交流已达到了前所未有的广度和深度,其发布形式也愈加丰富。人们如今可以通过网络发布自己的作品、重要信息和进行网络贸易等,但是
因为与时间相关的关系型数据库系统的应用需求在各个领域都在不断的增长,使得时态数据库系统的设计问题变得十分重要。但是,由于在传统的关系型数据库中引入时间维度之后,数据库
无线传感器网络(Wireless Sensor Network,WSN)是由大量微型传感器节点组成的无线网络,能够实时监测和采集各种监测对象的信息并传给用户进行分析和利用。WSN通常工作在人们无
随着局域网技术的发展和分布式企业规模的扩大,传统IP数据网络已无法满足其通信需求。为了有效的管理VPN中的网络资源和业务,提高信息传递的安全性,设计并实现针对网络综合业
随着电子产业的发展,硬件成本下降以及图像视频处理各种算法不断推陈出新,视频处理技术在工业、商业以及民用方面已经达到实用的阶段。在视频处理技术快速发展的环境下,虚拟
随着校园信息化建设的不断发展,校园网的应用也日趋成熟,校园网视频应用和我们日常的学习生活息息相关,包括我们的科研工作ǜ日常学习及生活等各个方面然而当视频直播请求增多的
办公自动化(OA)系统是通过计算机技术实现公文流转、审批等事务自动处理的信息系统。云计算是一种新兴的网络应用模式,能通过互联网实时提供产品、服务和解决方案,可将IT资源当
车内电控单元数量的稳定增长以及其承载的算法复杂性成为近年汽车工业的显著特征之一。AUTOSAR作为一个由一百多名成员组成的电控单元标准化架构开发组织,意在提供标准化的开
重构技术由于其在构造灵活代码方面的实用价值已经获得了普遍应用。重构旨在提高软件质量,增强可理解性和可维护性。面向方面编程(AOP)是一种新的编程范式,将横切关注点封装在