面向新闻数据挖掘的多视图聚类方法研究及应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:sundianjusdyg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多视图新闻数据聚类分析可以快速从海量新闻中获得有价值的信息,在舆情分析、个性化新闻推荐、情感分析、预警等领域能够得到较好的应用效果。当前的多视图新闻数据聚类分析存在以下几个问题:(1)新闻内容中的文本、图片和音视频等多媒体信息是由不同语义层次、不同粒度的内容概念进行描述的,若直接将各视图一视同仁地进行学习,将严重影响数据挖掘性能。(2)到目前为止,大多数方法都是在假设各视图是完备的基础上进行实验的。但在现实应用中,由于各种情形,导致完备视图数据很难获取,因此传统方法并不能较好地对不完备多视图数据进行聚类分析。针对以上几个问题,本文对混合粒度多视图新闻数据聚类方法以及不完备多视图新闻数据聚类方法进行了研究。主要研究工作如下:1.提出一种混合粒度多视图新闻数据聚类方法。针对现有的新闻数据聚类分析方法并未考虑不同视图特征的粒度差异以及视图重要性程度的差异,对现有的方法进行优化。首先,通过特征选择使得各视图混合粒度特征统一到相同的标签粒度。然后通过熵对各个视图进行加权融合,减少类别划分并不明确的特征空间所对应的视图对整个多视图聚类分析的作用。最后,用标准的k-means方法进行聚类。2.提出一种不完备多视图新闻数据聚类方法。针对现有大多数方法是在各个视图完整的假设基础上进行研究,并不能较好地处理视图不完备的数据的问题,对现有的方法进行改进。在混合粒度多视图新闻数据聚类方法的基础上,计算不完备多视图数据的相似度矩阵。同时,借助非负矩阵分解获得原始数据相似度矩阵的子空间矩阵,降低由于填充不准确带来的影响,并将缺失视图数据的填充和聚类过程相统一,通过可观测的视图数据迭代地更新缺失视图数据。3.基于多视图聚类的新闻热门话题发现应用。针对网络新闻数据热门话题发现应用场景存在新闻传播的平台广泛、新闻数据类型复杂、新闻数据数量庞大以及新闻传播速度极快等问题,本文将不完备多视图新闻数据聚类算法(IMVCN)应用在实际的新闻热门话题发现上,对网络新闻数据进行聚类,有效地挖掘出了新闻的热门话题。
其他文献
人工智能是人类未来发展的重要方向,而深度学习便是其中最为著名的研究方向之一。深度学习的出现促进计算机视觉、自然语言处理、推荐算法等多个领域的发展,同时也辅助人们在生物,医学等领域的研究。作为当下最为流行的研究方向之一,深度学习模型的效率却并不让人满意,这导致深度学习模型往往需要部署在昂贵计算成本平台上而非嵌入式设备或者手机等这类低计算成本平台。这限制深度学习的广泛应用。如何提升神经网络效率是一个非
卫星通信系统可以实现长远距离的通信以及克服恶劣的地形,面对突发灾害能达到快速部署的目的,但是当前卫星通信系统面临着复杂的信道环境以及卫星通信系统采用高频段信号容易造成信号衰落。基于大规模多输入多输出Multiple Input Multiple Output,MIMO)天线阵列的波束赋形技术通过相干涉、干扰一些信号减少卫星通信之间的干扰以及通信时的能量损耗。为了解决卫星通信系统面临着复杂的信道环境
在当前的用户用电信息系统中大都采用低压电力线通信,通信信号通过电力线进行传输。这种通信方式受限于传输介质和布线,存在网络速率低、信号易受工频噪声影响、无法穿过变压器等缺点。宽带微功率作为一种无线宽带通信方式,避免了电力线通信带来的缺点,开始应用于用电信息系统。然而,目前的宽带微功率网络协议栈网络层存在节点管理效率低、灵活性差的缺陷,无法应对业务量和数据量逐渐增大的信息网络。本文在实现宽带微功率网络
近年来,百姓的日常生活越来越依赖于网上购物,人们在线上平台进行采购的种类和频率都有所提高,受此影响,生鲜电商也进入了快速发展时期。随着人们对于线上平台采购生鲜产品的需求越来越大,国家相关部门也出台了许多政策用以支持和引导生鲜冷链物流的健康、快速发展,但生鲜电商企业在发展过程中依旧存在着诸如企业盈利困难、物流过程中生鲜产品损耗率大、配送成本高等的问题。这些问题很大程度上制约着生鲜电商企业的可持续发展
制造企业间的竞争不仅是产品的竞争,也是物流服务的竞争。随着信息时代的发展,消费者对企业物流服务要求越来越高,物流服务逐渐成为了制造企业提高市场竞争力的有力工具。在市场物流服务需求不断变化的背景下,制造企业需持续进行物流服务创新,通过创新进行服务优化、升级,提高自身物流服务质量与水平,维持竞争优势。然而,制造企业开展物流服务创新会受到物流知识水平、企业创新重视程度、政府政策等多方因素的影响。由于各制
随着电子产品的不断推陈出新,生活中的“电子垃圾”也在不断增多,造成的环境污染问题不容忽视。这引起了政府、企业及消费者对社会可持续发展的高度重视,使得以旧换新的呼声渐高。企业开展以旧换新业务不仅能够节约资源、保护环境,还能鼓励消费者需求。例如,在2018年4月,苹果公司主动推出了Apple Giveback回馈计划。但开展以旧换新还有许多问题亟待解决。比如,企业如何选择市场策略,哪些因素又对企业利润
随着国家及社会经济的飞速增长,物流产业得到了高速发展。研究物流车辆路径规划可以提高物流产业的发展质量。如今,物联网、云计算、北斗导航等技术在生产生活中大量普及,这使得在车辆路径优化时有能力考虑更多的实时信息,而物流产业的众多新业态也需要在车辆路径优化时考虑实时信息。研究考虑多种动态要素的动态车辆路径问题,对于降低物流成本、提高顾客满意度,进而提高整个物流系统的稳定性具有重要意义。在传统静态车辆路径
比特币的问世使区块链受到了广泛关注,其去中心化与不可篡改的特性有助于多方数据共享与价值流通,被视作构建大规模信任互联网的支撑技术,从而吸引了众多业务领域的企业组织发掘其落地的应用方式,大量Dapp蓬勃发展。但是目前最大的区块链基础设施比特币及以太坊存在着性能瓶颈,难以满足大规模互联网应用的需求。因此可扩展性一直是区块链领域的研究热点。国内外研究者针对该问题提出了许多解决方案,从最初的放宽比特币参数
智能电网在能源生产和分配方面具有相当大的灵活性,为了满足这种灵活性,电网必须更加精确地预测供求变化,在聚合级别以及单个组件级别下实时做出智能控制决策,有效地分配来自各种能源的发电量。然而,伴随着智能电网的发展,智能电网下的数据呈现指数级增长,可以预见未来电网云端难以高效实时处理如此大规模的数据,造成对电力的精准预测难以满足实时性要求。为了解决上述问题,本文提出面向边缘智能的超短期负荷预测方案,将智
近年来,随着互联网的蓬勃发展和社交媒体的大量出现,创建了大批的用户生成内容。用户生成内容在情绪识别方面可以应用于信息咨询、舆论挖掘和维持社交关系等领域,那如何从用户生成内容中挖掘其有效的情绪信息,为高级人工智能的活跃发展助力,成为了一个比较热门的研究方向。基于此,基于对话的情绪识别也受到了越来越多学者的广泛关注。目前,基于深度学习的情绪识别方法取得了较好的研究成果,而引入自注意力机制可以进一步提升