网络论坛话题补全与热度量化研究

来源 :南京财经大学 | 被引量 : 0次 | 上传用户:mailabc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络论坛中存在很多话题,通过这些话题可以了解当前社会的舆情,并可以对其进行监控,实施积极引导。对于相应的舆情监控系统,主要研究内容包括话题识别和话题监控。话题识别是对网络文本集进行处理,发现其中包含的话题类别,将文本集中的文本归入相应的类别。话题监控是对相关话题进行监测,并进行跟踪和控制。在网络话题识别方面,现有的研究中最重要、最基本的技术是文本分类和文本聚类。对于给定的一个话题,如果用分类或聚类的方法在文档集中得到相应的文本集合,无论是训练样本的学习还是聚类个数的给定,或者是决定类别粒度的阈值选取,在网络论坛的特殊情况下,其结果可能不能够很准确、全面地描述该话题。基于这些情况,文本提出了面向网络论坛的话题补全问题,并且实现了一种基于关键字的话题补全方法,使得用户可以根据给定的与某个话题相关的关键字对该话题进行较为全面的关键字补充。在话题热度计算方面,现有的研究都是对访问量、回复量、点击量等数据进行加权处理来计算相关话题的热度,这种方式下,权重的选取对最后的话题量化结果影响很大,对同样的话题、同样的数据取不同的权重计算出的热度数值会呈现出颠覆性的变化。本文根据这些情况提出基于用户活跃程度的话题热度计算方法,将用户在网络行为中的活跃程度作为计算网络话题受关注程度的指标。通过这种方法,可以比较有效地避免了由于少数用户关注程度大而造成的话题热度失真情况。
其他文献
压缩感知,是近几年在信号处理领域出现的新颖的采样理论,该理论显示,通过采集相对较少的感兴趣的信号值就可实现稀疏的或可压缩信号的精确重建,这样就使得信息获取、存储、处理和
随着互联网技术的发展,Internet实时视频传输在远程教育领域起巨大作用,多媒体技术和网络技术在教育板块里的应用是一个热点问题。流媒体(Streaming Media)技术具有边下载边
本文主要研究了云计算环境下的访问控制技术,分析了当前云安全中遇到的用户数据安全与隐私保护的问题。在对当前研究现状进行深入学习和总结后,进行了以下的相关工作:  在复杂
设施花卉是设施农业的重要组成部分,可用来栽培对环境因素要求高的珍贵花卉品种,提高花卉种植的经济效益,处于花卉产业金字塔的顶端。花卉图像的自动分割与特征提取方法研究,
本文对基于《知网》的文本相似度进行了论述,针对本文的研究对象《知网》,对其概念、特殊文档以及结构进行了重点的分析和研究。首先,介绍了《知网》的概念,指出了其中的特有的重
在数字信息时代,图像处理技术在医学、航空航天等领域得到了大量的应用,其中图像分割和图像增强是最具代表性的两种图像处理技术。在很多图像处理算法消耗时间越来越多的情况下
  数据挖掘是在海量的数据中挖掘出潜在的、有价值的信息,这些信息给人们提供帮助。聚类分析是数据挖掘中一个重要的应用。它以“物以类聚,人以群分”的思想,根据对象之间
社会标注系统的快速发展为互联网信息组织提供了新的方式。它延续了Web2.0以用户为中心的特点,充分利用用户知识来进行数据维护和管理。目前,越来越多的系统提供了对社会标注
随着计算机和网络技术的发展与普及,信息在人们的生活中扮演着越来越重要的角色。信息素质是人们获取、评价和使用信息资源的能力,是人们跨入信息社会,在生理素质、心理素质和社
随着互联网的发展,越来越多的人通过浏览互联网中产品的评论信息来了解产品的质量与服务的口碑,以便帮助他们做出可靠的决策;另一方面,作为生产厂家,他们也可以通过用户的产品