基于层次主题模型的网络热点分析研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:congmingwangzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和移动设备的普及,文本数据呈现爆炸式的增长,每天所积累、存储的数据量越来越多。面对如此海量的数据,如何从众多杂乱无章的数据中获取到实际需要和关注的信息变得困难异常。因此,找到一种有效避免信息过载,从海量数据中快速获取有效信息的方法,在今天已经成为热点问题之一。虽然搜索引擎的出现为人们从海量数据中寻找有用信息提供了极大的帮助。然而搜索引擎一般是基于关键词匹配来完成信息的查找,查询结果是离散化和碎片化的,不能很好的体现获取信息的时序性和关联性。所以主题模型在信息提取中的应用,对于用户在新闻资讯中个性化和垂直化的分析需求具有非常重要的现实意义。本文主要从关键词提取、层次主题发现、主题演变可视化分析和网络热点分析系统集成4个方面展开研究与实现。1)关键词提取,基于TextRank模型进行研究,分析了当前TextRank模型关键词提取的特点,提出了一种词在文档内的词距和位置分布加权的TextRank模型,应用于网络新闻文本的关键词提取。词在文档内的词距和位置分布加权是马尔可夫链的应用扩展,通过迭代计算权重用于生成TextRank模型的概率转移矩阵。本文改进模型与其他模型进行实验比较,当关键词个数取3、5、7和10时本文改进方法的F值增量提升分别为1.29%、3.14%、5.43%和5.88%,验证了本文提出方法的有效性。2)层次主题发现,基于PEM-HLTA模型提出了一种改进的PWA-PEM-HLTA模型,首次应用于中文网络新闻文本层次主题发现。改进模型的方法在原模型的词选择预处理过程中加入词性信息,在原模型的计算过程中进行Aitken加速。使用三个数据集,NIPS论文数据集、Reuters数据集和采集的网络文本数据集进行实验对比。在标准的NIPS和Reuters数据集上,改进模型平均运行效率提高5倍。在网络文本数据集上,改进模型平均运行效率提升4.7倍。验证了本文改进模型的有效性。3)主题演变可视化分析,本文对现有文本可视化模型主题静态展示和动态展示方法进行分析研究,设计了一种文本主题动态数据以静态方式可视化呈现模型。对新闻文本主题内容同时在层次、时序和细节三个维度进行宏观可视化呈现,并基于2018年8月27日“昆山砍人”事件进行分析说明。4)基于以上三个研究内容,本文参考分层结构设计并实现了一个低耦合、高内聚的网络热点分析系统。该系统集成了关键词提取、层次主题发现和主题演化分析研究内容,包括从后端进行数据获取、预处理、分析和前端信息展示等功能模块。
其他文献
为提高物流效率,优化各生产车间的布局,提出了针对不规则场地的适应度函数,并运用部分映射交叉方法和染色体首尾倒置的变异方法来进行遗传算法的计算。通过MATLAB软件实现该
"鸡尾酒疗法"特指针对爱滋病的一种治疗方法,是将几种已知的对爱滋病有效的药物组合在一起,联合用药;不同的病人、不同的治疗阶段采用不同的药物组合,从而达到有效抑制爱滋病
传统观念认为,成年神经受损后是不可恢复的,但目前研究证实多种内源性神经营养因子参与脑缺血后神经干细胞的增殖,迁移和分化,本文就多种营养因子对脑缺血后内源性神经发生的
针对工程中的柔性安装问题,以广义浮筏隔振系统为例,采用子结构导纳分析法,研究了复杂机械系统的动态传递特性,从功率流的观点对复杂机械系统的隔振效果评估问题进行了研究,验证了
<正>拔除意外折断的残根多为去牙槽牙根间隙拔除,以减少根分叉、断根与牙槽骨粘连。传统的拔除断根方法,用根挺挺拔法、凿除牙槽骨法。作者在临床工作中注意到:凿除牙槽骨时
文章针对二通插装阀系统研究一种统一建模的方法。首先从系统最基本单元液阻开始研究 ,重新定义和分类 ,并绘制新的液阻符号 ,然后建立不同液阻类型的统一数学模型。在系统回
首先,文章采用文献调查法获取国内外新市民城市融入信息行为相关研究成果;然后,从新市民城市融入与信息的关系、新市民信息素养与城市融入的关系、新市民城市融入信息行为、
为了古典文献文字识别效果更好,在分析前人研究成果的基础上,基于多学科交叉,对遗传算法进行改进:建立经过优化的初始化种群,为交叉选择方法提供多样性的信息,利用柯西变异与
文章分析了户外服装衣袖结构功能性。从人体手臂静动态功能特点及静动态功能转换等方面,阐述户外服装衣袖结构功能性设计要求。以分身袖和连袖结构功能设计为实例,提出了户外服
相对于噪声系数,噪声参数更加全面地反映了半导体器件噪声特性。介绍了微波低噪声器件噪声参数产生机理及测量原理,分析了噪声参数测量方法。针对低噪声封装器件的特点,自制