面向网络舆情的文本知识发现算法对比研究

来源 :第八届中国可信计算与信息安全学术会议 | 被引量 : 0次 | 上传用户:jgc5961224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代,公民更多的参与到网络媒体中,产生出大量舆论,部分舆论需要进行检测、监控,以辅助相关部门决策,发扬积极舆论,引导消极舆论.面向网络舆情分析领域的应用,本文研究了系统聚类、String Kernels、K最近邻算法、SVM算法以及主题模型等五种聚类算法,以网络舆情数据为数据对象集,以R语言环境中为实验工具,对五种聚类算法进行了全面的对比研究,同时进行了仿真实验,比较了这五种算法在网络舆情文本知识发现领域应用中的优势与劣势.实验结果表明,在网络舆情文本知识发现领域"主题模型"相对于其他算法在文本聚类方面具有更好的适用性.经进一步的实验还发现,在主题模型中CTM方法更适合于类别关系的探索与发现,而Gibbs抽样方法在文本聚类上的表现则优于CTM方法.本课题研究结果对于网络舆情文本知识发现中的文本聚类算法选择有重要价值.
其他文献
With the pervasiveness of Vehicle Information Svstem (VIS) and the advance of Vehicular Ad-hoc Network ( VANET).Intelli- gent TransportationSystem (ITS).which can improve road traffic and reduce the n
Revealing security vulnerabilities is one of great challenges for the Android ecosvstem Staticanalvsis is the usual approach of the securitv analysis for computer software However.it is undirected and
信任模型是解决开放式网络环境中信任问题的有效方式,信任量化是可信管理中亟待解决的关键问题.针对信任量化中动态适应能力不足,信任的有效聚合不足,激励机制考虑不足等问题,根据信任模型设计原则,本文在推荐信任量化中引入奖惩因子体现推荐实体对访问主体的直接信任的可靠程度,采用推荐实体的评价可信度来决定访问客体是否采纳推荐实体的推荐;综合信任的度量过程中采纳平衡权重因子解决直接信任和推荐信任的权重问题;最后
Trusted Platform Module (TPM) is the "root of trust" of the whole trusted computing platform.It is necessary to analyze the TPM 2.0 specifications to judge whether it has the old vulnerabilities in TP
As Cloud Computing is one of the hot and trending technologies.A large amount of sensitive information is increasingly centralized into the cloud.To preserve the datas privacy,sensitive data has to be
The anomaly detection as a kind of intrusion detection way is good at detecting the unknown attacks or new attacks,and it has attracted much attention during recent years.A new hybrid intrusion detect
Attribute based encryption enables data owners to share their information by specifying access control policies while outsourcing their encrypted data to the cloud.However,there are no efficient searc
为保障云环境中虚拟机应用的安全性与可用性,本文提出一种能够支持多种虚拟化技术的进程非代理监控方法.利用该方法设计一个非代理的进程主动监控框架.本框架将进程监控点设在虚拟机监视器中,而不在其中安装任何代理.该框架可以支持VMware、Xen、KVM三种虚拟化技术,实现了对客户操作系统(Guest OS)的隐藏进程检测和进程负载监控保证虚拟机安全可靠地运行.对于隐藏进程检测,从被监控虚拟机外部获取活动
随着互联网的快速发展,网络舆情分析研究变得越来越重要.其中聚类是网络舆情分析中的一个非常重要的方法.传统的聚类算法都是基于词语来进行聚类,忽略了文本中可能隐含的信息.本文将TF-IDF和LDA主题模型分别计算的文本相似度进行线性结合来计算文本之间的相似度,从而进行更准确的聚类分析.在构建LDA主题模型时,通过Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定.在仿真实验中,
随着分布式系统并发性和交互性的不断增加,其可靠性变得难以保证,而对其行为进行建模、分析与检测是解决这一问题的重要手段.本文引入进程代数对分布式系统的行为建模,提出一种行为分析与检测方法.该方法通过分析二进制码获得系统的控制流程图并将其转换为进程表达式;通过消除表达式不确定性、添加并发操作以及约简归并等方式对表达式进行重写;依据并发规则消除进程表达式中的并发算子,建立分布式系统的行为检测模型,并给出