基于吉布斯采样结果的主题文本网络构建方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:jiangwei521521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
挖掘文档集合中主题词的概率分布可对文档内容做概要性了解。进一步探寻给定主题下单词之间的连接关系不仅能丰富主题词的含义,而且能更细致地表现主题的层次和聚集关系。为此,针对带标签的文档集合,基于标注潜在狄利克雷分布(LDA)分析后的吉布斯采样结果,提出一种给定主题下2个单词共现的概率计算方法,并在此基础上构建主题文本网络。与逐点标注LDA(PL-LDA)模型相比,该方法不扩充原始文件,计算量小,耗时短。在航空安全报告数据集上的实验结果表明,对标记单词较多的主题,该方法能够较好地展示主题词的分布情况以及它们之间
其他文献
本文研究了两个双参数指数分布的分位数比较的检验问题,首先给出了参数bootstrap和Fiducial推断两种方法。然后通过数据仿真模拟对上述方法进行比较分析,并进行了实例分析。
生命最初诞生在水中,水是生命的基础物质之一,是维持生命所不可缺少的,也是我们生活中所不可缺少的物质。我国正面临水资源短缺,水体污染严重等问题,我们必须认识到保护水资
"地球上生命的历史即生物与它们的环境互相作用的历史."不论是山清水秀的内地风光,还是了无人烟的荒漠高原,都是生命发展中相互作用的印记.
当前基于单机系统的传输控制协议(TCP)报文重组工具随着数据量的增大,运行效率越来越低,难以满足大数据时代的需求。为此,提出一种基于Hadoop的海量数据TCP报文重组系统。利用H
为了探讨氮肥用量与栽插密度对超级早稻干物质生产的影响,2007年在长沙、常德、郴州进行了大田栽培联合试验。结果表明.干物质生产随施氮量和移栽密度的提高而增加,差异显著,成熟
盛夏酷暑来临,席卷全国的"电荒"大有愈演愈烈之势.为有效化解用电困境,最近许多城市出台规定对空调温度进行限制,6月3日,北京市奥组委向全市宾馆、酒店、商厦、机场、车站等
对期货市场的价格进行合理地预测,可以规避风险,获得收益。本文利用支持向量机(SVM)回归、决策树(RPART)回归、Bagging回归、Boosting回归、随机森林(Random forest)回归五种
在经济不断发展的过程中,能源扮演着非常重要的角色。在这个过程中,能源一方面对经济发展起着促进作用,一方面也对环境产生了负面的影响。本篇文章通过构建协整性与格兰杰因
本文选取了16个主要财务指标来研究23家上市企业的财政状况,对其发行的股票进行评价与预报。由于各个财务指标之间存在一定的相关性,容易造成信息的重复,因此我们采用因子分
位于广东省韶关市翁源县铁龙镇的粤北危险废物处理处置中心日前动工,预计于2007年底前竣工。据悉,粤北危险废物处理处置中心是广东省治污保洁工程项目和韶关市“十一五”规划建