基于Skip-PTM的网页主题分类与主题变迁的研究

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:xrong19730911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
概率主题模型与词向量模型的结合已经成为主题分类研究的一大热点,本文基于该思想提出了一种适用于网页主题分类的Skip-PTM模型.Skip-PTM模型吸取了LDA主题模型的优势,扩展了Word2Vec的Skip-gram模型,由原来的使用词向量预测上下文词转变为使用上下文向量来预测上下文词.在网页主题类型变迁的研究中,本文根据一定的时间粒度,将网页文本集离散到时间窗口,然后在独立的时间窗口中使用Skip-PTM建模,从而挖掘主题的变迁.本文利用搜狗实验室语料数据和各门户网站搜集的数据集进行分析实验.实验表明,本文提出的方法可以通过潜在语义对网页主题进行分类,并且可以挖掘出主题变迁的趋势.
其他文献
现有大量慢阻肺患者跟电子病历,但偏远地区缺乏相关有经验的医生且患者缺乏对疾病的认识.知识图谱利于知识的展示,利于医生学习新的医学知识,也能普及患者对疾病的认识,因此
按照中央关于农村基层组织整顿和建设的要求,辽宁省黑山县委从本地实际出发,以化解村级债务为突破口,打开了新一轮农村基层组织整顿和建设工作的局面。 明确工作目标 1995年
大豆抗胞囊线虫的表型鉴定工作量较大,鉴定结果易受环境影响,是抗源筛选和抗病品种选育的限制因素之一.不受时间、环境限制的分子标记鉴定为抗病鉴定提供了一种高效快捷准确
随着生物技术的不断发展,越来越多的基因表达数据被获取.为了对这些数据进行聚类分析,本文在深入分析传统的聚类算法之后,提出了双精英遗传聚类算法.该算法通过精英策略来保
推荐系统旨在解决项目的信息爆炸问题并为用户提供个性化推荐.通常,用户交互的历史项目对于用户交互的下一个项目是有着不同的影响的.为此,本文提出一种序列感知深度网络(Seq
目的 探讨2009年北京市甲型H1N1流感发病的地理区域相关性和聚集性,为今后传染病发病的空间自相关性分析提供参考依据.方法 利用OpenGeoDa 1.0.1软件进行空间全局和局部自相关性分析,呈现2009年甲型H1N1流感空间聚集区域.结果 2009年北京市甲型H1N1流感发病分布不是随机的,呈现显著的空间聚集,即高发病区与高发病区邻接,低发病区与低发病区邻接,表现出一定的空间自相关性.全局空
为系统鉴定黄淮海地区大豆种质资源对大豆疫霉根腐病的抗性,本研究采用改进的黄化苗下胚轴接种方法,利用8个大豆疫霉根腐病菌株对2017和2018年从黄淮海地区各育种单位收集的3
对MapReduce和Spark两种框架下的大数据极限学习机进行了比较研究.具体地,从程序运行时间、任务的同步次数、分类器的泛化性能和需要读写的文件数目4个方面进行了比较.得出了
常见词嵌入学习可以理解为是在分解词的点互信息值矩阵,主题一致性评价方法也使用了词的点互信息,二者存在紧密的联系,但是现今还缺少深入分析主题一致性评价标准和词嵌入之
自省,是指在内心进行省察,检查自己有没有过错,自觉地使自己的思想和言行达到一定的道德、政治标准的要求。对于共产党员来说,自省,就是依据道德标准、党性要求、政治生活准