基于主题模型的科技论文聚类推荐

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:z504555643
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技论文为知识的传递起到了推动作用,用户通过论文出版商提供的专用搜索引擎得到所需要的文献,检索信息结果不仅包括文章的基本信息也包括该文章的一些推荐文章。本文从基于内容的推荐方向出发,在对文本建模的时候使用了主题模型,此时同基于空间模型的表示法相比,在语义层面的角度上充分的考虑了词与词之间的联系,而后通过基于划分的聚类方法,自动将相似文章集簇到一起,最后在各个子簇下利用相似性算法对各个文章进行计算,将计算值大的文章列为推荐文章。它同传统的单纯依靠关键词和题目推荐的方法相比,充分考虑到文章与文章内容之间的联系,为传统的论文推荐方法做了很好的补充。本文首先介绍了在信息检索领域里的基本的文本表示方法和演变,深入的介绍了隐性语义索引、概率隐性语义索引和潜在狄利克雷分配。在数据来源的方面上,着重的分析了目标网页的特点,制定相应的抓取规则。在推荐后端上,用三层框架来具体描述其实现:第一层是基于主题模型的文档表示;第二层是文档聚类使用的是K-means聚类算法;第三层是基于主题模型下计算文章的相似性。在实验阶段用LDA和PLSA在不同的主题数目下,计算聚类效果的F值。同时本工作在基于Sphinx搜索引擎的基础上用网页的形式实现出来。
其他文献
近年来,随着《唐勒》赋残篇的出土以及山东临沂银雀山《御赋》佚篇的出土,宋玉及其作品已经得到了学者们的认可,学者们就宋玉作品的辑佚、辨伪,宋玉的文学史地位以及其影响的研究
混沌是非线性动力系统中所特有的一种运动形式,将混沌系统抽象成数学模型并加以控制是探索混沌应用的主要形式,随着混沌系统研究的深入,分数阶系统逐渐从整数阶系统中脱颖而
针对利用CVX软件求解半定规划问题的有效性依赖于该半定规划问题的原始-对偶性,提出利用半定规划问题的强对偶定理和Gershgorin圆盘定理证明在箱子约束及单位球形约束下的凸
针对决策信息为区间值毕达哥拉斯模糊数(IVPFN)的多属性决策问题,提出了一种基于区间值毕达哥拉斯模糊交叉熵的多属性决策方法。首先,将交叉熵的概念引入到区间值毕达哥拉斯
针对响应变量随机缺失且解释变量带有测量误差的部分函数型线性回归模型,讨论了模型中未知参数和未知系数函数的估计问题及其渐近性质;先通过一定方法对缺失数据和带有测量误
目的探讨预测多发骨折术后弥散性血管内凝血(DIC)的危险因素.方法纳入2017年3月至2018年12月间的多发性骨折合并DIC患者作为实验组,按照性别、年龄匹配同一时间段内同等样本
针对微创手术中所使用的机械臂存在的灵活性和负载能力之间的矛盾,提出了手术机械臂要具有可控刚度这一特性;材料和构型对微创手术机械臂性能有着很大的影响,目前现有的微创
随着"丝绸之路经济带"的推进,新疆的出口贸易规模也在不断扩大,出口商品结构急需调整和改善。优化出口商品结构,需要大力发展资本技术密集型产业,较高的金融发展水平可以为其提
永磁同步电机(PMSM)有体积小、结构简单、重量轻、效率和功率密度高等优点,并且永磁材料、电力电子技术以及现代控制方法的快速发展,使永磁同步电机的应用前景更加广阔。直接
目的 探讨运用软骨膜片包裹聚己内酯(Polycaprolactone,PCL)内核,在裸鼠体内构建组织工程软骨的可行性;探讨Pluronic F-127凝胶和软骨细胞混合物促进PCL内核与软骨膜片组织整合