基于文本分析的专家推荐系统研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:houhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线问答社区已成为人们解决问题、获取知识的重要平台。然而用户在社区提问时受限于自己的用语习惯导致问题描述不准确,往往难以获得高质量的回答。因此本文提出一种基于文本分析的专家推荐系统,该系统能够针对用户所提出的问题,通过改进后的Labeled-LDA模型以及BERT模型进行建模得出最适合回答该问题的若干专家。在专家文本分类部分,考虑到原Labeled-LDA模型存在过多无用词干扰,容易造成主题湮没的缺陷,本文在原模型基础上结合TF-IDF算法、卡方检验算法以及特定领域的特殊名词库进行改进,增大能够代表某一主题的特征词权重,提高模型的分类性能。在专家推荐部分,本文先将待回答问题通过改进后的Labeled-LDA模型进行分类以获知该问题所属的领域类别,然后从该类别下的专家列表中依次取出待匹配的专家信息文本。最后采用BERT语言模型将待回答问题与待匹配的专家信息进行向量化建模,计算两者向量之间的相似度,将相似度系数较高的专家推荐给该问题的提问者。本文旨在利用上述方法实现一个育儿网用户的专家推荐系统。实验部分首先通过Scrapy-Redis分布式爬虫系统获取育儿网近十年来用户的问答信息,预处理后得到每个专家用户的历史回答集合。然后使用改进后的Labeled-LDA模型对所有专家的文本数据进行建模,得到每个专家所擅长领域的概率分布以及各领域下的词汇概率分布,形成专家列表。最后通过BERT将待回答问题与专家信息进行相似度匹配,完成专家推荐。实验结果表明,该系统最终实现的推荐精确度与其他算法实现的推荐精确度相比有显著提高,由此证明了该系统的可行性,为专家推荐领域提供了新的思路。
其他文献
本文采用国际死因分类法,中国和世界标准人口及蒋氏简略寿命表,分析沪县疾病监测点居民病伤死亡及预期寿命。总死亡率为5.6‰其中男性6.18‰,女性4.99‰,经μ检验,男性显著高
科学发展观是我国各项事业的行动指南,也是图书馆事业与建设的指导思想。图书馆在自身建设中,应牢固树立和全面落实科学发展观,坚持以人为本的管理理念和服务理念,推动图书馆的全
音乐作为人类文化的一个种类,在不同的地域,受不同的文化影响,其展现出不同的风格。本文将对辽宁省南部民间音乐进行调查,对辽宁省民间音乐这一非物质文化遗产进行系统地了解。
图书馆服务是馆员与读者心灵互动的过程。阐述了“破窗效应”、“马太效应”、“晕轮效应”和“蝴蝶效应”的基本内容,并针对图书馆存在的具体问题提出了相应的对策。
气相条件是影响高效产氢细菌产氢能力的重要生态因子之一.间歇实验结果表明,空气中的氧分子是抑制高效产氢细菌-B49生长发酵的直接原因,二氧化碳也对B49的发酵产氢产生很大的
通过对图书馆制度执行力的概述,分析了图书馆制度执行不力的主要原因,提出了提高图书馆制度执行力的措施。
在当前高校毕业生就业严峻的形势下,就业竞争力成了学生走向职场的决定性因素,也体现了高校人才培养的质量。本文以广西工商职业技术学院市场营销专业毕业生就业现状为例,针对高
期刊
对于纳税人来说,应该消除研发费用加计扣除的一些认识误区,才能用足用活研发费用加计扣除.笔者将这些误区整理如下.误区一:所有企业都能享受研发费用加计扣除《国家税务总局关
目的:探讨一站式护理模式对农村HIV/AIDS患者抗病毒治疗依从性的影响.方法:选择农村HIV/AIDS患者100例作为对象,将患者随机分为干预组50例和对照组50例,干预组实施一站式护理服