基于机器学习的问答推荐系统问题推荐模型研究

来源 :中山大学 | 被引量 : 4次 | 上传用户:huoyinghaiyangzhixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文所描述的问题推荐模型是基于某互动中文问答平台所开发个性化推荐系统。该中文问答平台上存在着大量未被回答的问题,个性化推荐系统能够根据用户的注册信息以及其在该互动问答平台上的登录、浏览和回答等行为,为用户推荐相关问题,以降低用户找到能够回答的待解决问题的成本,提高问题的回答量,更好地进行知识分享。该问题推荐系统的推荐模型采用的是基于机器学习技术构建的基于内容的推荐算法,借鉴了精准定向广告系统的思路,以推荐问题的点击率作为系统的优化目标,结合中文分词[76,77,78,79]、关键词提取、命名实体识别(Named Entity Recognition,NER)[81,82,83,84]等技术,建立点击率(CTR)预估模型来匹配用户与问题。点击率预估模型计算条件概率P(click=true|user=uid, question=qid),即以新问题被用户点击的概率作为用户与新问题匹配程序的度量,并使用最大熵(Max Entropy)模型来拟合上述条件概率。原始版本的问题推荐模型存在以下两点不足:首先是推荐模型仅使用了非常少量的特征。特征的维度少导致模型容易出现欠拟合的现象。其次,静态的推荐模型无法适应数据分布的变化所造成的影响。本文的工作在于改进了原始版本的问题推荐模型,具体而言包括以下两个方面的工作:1.通过在问题推荐模型中引入语义特征、组合特征以及偏置项等,结合模型选择与正则化技术,提高了推荐模型的准确率。改进后的模型使用了概率潜在语义分析(probability Latent Semantic Analysis,pLSA)技术提取问题文本的语义特征。在语义层面对文本进行处理能够获得比在词汇层面更好的效果。原有推荐模型在基准数据集上的准确率为88%,改进后的模型在基准数据集上的准确率为95%。2.设计并实现了问题推荐模型的离线训练系统。该系统能够完成基础数据自动下载、特征提取、模型训练与模型选择等功能,能够实现问题推荐模型的离线训练与定期更新。设计离线训练系统的目的在于定期产出新的推荐模型。实验结果证明问题推荐模型的数据分布具有时序性,使用静态模型无法适应数据分布变化的影响。改进后的问题推荐模型以及离线训练系统已经上线,为该互动中文问答系统的用户提供更加准确的个性化问题推荐服务。
其他文献
在研究性学习课程的建设和发展过程中,对研究性学习的评价既是难点问题,同时又是关键问题。为此,本刊特地刊发一组评价方面的文章,希望有更多的学者,有识之士参与讨论。
本文运用新历史主义、后殖民理论和文化符号学方法解读华兹华斯的《孤独的割麦女》,挖掘隐没于浪漫主义诗篇闲情逸趣下的历史真相、话语暴力、种族危机与文化矛盾,揭示帝国内
旅游客流的时空演变规律一直都是旅游地理学的研究重点,一个区域的旅游客流时空演变规律对于制定地区旅游发展战略、开发旅游产品、确定旅游营销策略、拓展国际旅游客源市场均
对上海市巡警进行抽样调查的结果显示:目前,巡警队伍的整体工作氛围不佳、民警士气不高;勤务管理重心偏离和部分巡警存在侥幸心理,影响了履职能力的提高;勤务运作呆板、缺乏
对济慈《秋颂》的理解长期存在相互矛盾的两种观点:一种认为《秋颂》表达了丰收的喜悦,是人与自然和谐相处的赞歌;另一种则认为《秋颂》是一年将逝的挽歌,描绘的是人与自然关
肖洛霍夫的《静静的顿河》以其内蕴的复杂性和表达的客观性引发无数争议,而它对自十月革命以来所营造的"大历史"观的解构以及通过抗拒历史而追求人的精神完整性的内容,却始终
在济慈《秋颂》研究中,以麦克干为代表的新历史主义批评和以贝特为代表的生态批评都以其敏锐的政治-历史意识揭示了《秋颂》所隐藏的复杂的社会政治问题和生态政治问题,从而
随着社会经济的不断发展,社会中的各界组织对人才的培养和留用越来越重视,高校作为优秀人才的培养基地,对高水平、高素质人才更是有着巨大的渴求。然而,制定科学的、完善的激励制
生物传感技术在世界范围内飞速发展,光子晶体生物传感器作为生物传感系统的核心,不仅具有很小的尺寸,而且可与各种光学器件制作在同一块衬底上,能够减少传感检测系统的成本。光子