问答网站中基于混合模型的实时标签推荐

来源 :浙江大学 | 被引量 : 0次 | 上传用户:x111678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0的兴起吸引了越来越多的用户为网站上传内容,在线问答网站是具有代表性的Web2.0网站之一,用户发布自己的问题,网站把这些问题分配给领域内的专家来解答。由于问题来自于用户,且多为非结构化的文本,因此问答网站要求用户为问题提供标签。然而用户在标注标签时有自己的理解和需求,导致即使对同一个问题,被标注的标签也会各式各样。  因此研究者提出通过标签推荐来引导用户标注高质量的标签,这对于问答网站尤其重要,因为该类网站需要通过精准的标签描述问题,从而迅速找到能够解答问题的专家。本文从问题内容出发,提出一个实时的标签推荐框架,解决现有方法效率不高的问题,同时也能准确的推荐标签。  该框架分为三大模块,标签抽取,标签扩展和标签排序。标签抽取是指从文本中抽取标签,本文提出了四个分类器,分别负责从标题内容中抽取标签,正文内容中抽取标签,代码块中抽取标签,单词重组作为标签,利用这些分类器,评估文本中的单词和词组为标签的概率;标签扩展是指找出没有在文本中出现的相关标签,本文使用单词到标签的图模型来扩展标签,由于单词到标签矩阵的稀疏性以及标签热度的不均匀,所以利用随机森林框架对文本进行聚类,在聚类之后的子空间内建立相应的图模型,从而能有效地推荐长尾标签。标签排序模块对标签抽取和标签扩展模块中得到的候选标签排序,本文提出了多个排序函数,从标签的相关度,质量,层次性三个角度评估候选标签,生成最终的标签推荐列表。  从实验结果可知,本文提出的标签推荐框架充分利用了问题文本数据,可以进行实时标签推荐,不仅具有较高的召回率,而且给予高质量的标签更高的权重。
其他文献
工资管理体系是衡量一个公司企业管理的重要标准之一,与其对应的工资管理系统则是公司管理的一个重要信息化工具。繁杂的Excel编辑或者其它手动管理,不但耗费了大量的人力资
云计算因其良好的发展前景受到了人们的广泛关注,越来越多的机构开始采用云计算模式。然而,云计算中也存在着包括身份认证及访问控制在内的众多安全问题,这些问题阻碍了云计算的
闪存作为一种新的存储介质,凭借其性能上的优势,真正逐步代替磁盘。传统的数据库存储引擎是基于磁盘的特性设计的,而闪存与磁盘在特性上的差异决定了现有的存储引擎不能充分发挥
随着现代存储和通信技术的发展,存储不断增长的大规模数据已经不再是难事,人们迫切地想从这些数据中获得有用的信息,因而如何有效地处理复杂数据并做有效的建模分析己成为计算机
随着互联网的飞速发展以及数字图像设备的广泛普及,数字图像已经变成了主要的信息源。与此同时,大量的低成本,易于操作的图像编辑软件的出现,使得图像作为事件的事实记录的真实性
本文对蛋白质-肽段全柔性对接的并行计算进行了研究。蛋白质-肽段复合物相关的结构信息对于新药的研制和设计有非常重要的作用。蛋白质和肽段的计算对接方法可以为用实验方法
随着穿戴式设备的普及与发展,人机交互方式不断推陈出新,打破以往的交互界限,因而如何寻求更为高效自然的信息沟通方式成为行业的热点。肢体语言,尤其是骨骼肌运动所表征的含义成
随着web2.0的到来,数据正在以不可想象的速度快速增长,大数据时代已经来临。海量数据中蕴含着巨大的价值,高效的海量数据管理,强大的海量数据检索分析处理能力,是大数据时代有力的
随着大规模集成电路以及计算机技术的飞速发展,数字信号处理器(DSP)被广泛应用于航空航天、移动通信、工业控制等领域。然而,在大规模多DSP系统中,随着处理节点增加、通信复杂度
根据第二次全国残疾人抽样调查数据显示,当前我国视力残疾人数高达1263万。视力残疾使得视障人群无法像正常人一样便捷地获取知识和信息,而DAISY数字有声书的出现则为视障人群