基于深度学习的社区问答网站标签推荐技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:tony_m_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和广泛普及,以Quora、知乎等为代表的问答网站迅速兴起,极大提高了人们分享知识的便利性。与此同时,一些针对特定用户群体,如面向程序员社区的问答网站StackOverflow等也日益成为分享专门知识的主要途径。随着活跃用户数量的激剧增加,问答网站每天会产生海量的问题和回答,给用户带来了较为严重的信息过载困扰。标签机制有助于用户快速检索到其关心的问答信息,成为应对信息过载的有效手段。然而,由于问题的创建者往往缺乏必要的知识,社区问答网站中绝大多数的问题缺乏有效的标签。因此,如何为社区问答网站中的问题帖自动推荐合适的标签成为了一个迫切需要解决的问题。现有工作主要关注如何对问题贴所包含的文本信息进行理解,从而推荐符合文本内容的标签,但此类工作缺乏对文本与标签之间关联关系的综合考虑,导致问题文本理解过程中的信息缺失;另外,对于一些特定的社区问答网站,如程序员社区问答网站中出现的非文本信息(代码片段),现有工作要么将其直接作为文本进行处理,要么简单丢弃,导致问题内容理解过程中非文本信息的缺失。针对现有工作的上述不足,本文首先提出了一个综合文本词与标签关联关系的社区问答网站标签推荐模型i Tag,综合建模了文本词之间的顺序关系,文本词与标签之间的共现关系,以及标签之间的语义依赖关系,然后,提出了一个基于代码信息增强的面向程序员社区问答网站的标签推荐技术,给出了一个代码片段中重要词汇提取算法,并结合代码词汇与文本词汇输入i Tag模型进行训练与标签推荐。最后,基于上述技术设计并实现了一个面向StackOverflow问答网站的标签推荐原型系统。具体而言,本文的主要工作如下:1.提出了一种综合文本词与标签关联关系的社区问答网站标签推荐模型,利用编解码模型综合建模了文本标签推荐任务,其中编码端的RNN网络用于建模文本词之间的顺序关系,跨编解码两端的Copy网络和注意力机制用于建模文本词与标签的共现关系,解码端的RNN网络用于建模标签之间的语义依赖关系。在三个真实数据集上的实验结果显示,该模型能够显著提高问答网站中文本标签推荐的准确率;2.提出了一种基于代码信息增强的程序员社区问答网站标签推荐技术,针对程序员社区问答网站中普遍存在不完整、但包含重要信息的代码片段的特点,提出了一个编程语言关键词制导的重要词汇提取算法,并结合文本词汇,再输入前述模型进行训练和标签推荐。在StackOverflow数据集上的实验结果显示,该方法较仅利用文本信息的方法在标签推荐的准确率上有明显提升;3.设计并实现了一个面向StackOverflow问答网站的标签推荐原型系统,初步验证了上述模型与技术的可行性和有效性。
其他文献
在过去的几十年,均相催化剂因其具有优良的催化活性、反应选择性、较少副反应,在化学中应用十分广泛,但均相催化剂存在难以从反应体系中分离,不易回收且催化剂难以实现循环利用,对环境造成较大威胁。为了解决均相催化剂对环境所造成的污染问题,化学工作者提出了负载型催化体系,制备出多相催化剂以减少此类问题。因此多相催化剂慢慢地被科学家所发现。多相催化剂与反应底物易分离,且具有回收循环再使用等众多优点,所以,将均
偏滤器靶板热负荷是关系到未来聚变堆稳态运行的一个重要问题。偏滤器靶板的热负荷由边界等离子体的行为决定。边界等离子体的数值模拟可以更好地理解边界等离子体行为,从而可以更加深入地研究偏滤器靶板热负荷问题。等离子体/中性粒子流体输运程序SOLPS是一个被广泛用于托卡马克边界等离子体(包括最外层闭合磁面之内的部分区域,刮削层(SOL)以及偏滤器区域)模拟的程序包。由于SOLPS中的粒子输运系数Dr,电子热
实现氚自持是中国聚变工程试验堆(CFETR)的核心目标之一,为了实现氚自持,CFETR的设计要求氚燃烧率大于3%,同时要确保1GW的聚变输出功率。本文应用OMFIT框架下的集成模拟工作流STEP评估了为同时达到上述两个目标,所需的弹丸加料参数。为此,需要基于弹丸消融和沉积物理模型准确计算弹丸的消融率和沉积剖面。本文基于Parks发展的最新消融模型给出的消融率定标率计算弹丸消融率,并对其进行了改进,
随着建筑顺应时代的发展趋势,各种建筑的新思想在不断涌现,而建筑设计的关注对象或参与对象始终脱离不开人这一因素,即建筑的使用者。回顾上个世纪的建筑思潮,以阿尔多·凡·艾克为首的结构主义的理念发展与实践者在荷兰涌现,他们关注战后城市的大量人口的居住问题,提出了一系列以人和关系的概念为主的建筑观念,从事物的整体与局部、人的个体与集体的双重身份出发,对建筑进行空间的探讨和实践。许多建筑师和学者从对荷兰结构
托卡马克是实现可控热核聚变最有希望的一种磁约束聚变装置。托卡马克等离子体平衡问题是聚变等离子体科学中最基本也是最重要的问题之一。托卡马克等离子体平衡不仅直接影响等离子体中各种物理过程如磁流体不稳定性、加热加料和输运等,也为运行模式选择和等离子体控制提供了依据。因此,它是所有托卡马克实验数据分析和理论模拟研究必不可少的物理量。托卡马克等离子体平衡一般通过结合实验诊断数据,然后求解Grad-Shafr
JET和TFTR托卡马克装置上的氘氚聚变反应在实验上验证了聚变反应的可行性,为建立自持燃烧的聚变装置做出了重要的尝试。正在建设的国际热核聚变实验堆将要实现的重要目标是氘氚聚变反应释放的能量大于加热消耗能量的5倍以上,中国聚变工程实验堆也将进行氘氚聚变反应,并验证建设商业示范聚变堆需要的技术和部件。燃烧等离子体物理对聚变堆设计和实现聚变反应的高效稳态运行至关重要。聚变装置的长时间稳态运行需要高效的加
实现核聚变产能需要有效地约束高能量离子,特别是聚变α离子。聚变离子可用于维持反应堆自持燃烧,而高能量离子的大量损失也将造成装置第一壁严重损坏。因此,在现有托卡马克聚变装置上,开展高能量离子的分布、约束及其与等离子体相互作用的实验研究十分必要。研究高能量离子的最终目的是实现在未来聚变堆装置中对高能量离子的有效控制。本论文的工作包括:在EAST托卡马克装置上研发了用于探测离子回旋辐射的诊断系统,开展了
计算机图形学中的很多应用通常利用曲面网格对输入模型进行离散化处理,并且还会涉及到网格信息的迁移与传递,如纹理坐标、梯度场和几何特征等。这类应用往往需要计算一组具有相同连接关系,且与给定网格几何形状近似的网格,即相容性网格。然而现有的相容性网格化技术一般都依赖于曲面间映射,且很少有方法能够高效且高质量地生成最终结果。因此针对相容性网格化技术,本文基于高质量、低复杂度和误差有界等优化目标,对一类特殊形
发达城市的交通发展经验表明,大规模的交通设施建设完成后,城市的交通策略重心将逐渐转向交通需求管理,而传统四阶段模型对交通需求管理的响应能力较差,引入出行链或活动链等新型交通需求模型,以满足需求管理政策评估的需要在国外已有一些实践案例,这也为我国的交通模型升级提供了经验。本文首先介绍了当前国外交通需求模型的工程实践现状,梳理了交通模型的发展方向;然后引入了基于家庭的活动链需求模型建模方法,并结合成都
目前,在城市公交线网规划及优化时,常较多的关注出行时间而忽略了乘车的舒适性,导致高峰期公交车内异常拥挤的情况普遍发生。公交车内过度拥挤不仅影响居民出行方式选择,也会导致公交车吸引力下降。显然,车内拥挤是影响公交车舒适性最主要的因素,因此,需科学合理地对公交线网进行规划设计达到减小车内拥挤度,提升公交舒适性,提高公交车出行吸引力的目的。数据挖掘技术与公交大数据的发展,为城市公交问题的解决带来了新的挑