【摘 要】
:
为科技论文生成自动摘要,这能够帮助作者更快撰写摘要,是自动文摘的研究内容之一。相比于常见的新闻文档,科技论文具有文档结构性强、逻辑关系明确等特点。目前,主流的编码-解码的生成式文摘模型主要考虑文档的序列化信息,很少深入探究文档的篇章结构信息。为此,文中针对科技论文的特点,提出了一种基于“单词-章节-文档”层次结构的自动摘要模型,利用单词与章节的关联作用增强文本结构的层次性和层级之间的交互性,从而筛选出科技论文的关键信息。除此之外,该模型还扩充了一个上下文门控单元,旨在更新优化上下文向量,从而能更全面地捕获
【基金项目】
:
国家自然科学基金(61976146)。
论文部分内容阅读
为科技论文生成自动摘要,这能够帮助作者更快撰写摘要,是自动文摘的研究内容之一。相比于常见的新闻文档,科技论文具有文档结构性强、逻辑关系明确等特点。目前,主流的编码-解码的生成式文摘模型主要考虑文档的序列化信息,很少深入探究文档的篇章结构信息。为此,文中针对科技论文的特点,提出了一种基于“单词-章节-文档”层次结构的自动摘要模型,利用单词与章节的关联作用增强文本结构的层次性和层级之间的交互性,从而筛选出科技论文的关键信息。除此之外,该模型还扩充了一个上下文门控单元,旨在更新优化上下文向量,从而能更全面地捕获
其他文献
阿尔茨海默症是一种典型的涉及多种致病因素的神经系统退行性疾病。然而,阿尔茨海默症的病因尚不明确,病程不可逆转,且无治愈方法,因此其早期诊断和治疗一直是人们关注的重点。受试者的神经影像数据对于该疾病的诊断具有重要的辅助作用,而结合多个模态的数据可进一步提高诊断效果。目前,联合该疾病的多模态数据进行辅助诊断逐渐成为一个新兴的研究领域。在此提出了一种基于自编码器的多模态表示学习方法,用于阿尔茨海默症的诊断。首先将多个模态的数据进行初步融合,得到初级的共同表示;然后将其送入自编码器网络,学习隐空间中的共同表示;最
交通流量信息是智能交通系统和城市计算的重要基础。交通流量数据作为新型时序数据,由于数据的采集方式和外部复杂因素的影响,使得数据缺失现象是常见且无法避免的。如何有效地挖掘交通流量数据的时空特性和数据间的关联成为了提高缺失数据补全精度的关键。传统的统计学方法不能满足日益增长的数据需求,深度学习的应用推动了缺失数据的补全方法向更高的精确度发展。文中深入分析了交通流量的时间特性和空间分布,对交通流量的缺失情况进行了假设,提出了一种UMAtNet(U-net with Multi-View Attention Me
将全局特征与局部特征相结合是提高行人再识别(re-identification)任务识别能力的重要解决方案。以往主要借助姿态估计等外部信息来定位有相应语义的区域,从而挖掘局部信息,这种方法大多是非端到端的,训练过程复杂且缺乏鲁棒性。针对该问题,文中提出了一种能有效挖掘局部信息并且能结合全局信息与局部信息进行端到端特征学习的方法,即多方向分区网络(Multi-orientation Partitio
在许多实际应用中出现了大量的冗余数据,这些数据可能是高维的,这时进行回归预测将会出现过拟合的现象,并且还会出现预测精度偏低等问题。另外,大多数回归方法都是基于向量的,忽略了矩阵数据原始位置之间的关系。为此,文中提出了一种基于样本特征核矩阵的稀疏双线性回归(Kernel Matrix-based Sparse Bilinear Regression,KMSBR)方法。该方法直接将数据矩阵作为输入,其是通过左右回归系数矩阵而建立的,利用样本的特征核矩阵和L 2,1范数,能够同时实现对样本及样本特征的选择,且考
药物-靶标作用关系预测在药物研发以及药物重定位中扮演着重要角色,但现有的机器学习方法在正负样本高度不平衡的数据上仍存在预测能力不足的问题。为此,提出一种基于图卷积神经网络的药物靶标作用关系预测方法。该方法首先构造一个结合多种药物(靶标)相关信息的异质信息网络,然后采用图卷积神经网络在此异质信息网络上学习得到能精确表达每个节点拓扑特征及邻居特征信息的低维向量表征,最后利用这些向量信息通过向量空间投影预测节点间概率的评分。在DrugBank_FDA和Yammanishi_08数据集上进行的药物-靶标作用关系预
基于深度学习的目标检测算法广泛应用于工业检测,RetinaNet算法因兼具速度与精度两方面的优势而备受关注,但对于小于32×32像素的小目标,该算法的检测精度不能满足工业检测的要求。为此,文中以增强小目标的训练为基本思路,针对RetinaNet算法进行了如下改进:在采样阶段,将低层特征图P2添加到FPN中,以确保小目标能被充分采样,同时引入自适应训练样本选择策略,以保证增加特征层之后仍能保持足够快
为了对含有多属性的直觉犹豫模糊决策信息系统进行约简,获取最优粒度,运用多粒度粗糙集处理直觉犹豫模糊决策信息系统中的不确定信息,并对多粒度粗糙直觉犹豫模糊集的最优粒度选择方法进行了研究。首先,在直觉犹豫模糊集的基础上引入属性信息,给出粗糙直觉犹豫模糊集的概念,提出乐观、悲观多粒度粗糙直觉犹豫模糊集的下、上近似这4种模型,且研讨了它们的性质。其次,主要定义了基于悲观多粒度粗糙直觉犹豫模糊集下近似的粒度质量相似度和内、外粒度重要度的计算公式,设计了其最优粒度选择算法。最后,通过葡萄酒测评的案例,分别基于乐观、悲
资源描述框架(Resource Description Framework,RDF)是W3C推荐的一种元数据模型和信息描述规范,已被广泛地应用于各个领域。为了跟踪RDF数据随时间的变化,将时态信息引入RDF的框架中,随着时态RDF数据的快速增长,对时态RDF数据的有效管理变得十分必要,构建合理的索引机制能够实现对数据的高效存储和查询。文中提出了一种时态RDF数据模型,给出了具体的一维编码方案,实现了简单地表示时态信息,并以较低的开销扩展现有的RDF数据模型。在此基础上,提出了基于邻域的二级索引结构。首先利
蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)在低维离散控制任务中取得了巨大的成功。然而,在现实生活中许多任务需要在连续动作空间进行行动规划。由于连续行动空间涉及的行动集过大,蒙特卡罗树搜索很难在有限的时间内从中筛选出最佳的行动。作为蒙特卡罗树搜索的一个变种,KR-UCT(Kernel Regression UCT)算法通过核函数泛化局部信息的方式提高了蒙特卡罗树搜索在低维连续动作空间的模拟效率。但是在与环境交互的过程中,为了找出最佳的行动,KR-UCT在每一步都需要从头进行大
针对粒子群算法在求解复杂多峰函数时存在早熟、易陷入局部最优、全局收敛性能差等缺陷,考虑种群结构、多模式学习和个体间博弈等因素,提出了具有博弈概率选择的多子群粒子群算法。该算法从改善群体多样性、提升个体搜索能力的角度出发,构建了动态多种群结构,并针对每个子群构建不同的学习策略(极端学习、复合学习、邻域学习和随机学习),子群间进行最优信息共享,形成异构多子群的多源学习方式;将进化博弈思想引入群体搜索过程中,个体通过收益矩阵和扎根概率进行策略概率选择,进入适合个体能力提升的子群进行学习。基于12个标准测试函数,