【摘 要】
:
数学公式检索是信息检索领域一个重要的研究方向。它的检索对象包含数学公式这种具有复杂的二维结构特征的数据。传统的文本检索方法难以捕捉公式的结构信息,导致检索准确率低,检索效率不高,不能满足各个专业领域对于公式检索的需求。因此,如何实现对数学公式这种特殊的结构化数据进行特征捕捉,并应用到内容检索系统中是一个亟待解决的难题。本文通过结合自然语言处理中的词嵌入技术,设计了针对数学公式的嵌入学习方法,并构建
论文部分内容阅读
数学公式检索是信息检索领域一个重要的研究方向。它的检索对象包含数学公式这种具有复杂的二维结构特征的数据。传统的文本检索方法难以捕捉公式的结构信息,导致检索准确率低,检索效率不高,不能满足各个专业领域对于公式检索的需求。因此,如何实现对数学公式这种特殊的结构化数据进行特征捕捉,并应用到内容检索系统中是一个亟待解决的难题。本文通过结合自然语言处理中的词嵌入技术,设计了针对数学公式的嵌入学习方法,并构建了纯公式检索模型和公式结合文本的混合检索模型。本文的主要工作如下:(1)针对数学公式的结构特性,本文提出了一种基于树结构的公式嵌入模型NTFEM。首先,提取文档中Math ML格式的公式并转换为N-ary公式树结构,捕获公式的二维结构信息;然后,定义了公式序列的分词方式,将公式从二维结构延展成新的一维线性序列,并结合深度学习中的词嵌入模型来学习公式的子结构向量;最后,通过对公式树各个节点的重要性分析,设计了针对数学公式子结构的加权算法,并定义了公式的相似度匹配机制。通过在NTCIR-12 Wikipedia公式检索任务的基准测试,纯公式检索模型NTFEM在Bpref等预测指标上胜过此任务下的传统公式搜索引擎。该模型不仅提升了公式检索的准确率,在训练时间和存储效率上也超过了应用传统公式树结构的检索模型。(2)在NTFEM的基础上,本文通过引入公式周围的文本信息,提出了NTFEMT和NTFEM-K两种混合检索模型,前者是长文本结合公式的检索场景,后者是关键词结合公式的检索场景。NTFEM-T对长文本格式进行预处理,分别提取公式和文本信息,通过文本向量模型学习公式周围文本的特征;NTFEM-K通过关键词抽取和学习技术获取周围文本的关键词特征。同时,两种模型都通过NTFEM对提取得到的公式进行嵌入学习,最后结合文本特征和公式特征完成对混合检索模型的搭建。NTFEM-T和NTFEM-K在Ar Xiv Topic-eq数据集上取得了相比纯公式检索场景下更好的效果,证明了融合公式周围文本信息的方法能够有效地补充公式结构所缺少的语义特征,进一步提升了检索模型的性能,满足更多样的检索需求。本文提出的数学公式检索模型,有效地将自然语言处理中的词嵌入技术应用到数学公式这种特殊的二维结构信息上。实验结果表明该模型在公式检索任务上取得了相比传统公式检索系统更好的检索效果,并通过结合公式周围的文本信息补充了纯公式缺少的语义特征,进一步提升了公式检索的准确性和效率。
其他文献
刀具状态监测是数控机床智能化发展亟待攻克的核心技术之一。滚齿加工作为目前应用最广泛的齿轮成形技术,其核心部件滚刀价格昂贵,且制造工艺复杂,过度使用会加剧滚刀磨损进而导致齿轮精度降低,滚刀报废无法刃磨,极大地影响了企业的生产效益。因此,滚刀磨损状态监测对于节省加工成本,保证加工质量,提升齿轮生产效率具有重要意义。针对此问题,本文采集滚刀主轴z向振动信号并进行去噪;基于希尔伯特黄变换(HHT)提取振动
电弧堆焊成型工艺是金属增材制造技术的重要分支之一,其高效率、低成本的特点使其在建筑设计、产品原型设计、汽车制造业、航空航天等领域得到了广泛的应用。经堆焊成型或修复的零部件具有寿命长、工艺性能好等特点。合理的堆焊填充路径不仅可以提高成形精度以及制件的工艺性能,还能提高成形效率。本文对电弧堆焊成型路径规划做了较为深入的研究,并对相关算法进行了优化与实现,设计了一种电弧堆焊成型设备,并开发了配套切片软件
热电转换技术能够实现电能和热能的直接相互转换,是一种安全可靠、绿色环保的新能源技术。它提供了一种全固态的热电发电和制冷的方式,在当前世界能源紧缺的局面下具有十分广阔的应用前景。近年来,硒化锡(SnSe)单晶热电材料由于其强晶格非谐性导致的超低晶格热导率和本征高迁移率引起的大功率因数,在923 K时沿b轴的ZT值达到了2.6,从此SnSe热电材料引起了人们的广泛关注。然而,单晶SnSe存在生长工艺复
复合材料由于本身结构的复杂性,造成了复合材料板损伤类型的多样性,复合材料板容易在低速冲击和循环加载下形成微小损伤包含基体裂纹和脱层,这种损伤几乎不可见也不容易被察觉,但是这样损伤材料在退化的过程将会使得复合材料板的增强纤维断裂和位错,进而使得复合材料板的强度和刚度不断下降,最终导致复合板的失效,因而针对复合材料板在循环疲劳加载条件下的损伤检测有非常重要的研究价值和应用价值。本论文以复合材料板在循环
随着科技的发展,对微电子器件性能要求越来越高。电子的自旋和谷信息都可以像电荷一样作为信息载体,从而产生自旋电子学和谷电子学。与自旋电子学和谷电子学相关的微电子器件具有速度快、耗能少、体积小、记忆长等优点。因此如何控制材料中电子的自旋自由度和谷自由度的研究越来越多。Novoselov等人在2004年发现的石墨烯,首次证明了稳定的单原子厚度的二维(2D)材料可以从范德瓦尔斯固体中剥离出来,由于其奇异的
在各国纷纷开展大型学业质量测评的时代,我国基础教育质量监测(National Assessment of Education Quality,NAEQ)处于初创期,同时,我国高中科学教育质量监测体系尚未建立,而美国国家教育进展评估(The National Assessment of Educational Progress,NAEP)作为开展了 50年的大型学业测评项目可作为我们成熟的借鉴对象,
Gabor分析作为一种时频分析方法,已广泛应用在信号分析、图像处理及其它信息科学领域.最近,为便于分析周期间歇信号,Gabardo和Li研究了连续周期子集上的单窗口Gabor系的完备性等问题.在此基础上,本文用多个窗口函数代替单个窗口函数,讨论了连续周期子集上的多窗口Gabor系,此系统通过选择具有不同形状和不同支撑的窗口函数,可更有效地处理信号.全文的主要工作如下:1.刻画了连续周期集上多窗口G
使用计算机辅助诊断可以帮助医生减少阅片时间、提高诊断效率。影像组学作为计算机辅助诊断的工具之一在临床和研究中应用十分广泛。本文将影像组学方法应用于多种不同的临床问题的研究中,并根据研究问题的特点,有针对性地提出了若干对影像组学建模过程的改进方法,在研究中取得了良好的效果。主要内容包括:在影像组学研究中,通常需要提取大量的组学特征来反映图像的信息,而医学影像的数量往往极其有限,选择有效的特征降维与选
煤与瓦斯突出是一种极其复杂的矿井瓦斯动力现象,主要表现为在极短的时间内,由煤体向采掘空间抛出大量的煤岩并伴随大量高压瓦斯气体喷出。煤与瓦斯突出过程中,瓦斯内能消耗由两部分构成,一部分用于破碎煤岩体的抛出,另一部分用于粉化破碎煤体。从能量的角度看,煤与瓦斯突出是一个能量积聚、转移和耗散的过程。为研究煤与瓦斯突出过程中能量耗散规律,设计并开展了一系列试验,主要包括不同硬度块煤的冲击破碎试验,不同煤样粒
本文研究超临界椭圆问题(?)双气泡解的存在性,其中?是RN中边界光滑的有界区域,N≥3,K是?上正的有界光滑函数,ε是一个正参数.我们利用有限维约化和变分方法,证明了当参数足够小时上述问题存在双气泡解.在研究过程中,我们假设函数K在?的内部有两个不同的严格局部极大值点或严格局部极小值点,并且这两点需要满足一定的条件.我们选取合适的加权空间,构造出近似解,并得到了一个约化泛函的渐近展开式和相关的估计