基于公式描述结构和词嵌入的科技文档检索方法

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:vingf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]提出一种公式匹配与文本排序相融合的科技文档检索方法.[方法]利用公式描述结构对数学表达式进行解析得到公式的结构信息,实现基于数学表达式的科技文档检索;同时,通过词嵌入模型投影得到查询关键字的词向量和文档词向量,根据两种词向量之间的相似度对文档集合进行排序.[结果]实验结果表明,方法的查全率和查准率分别为0.77和0.63,相较于传统科技文档检索方法分别提高24.2%和23.5%.[局限]只针对LaTeX格式的查询表达式,在数学表达式描述格式方面有局限性.[结论]数学表达式与文档关键字相结合的科技文档检索模型提高了科技文档检索的性能.
其他文献
随着中国经济的迅速发展和人民生活水平的不断提高,高铁市场也迎来了新的机会与挑战,人们不仅仅重视高铁的速度与快捷,同时更加关注乘坐的舒适性。高速列车座椅作为与乘客接触最
机械加工中产生的振动是一种十分有害的现象,它不仅会破坏被 加工零件的表面、加速刀具磨损;而且还会产生切削噪声,污染环境;严重时使刀具产生崩刃,以至使切削加工无法继续
负重轮实心橡胶轮胎具有材料、几何、边界(接触)三重非线性,负重轮的研究是一个集静力、动力、热状态于一身的复杂课题.论文以"九五"负重轮科研课题为工程背景,进行了滚动负
学位
该文主要研究一类自然增长条件下的非齐次A-调和方程弱解的梯度估计,首先获得自然增长条件下的非齐次A-调和方程弱解的Lp估计,然后使用迭代覆盖逼近方法等,将其推广到Orlicz
疲劳失败是机械工种的一种主要破坏形式,约占机械破坏事故的50﹪~90﹪,为了为设计人员提供一种简便的、实用的解决处理疲劳问题的新手段,该论文根据专家系统的推理技术和疲劳强度
电动机是现在各个行业应用非常广泛的发电设备及动力驱动装置。根据电能的生产情况来看,目前使用的电能大部分是由异步电机发出来的;根据电能的消耗情况来看,2/3以上的电能是由
本文通过对荣华二采区10
计算机模拟是研究汽车碰撞安全性的主要手段之一,该文在比较系统地研究了目前国际流行的碰撞模拟软件-LS-DYNA基本算法的基础上,对汽车碰撞模拟技术进行了深入研究.研究并掌
《姚大梅诗意图》是早期海派绘画的代表人物任熊的杰出作品。任熊(1832-1857)字渭长,又字不舍,浙江萧山人。由于罹病早逝,所以流传至今的作品并不多,但正是在这些不到百件的