面向语义的数学公式N-grams索引结构研究

来源 :兰州大学 | 被引量 : 13次 | 上传用户:lcg512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,数学公式搜索已经成为信息学科领域的热点问题。数学公式结构复杂且语义丰富,会出现一种表示形式多种含义以及一种含义多种表示形式等问题,而且子公式的检索、公式类型划分与常见计算也成为数学公式搜索的一个研究点。国内外一些知名的数学搜索研究机构在检索数学公式时,没有考虑数学公式的结构特点和语义信息,对等价公式、相关公式的检索也没有展开相关研究。本论文首先对现有的几种数学搜索系统的索引结构进行了仔细研究,并借鉴文本搜索引擎的N-gram方法,提出了数学公式N-grams划分的方法,通过实验确定了划分的粒度,即N∈[2,15],并提出了一种基于公式复杂度、N-grams长度和深度的计算子公式权重的方法。其次,本论文给出了等价公式、相关公式的定义,它们应该和查询公式是高度相关的,应该作为数学搜索排序过程中重点考虑的因素,实现等价公式和相关公式的有效存储与管理。本论文通过Wolfram Alpha对数学公式常见类型进行了研究,结合数学公式的特点和用户搜索意图,对公式类型做了三级分类,其中,一级分类有27种,二级分类有50种,三级分类有77种,制定了数学公式类型标准,并通过实验对250个公式进行了统计,确定了不同类型公式的相关计算,找出了每一种常见计算的影响因素,通过这些因素来判定常见计算的类型。同时,本论文对数学公式的存储结构及流程进行了详细设计和分析,能够实现等价公式、相关公式和子公式搜索,实现了存储数据和查询数据的有机统一。综上,本论文借鉴现有系统的长处,弥补其不足,构建了适合数学搜索的面向语义的数学公式N-grams索引机制。本文提出的方法是一种基于语义的快速方便的存储和查询数学表达式和符号的方法,该方法可以实现子公式、等价公式、相关公式的有效搜索,满足不同用户对数学公式搜索的需求,提高数学公式的查全率和查准率,能够在很大程度上提升数学搜索的语义检索效率,促进数学知识的交流与共享。
其他文献
利用压电振子采集环境振动能量为低功耗电子产品供能是近年研究的热点,而叠层压电振子中,粘结层厚度对压电振子的发电能力以及压电振子的抗剪性能均有较大影响。文中针对悬臂梁
网络安全威胁和风险日益突出,并逐渐向政治、经济、文化、社会、生态、国防等领域传导渗透,这是当前让世界各国都头疼的有一大难题。网络安全教育在大学生日常教育中的重要性
选取上海市2006—2015年的时间序列数据,构建"互联网+"与产业结构升级评价指标体系,运用向量自回归模型对上海市"互联网+"信息化指数与工业产业结构升级综合得分进行实证研究,分析
译场教学是汉传佛教早期采用的教育模式之一,非一般寺院所能具备。庐山慧远僧团在译场教学之外,自觉地探索多种教育方式,在教育内容上以佛典教育为主,辅以儒道世典,具有一定
简要介绍了杯芳烃的结构、性能及应用,重点综述了:(1)新型杂原子杯芳烃的合成及超分子自组装;(2)杯芳烃衍生物的合成及对金属离子的识别;(3)杯[4]吡咯席夫碱衍生物的合成。
针对片上网络典型路由器的缓冲资源利用率不高、大容量缓存设计受限等问题,在不增加缓存和虚通道的情况下,提出一种新的面向片上网络缓冲资源争用的路由器设计方案。在该路由
现代远程教育高质量发展对校外学习中心支持服务提出更高要求。基于台州科技职业学院学习中心现状,从学习中心学习者和支持服务人员角度分析当前支持服务的现实困境及其成因,
培养教育好学生是学校的责任,更是家长的责任,随着经济社会的快速发展,社会竞争越来越激烈,对学校和家长提出了新的挑战,现就如何实现家校共育的最优化,凝聚教育合力加以阐述
目的:对柴胡舒肝散联合黄连温胆汤治疗肝郁湿热型胃脘痛的临床疗效情况进行研究。方法:选取2015年1月-2015年12月期间,医院收治的肝郁湿热型胃脘痛患者共计104例,采取就诊序
在我国,医院大多作为一个独立于市场的存在,有自己成体系的财务系统以及经营管理模式。并且,由于目前我国的公立医院具有公益性的特点,所以如何严格控制医院财务风险的生成及