论文部分内容阅读
近几年来,数学公式搜索已经成为信息学科领域的热点问题。数学公式结构复杂且语义丰富,会出现一种表示形式多种含义以及一种含义多种表示形式等问题,而且子公式的检索、公式类型划分与常见计算也成为数学公式搜索的一个研究点。国内外一些知名的数学搜索研究机构在检索数学公式时,没有考虑数学公式的结构特点和语义信息,对等价公式、相关公式的检索也没有展开相关研究。本论文首先对现有的几种数学搜索系统的索引结构进行了仔细研究,并借鉴文本搜索引擎的N-gram方法,提出了数学公式N-grams划分的方法,通过实验确定了划分的粒度,即N∈[2,15],并提出了一种基于公式复杂度、N-grams长度和深度的计算子公式权重的方法。其次,本论文给出了等价公式、相关公式的定义,它们应该和查询公式是高度相关的,应该作为数学搜索排序过程中重点考虑的因素,实现等价公式和相关公式的有效存储与管理。本论文通过Wolfram Alpha对数学公式常见类型进行了研究,结合数学公式的特点和用户搜索意图,对公式类型做了三级分类,其中,一级分类有27种,二级分类有50种,三级分类有77种,制定了数学公式类型标准,并通过实验对250个公式进行了统计,确定了不同类型公式的相关计算,找出了每一种常见计算的影响因素,通过这些因素来判定常见计算的类型。同时,本论文对数学公式的存储结构及流程进行了详细设计和分析,能够实现等价公式、相关公式和子公式搜索,实现了存储数据和查询数据的有机统一。综上,本论文借鉴现有系统的长处,弥补其不足,构建了适合数学搜索的面向语义的数学公式N-grams索引机制。本文提出的方法是一种基于语义的快速方便的存储和查询数学表达式和符号的方法,该方法可以实现子公式、等价公式、相关公式的有效搜索,满足不同用户对数学公式搜索的需求,提高数学公式的查全率和查准率,能够在很大程度上提升数学搜索的语义检索效率,促进数学知识的交流与共享。