论文部分内容阅读
科技文献资源是一种多模态数据,除文本信息外,还包含丰富的图像、表格、公式、青频、视频等多种模态的信息,这些信息与占据主导地位的文本信息相互说明、互为补充,帮助用户充分理解科技文献资源中的知识。在科技文献中,分析单模态信息与综合多模态信息所产生的语义理解之间可能会存在偏差,我们可以利用不同模态的相容互补性,对多种模态的信息进行语义表示,澄清只考虑单模态信息难以明辨的语义。多模态的研究一般指使用两个或两个以上不同模态的信息来解决一个特定的问题,本文把多模态研究思想引入科技文献的语义表示方面,具有创新性,重点在于研究科技文献中图像、表格和公式等多模态数据的特征提取和语义表示方法,探索多模态特征融合等关键技术理论,构建科技文献中多模态特征提取和表示体系,并设计相应的测试实验来验证研究结果。
除文本信息外,本文涉及图像、表格和公式等三种模态的信息,视频和音频信息由于相关技术比较复杂,故本文暂不涉及。本文分析了国内外多模态研究的发展情况和图像、表格和公式的语义研究现状,并针对科技文献中图像、表格和公式的识别和语义表示技术进行了分析研究。由于时间和经验有限,本文在上述研究的基础上以科技文献中大量存在的数学公式为例进行初步探讨,创新性的提出了多模态信息融合的数学公式表示理论和方法,给出了该方法的研究方案及整体技术路线图,并通过对公式的分析和多模态特征的提取构建数学公式部件知识库,用来描述数学公式所表达的含义。本文通过对数学公式树状结构的比较进行实验,判断公式之间的相似性,并使用文本关键词来检索公式。多模态信息融合的数学公式表示方法是科技文献多模态特征提取和表示理论在数学公式上的应用,为科技文献中多模态语义特征表示的深入研究奠定了基础。