科技文献的多模态语义关联特征提取与表示体系研究——以数学公式为例

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:Baggio_Fu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技文献资源是一种多模态数据,除文本信息外,还包含丰富的图像、表格、公式、青频、视频等多种模态的信息,这些信息与占据主导地位的文本信息相互说明、互为补充,帮助用户充分理解科技文献资源中的知识。在科技文献中,分析单模态信息与综合多模态信息所产生的语义理解之间可能会存在偏差,我们可以利用不同模态的相容互补性,对多种模态的信息进行语义表示,澄清只考虑单模态信息难以明辨的语义。多模态的研究一般指使用两个或两个以上不同模态的信息来解决一个特定的问题,本文把多模态研究思想引入科技文献的语义表示方面,具有创新性,重点在于研究科技文献中图像、表格和公式等多模态数据的特征提取和语义表示方法,探索多模态特征融合等关键技术理论,构建科技文献中多模态特征提取和表示体系,并设计相应的测试实验来验证研究结果。   除文本信息外,本文涉及图像、表格和公式等三种模态的信息,视频和音频信息由于相关技术比较复杂,故本文暂不涉及。本文分析了国内外多模态研究的发展情况和图像、表格和公式的语义研究现状,并针对科技文献中图像、表格和公式的识别和语义表示技术进行了分析研究。由于时间和经验有限,本文在上述研究的基础上以科技文献中大量存在的数学公式为例进行初步探讨,创新性的提出了多模态信息融合的数学公式表示理论和方法,给出了该方法的研究方案及整体技术路线图,并通过对公式的分析和多模态特征的提取构建数学公式部件知识库,用来描述数学公式所表达的含义。本文通过对数学公式树状结构的比较进行实验,判断公式之间的相似性,并使用文本关键词来检索公式。多模态信息融合的数学公式表示方法是科技文献多模态特征提取和表示理论在数学公式上的应用,为科技文献中多模态语义特征表示的深入研究奠定了基础。
其他文献
[目的/意义]系统梳理国内外图书馆增强现实的研究和实践现状,为我国图书馆增强现实方面的研究和实践提供参考.[方法/过程]通过中外文献数据库、学术搜索引擎和引文追溯的途径
巨噬细胞主要参与肿瘤微环境中的炎症反应,将其表型作为依据,可以将其分为M1型与M2型,M2型巨噬细胞可以分泌免疫抑制因子,对免疫应答进行下调,在淋巴管与肿瘤血管的形成中能
全球开放存取运动的广泛开展促进了知识的传播与共享,在此基础上作为描述客观事物最为直观和原始的数据也逐渐得到重视。数据价值在一定程度上超越信息与知识,政府作为社会信
当前我国符号学研究仍处于探索阶段,认识汉字符号特征具有重要意义.这不仅关系我国本土符号学的建立和发展,还关系到对我国传统文化的理解.汉字不仅是文明的载体,也是我国文
随着课程改革进程的不断深入,我国逐渐开始重视学生的全面发展,而语文学科是所有学科中最为基础的,并且阅读又是语文学科中尤为重要的组成部分,并且学生阅读能力创造力的高低
语文学科的核心素养主要包括语言感知能力、语言分析能力与语言应用能力.在小学语文识字教学中,要把培养小学生的语文核心素养作为一项重要的教学目标进行落实,这样,才能让识
摘 要:随着经济的发展和科学技术的飞速发展,我国的国际地位也在不断提高。在民间有一句流行的话:要想富,先修路。這句话不是没有理由。城市化进程的不断推进证实了这一事实。城市越来越拥挤,所以越来越多的道路依赖于技术,但目前存在一个问题。经济发展虽然重要,但生态环境也很重要。由于整个城市发展较早,道路周边生态环境恶化,部分城市受到严重破坏。本文分析了基于环境保护理念的生态公路相关内容进行研究。  关键词
临床实习是医学教育中的一个极其重要的阶段,是医学生把在校学习的专业理论知识与实践相结合,转变为合格临床医生的关键过程。临床实习阶段医学生的阅读特点,兼有在校学生和临床