面向化学化工领域的中英文隐含语义检索

来源 :中国科学院过程工程研究所 | 被引量 : 0次 | 上传用户:wnn379
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,因特网上的信息呈爆炸式增长。如何快速、准确地查找有用的信息,成为近年来信息技术的研究热点。目前基于“概念”的信息检索技术被人们关注,该方法以查询条件和文档之间的“概念”匹配作为检索命中的依据,克服了传统字符串匹配检索技术的不足,可以获得较好的检索效果。 本论文采用的隐含语义检索(LSI,LatentSemanticIndexing)是一种基于“概念”的智能化检索方法,该方法采用向量空间模型表示文档,通过对文档——词条矩阵截断奇异值分解(SVD)获得文档语义的“概念”空间。本论文详细讨论了隐含语义检索的原理和建立隐含语义检索系统的过程,为国家科学数字图书馆化学学科信息门户提供了专业化、实用化、可检索中英文双语的隐含语义检索系统。 为了实现隐含语义的专业化、中文化和实用性,本论文进行了以下研究工作:(1)建立了包含20万词条的化学化工中英文专业术语库。隐含语义检索系统基于专业术语库对文档分词,提取专业词和专业短语。在权重算法原理的指导下,通过适当增加专业术语的权重,提高了系统的查准率,实现了隐含语义检索系统的专业化。 (2)利用计算所开发的汉语词法分析系统和基于专业术语库的最大长度匹配算法对中文文档进行分词,并通过与英文类似的词条处理实现了中文隐含语义检索系统。 (3)本论文实现了Linux和Windows下两套检索系统,使用不同的编译器优化了矩阵奇异值分解程序,提高了检索系统的性能。 (4)针对开发的隐含语义检索系统,分析了不同分词方法、权重算法和奇异值分解参数对系统查准率的影响,进一步提高了隐含语义检索系统的查准率。 (5)为了方便专业术语库的维护和完善,开发了一套科技术语管理系统,实现对术语库的管理。另外还设计并实现了一个基于专业术语表的中英文分词接口,该接口可用来处理文本分类和网页爬行中的文档分词,并可对分词结果进行简单的统计,为专业搜索引擎的开发打下了基础。
其他文献
  微生物基因组DNA在生命过程中面临各种损伤,例如碱基水解脱氨基,自发脱嘌呤,烷基化修饰,氧化损伤等.极端环境条件会加速这些DNA损伤的形成.高温会大大加快dC碱基环外氨基
会议
  头孢菌素是由丝状真菌顶头孢霉产生的次级代谢产物,是临床上重要的抗感染药物。经过多年的研究,头孢菌素的生物合成过程已经基本清楚。头孢菌素产生过程中伴随有顶头孢霉菌
  Five and fewer digits are autopod patterns seen in modern tetrapods, indicating highly conserved regulatory programs in constraining digit number.In early l
会议
  林可霉素是一类具有重要临床意义的高效广谱抗生素,在发酵过程中加入一定浓度的硝酸盐会使其产量有较大幅度的提高,这就是所谓的硝酸盐效应。当在在发酵培养基中加入浓度为
本论文从油脂的综合利用考虑,分别探讨了由植物油和植物油加工过程中产生的“工业垃圾”——酸化油制备生物柴油的工艺条件:在由植物油制备生物柴油工艺条件的研究中,以盐生植物
质谱测试是一个将目标物引入到离子源,被电离后再传输到检测器,根据其质荷比的差异进行区分的过程。这个过程中,离子化方式不但决定了样品引入方式,还影响着目标物最终的出现
  春雷霉素是春雷链霉菌产生的一种重要的氨基糖苷类抗生素,作为高效低毒的农药广泛应用于农业生产.本研究在已经报道的春雷霉素生物合成基因簇的左翼区域鉴定了五个与春雷
在农药的研究和开发中,含氮杂环类化合物发挥着重要作用,因为该类化合物多具有很好的生物活性,杂环的引入不仅可以提高活性,而且可以改变其它性能如选择性等。含氮杂环类化合物是
  吡嗪酰胺(PZA)是用于治疗肺结核的第一线抗生素1(TB)。它是一种重要的一线抗结核药物,通与用异烟肼,利福平,乙胺丁醇和链霉素联用。联用吡嗪酰胺(PZA)在缩短结核病治疗期和
  Biological use of synthesis gas (syngas) derived from a variety of carbon-contained materials, e.g.biomass, coal, municipal refuse and plant off-gases, to p
会议