Internet化学化工搜索引擎的检索和排序策略

来源 :中国科学院过程工程研究所 | 被引量 : 0次 | 上传用户:apple321lg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet上不断增长的海量信息,给化学工作者从中准确检索到所需的专业信息带来了困难。本论文以建立Internet化学化工专业搜索引擎为目标,在自动收集和索引Internet化学化工资源的基础上,研究化学化工信息的智能检索和排序策略,为化学化工相关的用户提供方便有效的网络检索服务。   本文首先介绍Internet化学化工搜索引擎的总体设计和规划,并对其中主要模块的功能和实现思路进行了概述。   为了准确快速地从搜索引擎索引的大量网页中检索到与用户查询相关的网页,本文采用基于倒排索引的检索方式,同时使用PageRank技术对网页之间的超链接结构进行分析,将得到的网页查询相关度与链接重要性相结合,为用户提供较好的检索结果排序,实现Internet化学化工搜索引擎的各种基本检索功能。   本文使用自动文本分类技术,基于一个化学学科分类体系,通过对搜索引擎索引的网页进行自动分类,对检索结果进行过滤,将属于用户兴趣类别的网页返回给用户,实现专业化的检索。本文提出了一种适用于化学化工搜索引擎的基于专业词典的多语言自动分类方法,通过对网页的编码方式进行自动检测和整合,来准确识别和提取网页中的多语言信息,并使用一个专业词典来提取和强化网页中的专业信息,改善网页在向量空间中的语义表达。使用专业数据集对该方法进行的测试结果表明,该方法能够有效提高分类系统的性能。   本文通过建立用户兴趣模型,获取网页的用户兴趣信息,并使之与网页的查询相关度和链接重要性要结合,来优化检索结果的排序,使与用户兴趣最相关的网页优先显示给用户,为不同的用户兴趣提供不同的检索结果排序,力图实现个性化的检索。本文采取用户主动提交和系统自动收集两种方式相结合的策略来收集用户的个性化信息,提高信息收集的准确性和方便性。然后,通过测试和分析不同的建模方式对个性化检索结果的影响,使用最近邻居法来建立用户兴趣模型。   本文通过对Internet化学化工搜索引擎的信息检索和排序策略进行研究,在基于倒排索引的信息检索的基础上,通过对检索结果进行优化排序,使用自动分类技术获取网页的专业类别信息,以及采用个性化技术获取网页的用户兴趣信息,使Internet化学化工搜索引擎可以提供更智能化、专业化和个性化的检索服务,来更好地满足专业用户的信息需求。
其他文献
作为新型的第三代太阳能电池,也是无机·有机杂化太阳能电池的代表之一,染料敏化太阳能电池(DSSC)具有成本低廉、制备工艺简单、光电转化效率高等优点,一直是无数研究学者关注的
中国自1996年首次引进西伯利亚鲟(Acipenser baerii),由于其具有食谱广、易驯养、苗种培育成活率高、生长快、卵的营养价值高等优点,现已成为我国重要的鲟鱼养殖种类。雌鲟是价
学位
学位
来自南极海水的海单胞菌BSw10005,具有广谱抑菌作用,有较大的应用潜力。本文对该菌株发酵液进行冷冻干燥、乙醚萃取获得白色固体活性组分,经官能团显色、薄层层析研究,初步判定为
<正>人物简介陈育新,极享(北京)网络科技有限公司创始人、CEO,长期从事营销业。2014年开始接触微商,2015年8月创立极享科技公司从事微商运营,致力于打造规范化、品牌化微商。