一种基于语义标注的个性化搜索技术的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:zhongminghe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网改变了人们彼此交流的方式,然而绝大部分现有的网络内容只适合于人工处理,虽然一些软件工具在一定程度上改善了人类的交流方式,但是在某些方面还有些欠缺,例如:搜索结果主要是基于关键字的频度而非语义,高匹配低精度,低匹配或无匹配,检索结果对词汇高度敏感,基于关键字搜索却不能得到想要的结果,检索结果是单一的网页等等。即使搜索结果是成功的,用户必须自己浏览搜索得到的文档,从中提取所需的信息。其原因是,缺少计算机能够理解的语义信息。语义网(Semantic Web)被称作是下一代Web的存在形式,是万维网的延伸,不仅可用自然语言表现网络内容,而且这些内容还可以被软件代理人所阅读和使用,因此,语义网被认为是一种数据、信息和知识交换的万有媒介,可以用来解决网络中计算机语义的问题。语义网作为一种数据表示和共享的形式,为搜索引擎提供了含有语义的数据,可以利用语义网的技术实现语义搜索,搜索的结果是对用户查询请求在语义分析后做出的反应,而不仅仅是关键字的匹配。本文应用语义网技术,建立了一种基于语义标注的搜索模型,该模型构建了一个领域本体,将抓取的相关网页进行语义标注产生元数据,对元数据建立索引,能有效地改善搜索结果,使搜索精确度提高,更加满足用户的语义需求。论文以语义搜索引擎的分析、设计、研究与实现为主体,利用网页预处理技术抓取网页的文本信息并分词。然后讨论领域本体构建的可行性与有效性,并在此基础上实现语义分析与标注,产生语义元数据,对其工作机制、使用技术、实现方法等方面进行了详尽而全面的分析与研究,对产生的元数据基于现有的倒排索引技术建立语义索引,对输入关键字进行预处理,形成形式化的查询语句后进行检索。实验测试证明了这种方法在搜索精度上较传统方法具有一定的改进和提高,搜索结果更加接近用户要求。
其他文献
为适应我国航天事业的可持续发展,满足新一代运载火箭和新型航天器发射任务需求,2007年8月,国务院和中央军委正式批准在海南文昌建设新一代运载火箭发射场。日前,新发射场可行性
针对货物拆卸困难、有特殊要求不得开封、行李物品涉及个人隐私等特殊监管情势,采用X光检查设备对运输工具、货物或行李物品进行非侵入式扫描检查,从而实现准确、高效地检控,
随着模糊集合理论广泛应用于社会生产和生活中的各个领域,模糊关系数据库理论的研究与应用应运而生,但是由于模糊数据的特殊性,传统关系数据库管理系统己经不再适合处理这些
重新审视传统的网络架构,许多传统网络时分层的,多数以树形结构布置了众多的以太网交换机。当以客户端-服务器为主体时,这种设计是合情合理的,但是对于如今的企业数据中心、校园
印刷体数学表达式识别系统主要包括数学表达式定位、数学表达式符号识别、数学表达式结构分析和数学表达式重构四个组成部分。数学表达式定位是数学表达式识别的首要步骤,也
指代消解是自然语言处理中的一个基础性问题。指代消解在命名实体识别与跟踪、关系抽取、问题回答等任务中有着重要的作用。共指关系是指代关系中的等价关系,本文针对中文共
视觉注意建模是生物心理学、神经计算科学的主要研究内容,同时对计算机视觉、人工智能、模式识别和多媒体内容分析等多个领域的理论和技术发展有很强的促进作用,近年来正受到越
随着教育体制的改革,提高全民素质,高校招生名额每年以30%的速度递增。而各个高校在原有的硬件,软件条件下,学生人数都不同程度的按比例增加,为了保证教学质量,最大程度的发
学位
产业链协同SaaS (Software as Service)平台是一个主要面向中小型制造业的第三方服务平台,为众多的以制造业企业为龙头与众多协作供应商、经销商、维修服务商形成的企业联盟