论文部分内容阅读
万维网改变了人们彼此交流的方式,然而绝大部分现有的网络内容只适合于人工处理,虽然一些软件工具在一定程度上改善了人类的交流方式,但是在某些方面还有些欠缺,例如:搜索结果主要是基于关键字的频度而非语义,高匹配低精度,低匹配或无匹配,检索结果对词汇高度敏感,基于关键字搜索却不能得到想要的结果,检索结果是单一的网页等等。即使搜索结果是成功的,用户必须自己浏览搜索得到的文档,从中提取所需的信息。其原因是,缺少计算机能够理解的语义信息。语义网(Semantic Web)被称作是下一代Web的存在形式,是万维网的延伸,不仅可用自然语言表现网络内容,而且这些内容还可以被软件代理人所阅读和使用,因此,语义网被认为是一种数据、信息和知识交换的万有媒介,可以用来解决网络中计算机语义的问题。语义网作为一种数据表示和共享的形式,为搜索引擎提供了含有语义的数据,可以利用语义网的技术实现语义搜索,搜索的结果是对用户查询请求在语义分析后做出的反应,而不仅仅是关键字的匹配。本文应用语义网技术,建立了一种基于语义标注的搜索模型,该模型构建了一个领域本体,将抓取的相关网页进行语义标注产生元数据,对元数据建立索引,能有效地改善搜索结果,使搜索精确度提高,更加满足用户的语义需求。论文以语义搜索引擎的分析、设计、研究与实现为主体,利用网页预处理技术抓取网页的文本信息并分词。然后讨论领域本体构建的可行性与有效性,并在此基础上实现语义分析与标注,产生语义元数据,对其工作机制、使用技术、实现方法等方面进行了详尽而全面的分析与研究,对产生的元数据基于现有的倒排索引技术建立语义索引,对输入关键字进行预处理,形成形式化的查询语句后进行检索。实验测试证明了这种方法在搜索精度上较传统方法具有一定的改进和提高,搜索结果更加接近用户要求。