垂直搜索引擎中语义计算技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：donglaoshi_imnu

【摘要】

：

近年来由于网络上的信息量迅猛增加和网络信息组织的无序性，用户不容易从传统搜索引擎返回的检索结果中找到自己所需要的信息。垂直搜索引擎的出现和发展，一定程度上克服了传统

【作者】

：

李营

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2008年期

【关键词】

：

垂直搜索引擎语义计算关键字匹配数据质量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来由于网络上的信息量迅猛增加和网络信息组织的无序性，用户不容易从传统搜索引擎返回的检索结果中找到自己所需要的信息。垂直搜索引擎的出现和发展，一定程度上克服了传统搜索引擎的数据杂乱等弱点。然而现在的垂直搜索引擎基本上还是基于关键字匹配的方式，无法克服关键字匹配方式固有的问题；垂直搜索引擎对数据质量的要求比较高，现在通过大量人工参与来提高数据质量，使得系统的维护成本非常高。本文提出了一种提高垂直搜索引擎数据质量和检索效果的语义计算方法。通过某些语义词典或者是统计方法生成词语语义相似度矩阵，利用改进的文本语义相似度计算方法计算文本之间在语义层面上的相似程度。使用这种方法在垂直搜索引擎的数据处理阶段对文本进行语义层面处理，提高数据的质量；对数据进行分类和聚类处理，以提高检索效率；在检索阶段，可以实现语义层面的检索，克服了基础关键字匹配方式带来的查全率和查准率不高等问题。文中详细介绍了如何利用语义计算技术解决垂直搜索引擎中的一些具体问题。本文还介绍了我们设计的一个农业方面的垂直搜索引擎。这个搜索引擎成功地融入了一些语义计算技术，取得了良好效果，目前这个搜索引擎已经可以稳定地对外提供高质量的检索服务。本文首先介绍了关于搜索引擎和语义计算方面的一些基本知识，结合垂直搜索引擎的特点分析了引入语义计算技术的必要性和可行性；介绍了文本检索和语义计算方面的相关成果，讨论它们的应用价值或者是可以借鉴地方。然后针对传统的向量空间模型中文本相似度计算方法的不足，提出了一种基于语义的文本相似度计算方法，并讨论了这种方法中词语相似度矩阵的相关问题，对如何生成词语相似度矩阵进行分析，并通过实验和分析指出了这些方法的优劣和针对不同类型的文本数据进行语义计算的价值。接下来针对垂直搜索引擎中的具体问题，举例说明了语义计算技术在垂直搜索引擎设计中的具体使用方法，并通过实验分析了这些方法在具体应用中的特点。然后介绍了我们基于语义计算的农业垂直搜索引擎从数据处理到文本检索的整个系统的设计思想和整体设计框架，并讨论了一些具体问题的处理方式，然后通过一系列实验证明了我们设计的农业垂直搜索引擎的实用性和设计方法上的先进性。最后对本文进行了总结，并指出了需要进一步研究的一些问题。

其他文献

主动光源式反射光谱测量仪检控电路的设计与性能测试

变量施肥的实施首先需要准确获取作物的营养状况信息,传统的基于实验室的检测方法因成本高、效率低、时效性差等原因,无法满足大田变量施肥作业的需求。反射光谱检测技术作为

学位

主动光源光谱指数反射光谱变量施肥车载测量

基于ARM的硬件防火墙系统的研究

作为在保障网络安全方面扮演着至关重要角色的防火墙技术从出现到发展至今一直是网络安全研究中的关键技术之一,随着互联网的迅猛发展,它在信息化、网络化的过程中也变的越来

学位

防火墙内容可寻址存储器(CAM)规则匹配ARM

基于MLD的混杂系统控制及故障检测与重构

随着流程工业中控制对象越来越复杂,以及计算机的广泛应用,导致了现代工业控制中计算复杂性大大增加及混杂系统的广泛的存在。针对这类情况,本文利用混合逻辑动态系统( Mixed

学位

预测控制混合逻辑动态模型故障检测控制器重构离散微粒群算法

基于PLC的温室植物生长环境要素调控系统研制

温室植物生长状态的好坏与温室内各项环境因子密切相关,保证植物生长在适宜的温度、湿度、光照、CO2浓度、水分、养分条件下,能够使植物长势良好,产量增加,因此,对温室内影响

学位

温室调控PLCLED补光喷雾CO2补偿

基于μC/OS平台的热敏纸性能检测系统的研究

随着计算机与电子技术的发展,打印机已经广泛应用到各个领域,成为各种智能数字化仪器和设备的重要输出手段。热敏打印机凭借其体积小,重量轻,可靠性高,打印字符清晰,无噪声,

学位

μC/OS-II热敏打印机低灵敏度热敏纸动态灵敏度历史控制

基于WEB的远程监控系统的研究

随着网络技术的飞速发展，Internet技术已经渗透到日常生活和工业生产的各个领域，这使得远程实时监控工业自动化生产成为可能。技术人员无须亲临现场（尤其在恶劣环境下）就可以对现

学位

远程监控系统数据交换数据采集数据监视参数修改报警提示

恶意网页的分析及识别方法研究

恶意网页是被黑客篡改并放入恶意代码或者恶意连接的网页，其主要目的在于在客户端机器内植入大量的恶意软件，如病毒或者木马；它具有传播速度快、影响范围广、载体多样化、破坏力

学位

基于汽车驾驶模拟器的分布式系统及特效渲染研究

汽车驾驶模拟器是用于汽车产品开发、“人—车—环境”交通特性研究或驾驶培训的一种重要工具。对于驾驶训练模拟器而言,是一种能正确模拟驾驶操作,并能在很大程度上获得与实

学位

分布式虚拟环境驾驶模拟器特效实时绘制网络通信

基于谱方法的复杂网络“反社区”划分

复杂网络是对自然界和人类社会中系统的高度抽象。复杂系统通常由若干群（组）构成，当群（组）的内部边明显的多于外部边时，网络具有社区结构；相反，当群（组）的外部边明显多于内部边时，网络呈

学位

谱方法复杂网络反社区划分二模图模块性函数谱平分法

基于.NET组件和复用技术的水质管理软件开发

水质信息是水质控制和管理领域最重要的数据来源,采用计算机软件技术对水质信息进行管理的当前的主要水质管理方式。而管理信息系统MIS和决策支持系统DSS是计算机软件技术在

学位

水质管理技术软件复用.NET组件

垂直搜索引擎中语义计算技术研究

与本文相关的学术论文