相关度计算相关论文
在当今社会里,信息的爆炸式增长已经成为人们必须面对的问题。借助计算机在海量信息中找到人们所需的有用信息的研究越来越受到......
近几年,大规模开放网络课程MOOC引发全球的关注和参与。自动答疑是MOOC平台中重要的辅助教学模式,采用问答系统实现自动答疑是目前研......
随着互联网技术的迅速发展,网络上的数据资源呈现出指数级增长的态势,信息抽取技术就是为了从这些海量的数据资源中获取有价值的信息......
随着Internet网信息的急速膨胀,各项和Web有关的服务也都逐渐增多,Web信息在很多方面得到了广泛的应用。在本文中,我们探索了网络......
本体作为一种语义资源描述工具在很多领域都有着广泛的应用,这直接导致了领域本体的规模级数的膨胀,而且各个本体互为异构的事实影响......
随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高,如何从海量信息中快速有效的获取有用信息,已经成为人们研究......
随着互联网的迅猛发展,Web网上的信息资源正在以多元化的形式迅速增长,人们越来越不满足于大型通用型搜索引擎所提供的服务,开始关......
学位
随着互联网中信息的爆炸式增长,搜索引擎在人们生活中的作用越来越重要,人们对于搜索结果精度要求的提高,使得面向特定领域的垂直......
传统的信息查询技术基本上都是基于关键字的匹配,其查询性能不高,用户需要花费大量时间对查询结果进行再过滤,有时还找不到所需的......
企业竞争情报系统日益成为现代企业必不可少的工具,Internet成了企业获取情报信息的重要途径,但是Web信息分散地遍布于世界的每个角......
随着互联网的高速发展,多元化信息呈几何级数增长,用户对于信息检索服务也提出了越来越高的要求,尤其是在检索结果的专业性和准确性上......
本体作为语义网中的知识表现形式,近年来已经被广泛的应用到知识工程、人工智能和信息检索等研究领域。由于不同的组织或个人在本体......
如今,由于互联网的发展速度愈来愈迅速,信息与资源的传播和发布也随之变得更加迅速和快捷,互联网上信息量的规模也因此日益巨大,这就导......
学位
摘 要 面向构件的垂直搜索引擎是该领域内的一个研究热点。本文介绍面向构件的主题爬虫的设计与实现,提出一种基于URL的面向构件的......
在信息检索过程中,因查询词短少而引起的检索歧义性是影响检索效率的主要原因之一,而查询扩展方法和本体扩展方法能有效改善这一问......
首先研究了面向主题的网络蜘蛛的关键技术:抓取目标描述、网页分析算法和网页搜索策略等,在此基础上,设计并实现了一个面向主题的网......
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是......
主题搜索引擎的研究难点之一就是主题与网页信息之间的准确匹配。通过对网页的特征进行分析,提取网页特征中的主题特征词,并用提取的......
本体映射是解决本体异构问题的重要途径和手段,中文知识是网络开放知识库的重要组成部分,但现有的中文本体映射系统在面对大规模本......
为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主......
结合主题爬虫和本体学习的研究现状,设计并实现了基于本体的主动学习主题爬行系统。通过更好地规划爬虫爬行流程,详细地划分功能相......
针对目前互联网信息资源广泛、网页结构复杂、噪音信息较多的现状,主题爬虫获取有效信息过程中精确度低、耗费时间长等问题。结合......
本文提出了基于本体的气象领域聚焦爬虫,首先利用Protégé工具构建气象领域本体,将本体作为领域知识库引入到聚焦爬虫中,......
针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主......
详细阐述了主题描述与定义、相关度计算、抓取策略等主题爬虫的关键技术。综合考虑了特征词在相同文本的不同位置和在不同文本的位......
针对产品表面正确性的快速自动无损检测问题,提出了利用垂直投影法确定旋转步长来获取序列图像的方法,并将一种针对尺度旋转不变性......
Web信息检索使人们能够在海量信息中找到所需信息,但由于自然语言多义性和用户检索时检索词的模糊性、不准确性,导致信息检索系统反......
为了解决校园网域内的数字资源无法精确定位和获取问题,对搜索引擎的工作原理和Elasticsearch(ES)的运行机制进行深入研究,实现提......
基于本体的语义相关度计算方法以概念在本体中的结构特征,如深度、密度,概念间的语义关系类型、路径等一系列因素为基础来度量概念......
针对蒙古文主题爬虫主要面临的预测采集URL和发现隧道2个核心问题,提出一种基于主题团的站点聚类、排序和隧道发现的采集模型.通过......
为提高网页内容与特定主题之间相关度计算的准确度,提出一种基于领域本体的网页主题相关度计算模型OBWTCCM(ontology based webpage......
网络舆情是网民对于各种事件的刺激而产生,并通过互联网传播的人们对于该事件的所有态度、认知、情感和行为倾向的集合。某件事在网......
随着互联网的快速发展,信息的发布与传播变得越来越快捷,网络上的信息量也积累到了非常庞大的规模,这使得检索信息变得日益困难,所......
随着INERNET的迅猛发展,网络资源呈几何式增长,人们越来越不满足于大型搜索引擎所提供的服务,开始关注各种各样的主题式搜索引擎。主......
互联网技术的迅速发展提升了人们可获取信息数量,降低了信息获取成本,但信息过载问题也随之凸显。易制毒化学品行业因其特殊性,造......
为解决中文网页主题特征项抽取不精确的问题,对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进......
主题爬行是获取World Wide Web中特定领域(主题)的网页的关键技术。随着Web的快速增长,以及网络带宽和各种资源的有限性,从中获取全......
随着互联网的迅速发展,越来越多的信息资源以网络为媒介呈现在人们面前,而通过搜索引擎获取生活、生产所需的信息资料也开始成为人们......
语义相关度计算是自然语言处理领域的研究热点。现有的以文本相似度计算代替文本相关度计算的方法存在不足之处。提出从语形相似性......