基于网站自描述数据的垂直搜索引擎的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:liang_yanzhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的不断发展特别是网络搜索引擎技术的发展,用户想要得到自己需求的网络链接成为越来越容易的事情。近几年,越来越多的领域搜索成为网络搜索引擎的又一新兴方向,它们关注于某一领域,可以给用户一个连续高效的综合性搜索结果,称之为垂直搜索引擎。传统搜索引擎不接受来自网站的任何数据,把网站放在弱势的对立面,并完全忽略了网站渴望被了解的心情,搜索引擎这样做是基于可靠第一的想法。目前主流垂直搜索引擎也都没有接受网站数据的功能,所以提出了垂直搜索引擎利用来自网站的自描述性数据来提取网站文本中的知识。基于此想法,网站向搜索引擎发送网站自身的知识结构,搜索引擎利用此知识结构作为数据容器来解析网站文本,从而减少搜索引擎工作量。网站只要向搜索引擎发送自身描述数据为搜索引擎所用,那么搜索引擎就可以跳过对网站文本进行知识聚类等处理活动,而直接从网站文本中提取知识,提高自身的工作效率及获得更为准确的知识。具体实现过程包括以下三个步骤:搜索引擎对网站提交作出规范和引导;网站向搜索引擎发送自身描述性知识结构数据;搜索引擎以网站描述性数据为“数据容器”提取网站知识。这一方法实施后,搜索引擎绕过了知识聚类这一步骤,因而可以提高引擎的爬行效率并且会得到更高质量的知识。通过在模拟环境下的实验,证实会议搜索引擎作为垂直搜索引擎特例,可以利用网站关于自身知识的会议描述数据进行知识的提取。
其他文献
主题网络爬虫是主题搜索引擎的关键技术。主题爬虫能够智能地采集与特定主题相关的网页,而避免不相关网页的访问;主题爬虫的提出与运用能够极大缓解目前基于通用网络爬虫的搜
Web信息抽取将Web中的数据抽取出来并表示为结构化的形式。动态网页是通过程序动态生成的页面。据统计,目前Web上的页面主要是以动态网页的形式存在。因此,研究动态网页的信息
信息过载和资源迷向已成为制约人们高效使用WEB信息的瓶颈。信息过载是指用户面对太多的WEB信息难以及时地消化、吸收;资源迷向则是指用户不知道如何确切地表达其对网络资源的
在当今所处的这个信息爆炸的时代,计算机图形识别已经成为计算机视觉技术的一个重要研究分支,同时也是图像检索的重要基础。图像的局部特征是用于识别的关键,在提供更多图像细节
在软件开发的过程中,软件可靠性是一个重要的研究目标。近年来,软件系统规模不断扩大,复杂性也日益提升,如何设计出符合可靠性要求的软件系统逐渐引起了人们的关注。软件测试
粗糙集理论是一种有效地分析和处理不精确、不一致、不完整等各种不确定性信息的数据分析理论。泛系理论是一个注重挖掘事物的本质、寻找事物之间联系、以及变化与变化之间联
信息技术的发展和企业服务意识的提高,致使呼叫中心逐渐得到了企业的青睐。在日益激烈的市场竞争中,作为现代企业在商战中谋求生存的关键机构和在竞争中争胜的有力武器,呼叫中心
图像识别是计算机视觉领域中利用数字图像处理技术和模式识别方法识别图像中的感兴趣目标的技术,被广泛应用在合成孔径雷达图像辨识、地图导航、车牌目标检测、医疗病变诊断
随着计算机软硬件的迅速发展,计算机的应用领域越来越广。用户群也由原来的少数计算机专业用户扩展到了很多非专业的用户。这就意味着计算机的人机交互界面由过去的人适应计
随着目前处理器功耗的增大,芯片的性能遇到了瓶颈。过高的温度降低了处理器的性能、可靠性和寿命。现代处理器用调节电压和降低频率作为缓解功耗与温度问题的首选措施。但是