基于行业的个性化搜索引擎的应用

来源 :北方工业大学 | 被引量 : 5次 | 上传用户:ok695304259
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前的搜索引擎大多是综合性的,收录各方面、各学科和各行业的信息,在反映专题或专业化信息方面很难做到全、快、准。因此课题完成了基于行业的个性化搜索引擎。该论文总体分为六个部分,首先实现了网络爬虫。网络爬虫从网络上不断爬取网页,分析网页中包含的链接并且进入链接爬取相关联网页,爬取到的网页保存在本地机器中;接着进行网页分析。对网络爬虫爬取到的网页加以分析,去除网页中的控制命令和格式,只保留内容;然后进行切分词语。对保存的内容做中文的词语切分,形成单体的关键词;然后使用倒排表和散列表相结合的技术,对经过切分词语分析之后的网页内容建立词索引;接下来是检索器。对用户输入的查询内容做词语切分,查找网页,对查找的结果进行全面分析并评分,排序输出;最后,将最新的行业信息通过邮件的方式发送给相关的用户。另外,课题还实现了动态的扩展词库,能单个或者批量的添加新词。论文将搜索引擎与行业结合,通过两种方法体现了行业的特性,首先,抓取网页的网络爬虫选用的初始网页是某个行业的中心网页,通过这个行业中心网页可以链接到很多与行业有关的网站;其次,选用这个行业的词库来建立倒排索引。比如医药行业,需要选择医药行业的一个中心网页作为网络爬虫的初始网页和一个医药词库。论文的创新点在于个性化的体现,用户能够通过邮件的方式及时准确的得到感兴趣的行业信息。基于行业的个性化搜索引擎的建立,使查询结果更加行业化、个性化。
其他文献
近年来,随着云计算规模的不断增长,高能耗已经成为云计算领域突出的问题,严重制约着云计算的发展。合理的资源分配和任务调度可以有效降低云计算系统的空闲能耗和执行能耗,从
微博是基于用户关系消息共享、传播和获取的一种媒介。与其他的网络应用平台相比较,微博具备更出色的时效性、便捷性和原创性,用户可以随时随地分享讯息,并且还可以和好友随时随
网格是构筑在互联网基础之上的一门新兴的分布式计算技术,它不同于一般传统的分布式计算,网格计算着重于大规模的资源共享、创新应用,并在一定情况下定位于高性能计算,已经成
随着对Web服务技术研究的不断深入,为了实现智能化的Web服务提供,出现了语义Web服务。语义Web服务是Web服务和语义Web结合的产物,它的目标是通过对Web服务进行语义描述,使其
随着图像传感器技术的发展,多传感器图像融合技术得到了迅猛发展,已经成为图像理解、计算机视觉等领域中一项重要的技术。多传感器图像融合就是把多个不同传感器获得的同一场景的多幅图像,或同一传感器在不同时刻获得的多幅图像合成一幅包含输入图像相关信息的图像的过程。通过综合利用不同图像之间的互补信息和冗余信息,获得对该场景更为全面、更为准确的图像描述。在多传感器遥感图像融合技术中,关于多光谱图像和全色图像的融
WWW是一个开放的全球性资源,它是世界上最丰富和最密集的信息来源。随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。数据挖掘就是从大量的数据中
为了贯彻中央“让群众喝上放心水”的重要精神,促进农村供水现代化管理水平与效率的提高,提供实用供水信息化管理工具,作者受委托参与本课题,进行了某省农村饮水工程信息管理
数据挖掘是目前发展最迅速的海量数据分析与处理技术。数据挖掘中的关联规则挖掘得到了人们极大的重视,并且已经在商业领域广泛应用。多维关联规则作为关联规则的一种重要形式
过程层析成像(PT)技术是近年来飞速发展起来的一门新技术,该技术在解决多相流检测问题上具有巨大的发展潜力和广阔的工业应用前景。电容层析成像(ECT)技术是基于电容敏感机理
产品试验台计算机测控系统在制造业中得到越来越广泛的使用,由于具体的产品试验台计算机测控系统的应用有很强的针对性,因此研究这类系统的提高软件可重用性的方法是一个很有