基于Web挖掘的纺织专业搜索引擎设计

被引量 : 2次 | 上传用户:qishanf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上的信息以几何级数的速度膨胀,为了从纷繁芜杂的信息海洋中找到有用的信息,人们借助搜索引擎搜寻所需信息。Yahoo、Google、Baidu等就是比较有代表性的搜索引擎。可是这种通用搜索引擎无法满足人们对专题性信息的需求。因此需要研究开发面向特定领域的专业搜索引擎来对专业领域信息进行检索。本文设计了一个纺织专业搜索引擎系统,详细设计了系统中的重要模块并对模块中的关键技术进行了研究。本文的研究内容如下:1、给出了纺织专业主题爬行器的详细设计提高主题爬行器的效率问题。一方面通过协调器对网络爬虫抓取的URL按照一定规则进行调度,避免了由于网络爬虫的负载不平衡造成的资源分配不均;另一方面在扫描网页源代码获取抓取的URL的同时,设计目标网页内容过滤/预测模型来确定待采页面,对网页所含的超链接进行剪切与分类,按照相关链接采集、不相关链接直接丢弃的原则进行剪枝处理,减少网络蜘蛛页面采集的工作量。2、针对主题爬行器中涉及的文本分类技术进行了改进。在向量空间模型表示网页文本时,特征项在文本集合中位置分布的不同会引起权值的差异的问题。针对此问题本文改进了特征项权值的计算公式以更好的体现网页的结构特征。传统的K最近邻分类方法存在一个很致命的问题就是如果训练集的数据量很大,该方法很难实现全局的最优搜索,为了加速K个最近邻的搜索,本文采用了一种基于K最近邻的快速文本分类方法,使在海量数据集中进行快速有效分类成为可能。3、对检索器中的网页排序算法进行了改进现在网页排序算法主要是围绕着PageRank算法和HITS算法进行研究的。在研究了这两种经典的排序算法后,本文提出一种基于文本聚类的网页排序方法希望达到两点目标:一是越重要的网页在结果列表中的位置越靠前;二是前几页结果列表的信息覆盖面比较广,这样可以帮助用户在检索过程中明确自己的检索目标。
其他文献
新一轮课程改革使中学文言文教学重新受到教育界的广泛关注,一时间关于如何改进中学文言文教学成了众人关注的焦点。这些教学改革的探讨和实践极大地推动了中学文言文教学的
大型活动短时间内在活动场所周围聚集巨大的交通需求,给正常交通带来了巨大的压力。本文分析了新形势下大型活动道路交通安全保卫的特点及存在的主要问题,对我国今后大型活动
八十年代以来,全球兴起了一股战略联盟的热潮。战略联盟的形式多种多样,其中联盟各方是借助契约建立的、不涉及股权参与的合伙组织就是契约战略联盟。契约战略联盟对我国企业
我国政府自实施工业“反哺”农业、城市“反哺”农村发展计划以来,农民生活水平、居住环境、农业生产能力得到有效改善,但农村经济起飞的“先行资本”——农村基础设施投资现
随着市场经济的不断发展,企业内部改革的升华,全面预算管理作为企业内部管理控制的重要环节已越来越显得重要。全面预算管理能帮助管理者计划、协调、控制和业绩评价。加强企
常规板坯连铸技术经过几十年的发展,已日渐成熟,高速化、高效化成为当今板坯连铸技术发展的目标。由于低拉速常规稳态浇注相对容易控制,铸坯质量能够得到保证,但高拉速非稳态
京大戟(Radix Euphorbiae Pekinensis),是大戟科(Euphorbiaceae)大戟属(Euphorbia)植物大戟(Euphorbia pekinensis Rupr.)的干燥根,为传统泻水逐饮中药.《中国药典》2015版记
本文利用高活性干酵母,在AOT/Tween60/环己烷微乳体系中还原制备(S)-苯砜-2-丙醇。利用正交实验研究了反应时间、底物浓度、酵母用量、碳源量、碳源种类、表面活性剂用量、体系
目的:建立测定解毒维康胶囊中黄芪甲苷的含量方法.方法:采用高效液相色谱法蒸发光散射检测器测定制剂中黄芪甲苷的含量.结果:含量测定黄芪甲苷在1.80μg~7.20μg之间有良好的线性
通过对壮医药防治皮肤病与性病的基本特点及壮医药外治法在皮肤病与性病中应用的探讨,提出壮医药外治法在常见皮肤病中应用广泛,而对于性传播疾病虽有理论基础但实践应用少,