【摘 要】
:
由于互联网的急速发展,网络上各行各业的信息浩如烟海。在招聘领域,种类繁多的招聘网站给应聘者提供了大量的招聘信息的同时也给其带来了一些困扰。由于各个招聘网站的数据相互封闭,应聘者想要全面的搜集相关的招聘信息就需要浏览多达数十个招聘网站,这给应聘者带来了极大的不便。因此,利用相关技术构建一个面向招聘领域的垂直搜索引擎系统十分必要。本文主要工作是利用相关技术来实现一个面向招聘领域的垂直搜索引擎系统。系统
论文部分内容阅读
由于互联网的急速发展,网络上各行各业的信息浩如烟海。在招聘领域,种类繁多的招聘网站给应聘者提供了大量的招聘信息的同时也给其带来了一些困扰。由于各个招聘网站的数据相互封闭,应聘者想要全面的搜集相关的招聘信息就需要浏览多达数十个招聘网站,这给应聘者带来了极大的不便。因此,利用相关技术构建一个面向招聘领域的垂直搜索引擎系统十分必要。本文主要工作是利用相关技术来实现一个面向招聘领域的垂直搜索引擎系统。系统包含爬虫模块、索引模块和检索模块。其中网络爬虫模块是通过改进shark-search算法来制定网络爬虫策略,使网络爬虫过滤掉网页中与主题无关的链接。采集到与主题相关的网页后,使用HTMLParser来提取网页中的结构化数据,并存储到数据库中。针对系统需要存储海量的招聘数据,数据库使用HBase来进行存储。HBase数据库利用分布式的特点,很容易的通过横向扩容来解决所需的存储容量。网络爬虫框架采用JLite Spider,它是一个由java语言开发的爬虫框架,具有轻量、分布式等特点。在索引构建模块,利用word分词器结合招聘领域的单词词典对存储在HBase中的招聘数据进行分词,然后借助Lucene来构建倒排索引。在检索模块,通过学习研究Lucene全文检索时的评分机制以及Rocchio算法,对Lucene默认的排序结果进行了二次排序。使用Rocchio对原始结果集进行二次排序,使得二次排序的结果集较原始结果集有了更高的召回率,这也十分符合求职者需要获取尽量获取完整的招聘信息的目的。面向招聘领域的垂直搜索引擎对全网的招聘信息进行了整合,然后使用Lucene构建索引库,并且对Lucene原有的检索结果进行了优化,这对应聘者获取招聘信息带来了极大的便利,让应聘者能够更加专注于专业内容的复习和面试准备。最后对招聘领域的垂直搜索引擎进行系统测试,各个功能模块满足预先的需求设计。
其他文献
双身虫亚科隶属于单殖吸虫纲,钩铗虫目,双身虫科,可分为双身虫属、拟双身虫属、真双身虫属、华双身虫属和侧孔吸虫属5个属,主要寄生于淡水鲤科鱼类的鳃部。盾腹虫属隶属于吸虫纲、盾腹亚纲、盾腹科,可寄生于软体动物、硬骨鱼类和龟鳖类,是寄生扁形动物中最原始的类群。本文采用分子生物学方法分别对双身虫亚科和我国的盾腹虫属的种类的系统发育关系进行了研究。 利用真核生物通用引物扩增并测
当前,我国正处于由计划经济向市场经济,由传统社会向现代社会的双重转型时期,社会资源的再分配成为了人们关注的问题之一。人们在不断提高劳动投入的同时对组织的公正环境也提出了新的要求。研究表明,在以心理资本为中介的情况下,组织公正感能间接影响员工工作绩效,且各维度与工作绩效呈正相关关系。知识型员工由于强烈的自我价值实现愿望、高度重视成就激励和精神激励的特点,以及不惧权威、对不公正容忍性较低的个性,在不佳
成膜素相关蛋白1(PhrIP1)是一个含608个氨基酸的蛋白质,它对于植物胞质分裂中细胞板的形成起到了十分重要的作用。研究PhrIP1的功能和机制,对在分子水平上阐明植物细胞板以及细胞壁形成的机理具有重大的生物学意义。在本实验中,根据phrIP1的序列设计引物对其进行PCR扩增,得到该基因后将其连接到了pKS质粒上,并进一步构建成了诱饵质粒pEG202-phrIP1。经过测序分析,pEG202-p
中国政府推行双创政策后,国内涌现了大批创业公司。虽然这些创业公司大都属于中小型民营企业,但在科技创新、发展民生、促进就业等方面发挥了巨大的作用。然而与国外同类型创业公司相比,中国创业公司的寿命较短,平均只有3年左右。由此可见,中国的创业公司面临的风险很大,经营失败的概率很高。国内的创业公司到底有哪些风险?怎么管理好这些风险,帮助这些企业渡过难关就是本文想要解决的问题。国际标准化组织发布的ISO31
本研究探索了将外源质粒pHZ1358和pSET152通过属间接合转移导入野生型南昌链霉菌NS3226的方法。 将克隆在整合型载体pSET152上的变铅青链霉菌1326的dnd基因簇通过接合转移导入野生型南昌链霉菌NS3226中进行异源表达,观察到接合转移子的DNA获得了在含Fe2+的电泳缓冲液中电泳时降解的表型。将利用pHZ1358构建的基因置换结构(孙宇晖,未发表)导
卫星遥感技术自20世纪70年代诞生以来,伴随着人类空间技术的发展以及计算机技术的飞速发展而不断前进。自20世纪90年代中后期以来,同一地区的多时相、多光谱的遥感影像数据信息越来越多,多传感器信息融合技术作为数据融合技术的一个主要分支,受到国内外学术界的重视。CBERS影像数据作为我国拥有自主知识产权的影像,在各个领域得到不断深入的应用,这就不可避免的涉及到同其他影像数据的融合问题。在土地资源调查领
鱼腥蓝细菌PCC7120具有与生俱来的耐旱能力。在其遭遇缺水胁迫时,会发生一系列生理变化,特别是光合色素的降解。本文研究了鱼腥蓝细菌PCC7120在干燥条件下叶绿素和藻蓝素的变化,并以叶绿素的降解程度作为衡量干燥程度的指标。将干旱前后的蛋白质作二维电泳,比较干燥前后蛋白质图谱的差异。本文还通过生物信息学方法预测了鱼腥蓝细菌PCC7120中可能与耐干旱相关的基因,并初步预测其功能,为进一步研究蓝细菌
家蝇(Musca domestica L.)是一种重要的世界性昆虫,幼虫俗称“蝇蛆”。家蝇世代历期短,繁殖力强、人工大规模规范饲养技术成熟。许多研究者以家蝇为材料进行了大量的研究,己证明家蝇幼虫营养丰富,体内含有多种具有特异生物活性的物质,有很好的开发利用价值。近年的研究发现,家蝇幼虫体内含有多种清除自由基及抗氧化作用的活性成分,而自由基在辐射损伤中作为靶分子的致伤因素一直受到广泛的关注,据此推测
梁宗岱(1903-1986),广西百色人,在中国新文学史上,他是少有的集文艺理论家、批评家、翻译家、诗人多重身份于一身的人物。作为中国新诗运动的先驱者之一,梁宗岱通过自己的译介与研究,使得中国诗人们对象征主义的理解抵达到了法国诗坛的理论前沿。或许是在理论方面的成就过于突出,梁宗岱诗人特别是旧体诗人的身份常常为学术界所忽略,其代表作《芦笛风》也没有得到相应的关注与重视。本文旨在探讨梁宗岱旧体词创作论
植物基因工程的发展使得转基因技术成为改良植物遗传性状的重要手段。目前植物遗传转化中多以抗生素抗性基因和抗除草剂基因为标记基因,对生态环境和人类健康具有潜在的威胁,从而限制了转基因植物在商业生产中的推广利用。解决这一问题的有效方法之一是使用无争议的安全标记基因用于植物遗传改良。本研究的目的是构建以manA为安全标记基因、由不同启动子启动转录、含有不同外源基因的植物表达载体,为根癌农杆菌和基因枪介导的