论文部分内容阅读
摘 要:随着互联网信息化的快速发展,网络求职人数不断增多,主题搜索引擎正成为新一代的主流搜索引擎。本文就面向毕业生求职帮助信息为主题的搜索引擎进行了研究,通过提出主题搜索引擎的关键技术,提出了求职帮助信息的搜索引擎的设计方案。
关键词:求职信息;主题搜索;信息查找
中图分类号:G647.38
近年来,各大高校都以前所未有的速度扩大招生规模,大学生的总数在不断增加,导致大学生毕业人数急剧增长,就业率不断下降,大学毕业生很难寻觅到自己满意的工作,毕业生的就业问题面临着十分严峻的挑战。2013年全国大学毕业生达到699万人,较2012年增加了19万人,被人们称为“史上最难就业季”,2014年全国普通高校毕业生预计将达到727万人,再加上全国的待业人员,求职的激烈程度可见一斑。这就要求大学生积极收集就业信息,学习了解笔面试经验,搜集面试技巧,才有可能在千军万马中找到适合自己的岗位。
根据2013年6月底中国互联网信息中心发布的《第32届中国互联网络发展状况统计报告》,中国互联网普及率为44.1%,互联网普及率在稳步上升。互联网对大学生就业产生了巨大的推动作用,我国就业信息方面的网站已经发展到成百上千家,在传播就业政策和提供就业信息方面发挥了显著的作用。随着网络信息数量的迅猛增长,“信息过载”、“信息超载”已经成为日益严重的问题。笔者负责学生就业工作将近两年,其中担任过《大学生就业指导》任课教师。《大学生就业指导》作为一门公共任选课,没有被得到高度地重视。然而更多学生的目的只是获取学分甚至在大学四年重来没有选过,致使大部分毕业生缺乏笔面试经验以及面试技巧。本文旨在研究建立一个面向求职帮助信息主题搜索引擎的平台,对广大的求职者给予更大的帮助。
1 主题搜索引擎介绍
1.1 主题搜索引擎的概念。随着互联网信息的“爆炸式”增长和人们对搜索引擎要求的提高,通用搜索引擎也面临着挑战。为了得到更高的查全率和查准率,主题搜索引擎成为新一代搜索引擎的新趋势。所谓主题搜索引擎是专门采集某一行业、某一专题、某一学科、某一主题范围内的信息资源,建立本地资源数据库,对搜集到的资源做索引。用户进行搜索是通过界面接口对信息检索,以得到用户所需的专业信息。
所谓主题,是指用户所要搜集的信息的特征。主题通常由用户指定若干相关网页(称为样本网页)来确定。通过用户选定的样本网页来确定所搜集的主题,在此基础上进行特征提取,分析样本网页,提取特征信息,然后根据获取的特征信息进行搜集,对每一个搜集的网页,都赋予一定的相关度,相关度越高,就说明与主题越相似。
1.2 主题搜索引擎的优势。通用搜索引擎主要是针对全互联网各类网站信息进行搜集和检索的工具。主要目标是信息量全,覆盖各个领域和各个行业。而主题搜索引擎是针对某一主题、某一行业的专业搜索引擎,是通用搜索引擎的细分和延伸。主要优势表现在:(1)主题搜索引擎只为某一领域或行业的用户提供服务,所以信息资料减少,可以精确无误的对请求做出反馈。(2)主题搜索引擎只关注某一主题、某一领域的信息,所以信息提取量、数据量的变小对于计算机硬件的要求也相对较低,并且索引数据库的规模变小有利于缩短查询响应时间。(3)主题搜索引擎只涉及某一主题、某一领域的信息,所以使用专业词表进行规范和控制,大大提高了信息资源检索的查全率和查准率。
2 关键技术研究
基于面向求职帮助信息主题的搜索引擎具有自身的特性,下面列出实现面向求职帮助信息主题搜索引擎的关键技术。
2.1 网页信息抓取技术。网络信息采集是通过网络蜘蛛程序来实现的。在实际应用中,主题搜索的网页采集技术能够按照需控制采集范围和目标、需支持深度采集以及需支持复杂的动态网页来采集。也就是说,网页采集技术能够达到更加具有针对性、实时性。
2.2 网页内容分析技术。通过网络蜘蛛搜集来的网页信息一般要先进行分析,以便于后面建立索引。分析技术一般包括分词、过滤、转换等工作。经过分词、过滤、转换,将有价值的信息提取出来,才能进一步提供更有价值的服务。
2.3 信息索引技术。为了提高用户的查询精度、空间的利用率以及系统运行的效率,需要对这些信息建立索引。索引模块是信息采集模块和信息检索模块的“桥梁”,其工作主要是建立索引数据库。网页建立完索引才能被后续流程使用。设计良好的索引可以加快搜索速度,能够更加准确地进行网页定位,从而减少计算开销。在这里,针对求职帮助信息的主题搜索,我们将使用Lucene系统的索引技术。Lucene是一个开放源代码的全文检索引擎的工具包,提供了完整的查询和索引引擎,可以减少经费开支。
2.4 信息检索技术。信息检索功能是搜索引擎体现自己最终价值的重要环节。良好的反应速度、合理的结果集和排序次序都很重要。搜索引擎返回的结果需要根据语义相关性进行排序。主题搜索由于其只包含某个领域的信息,词义明确可以提高结果的相关性。
3 求职帮助主题搜索引擎设计方案
3.1 技术路线。求职帮助主题搜索引擎的研究开发采用如下的技术路线:(1)通过对主题搜索引擎的特点及关键技术的研究,总结出主题搜索引擎相比与通用搜索引擎对硬件要求更低,分类更加细致精确,更新更加及时的优点。(2)通过对Lucene全文索引引擎工具包架构的研究,比较Lucene数据库检索和传统数据库检索的异同。(3)通过对信息采集策略的研究,分析总结出面向求职帮助信息的有效信息采集策略。(4)在分析研究主题搜索引擎关键技术的基础上,针对有效的求职帮助信息采集策略,提出以求职帮助信息为主题的搜索引擎的设计方案并加以实现。
3.2 可行性分析。随着现代技术的蓬勃发展,上述所列举的关键技术在一些大型软件设计中得到了很好的应用,给主题搜索引擎的设计与实现提供了有力的技术支持,证明了这些技术是可行的。随着互联网和学校软件资源的发展,为开发研制收集了大量的免费资源,同时在开发阶段将使用的Lucene架构给出了全部开源工具包。这样,节约了系统开发的经济成本,满足了经济可行性的要求。由于开发这样一个面向求职帮助信息的搜索引擎可以帮助大学毕业生方便、准确、即时的查询相关应聘资料和求职信息,满足了社会可行性的要求。
3.3 创新性。(1)主题搜索引擎保证了对某一领域信息的完全收录与及时更新,避免了搜索时的“噪音”,提高了检索效率。在提供专业信息方面有着通用搜索引擎无法比拟的优势。(2)虽然面向求职的主题搜索已经出现,但是求职帮助信息也很重要,所以面向求职帮助信息的搜索引擎也是必不可少的。(3)用Lucene作为全文检索的工具进行检索,提高了检索效率,增加了系统的灵活性,便于二次开发。
4 结束语
随着互联网上信息资源的不断增加,毕业生通过互联网应聘找工作的人数也呈上升趋势。对于求职者来说,像百度、Google等常用的搜索引擎针对求职招聘这一主题在查全率和查准率方面很难满足其搜索要求,它所查询出来的工作岗位大多是不符条件或是已过期信息。为了得到更高的查全率和查准率,本文在研究主题搜索引擎的基础上,列举了四种面向主题搜索引擎所需要的关键技术包括网页采集技术、网页分析技术、信息索引技术和信息检索技术。并同时提出了面向毕业生求职帮助信息主题搜索引擎的设计方案,相信这无疑对求职主题的搜索引擎产生了不可低估的影响。
参考文献:
[1]孙宏,李戴维,董旭阳,季泽旭.搜索引擎技术与发展综述[J].计算机光盘软件与应用,2012(14)24-26.
[2]杨永斌.油田信息专业搜索引擎的研究与应用[J].计算机光盘软件与应用,2012(12):18.
作者简介:马睿瑄(1986-),女,硕士研究生;朱丽波(1972-),女,副教授,硕导,研究方向:计算机教育。
作者单位:内蒙古师范大学计算机与信息工程学院,呼和浩特 010020
基金项目:内蒙古师范大学2012年度研究生科研创新基金项目(CXJJ12056)。内蒙古师范大学教育发展基金会大学生发明创造基金2012年度资助奖励项目(NSJJ2012-15ZZ-003)。
关键词:求职信息;主题搜索;信息查找
中图分类号:G647.38
近年来,各大高校都以前所未有的速度扩大招生规模,大学生的总数在不断增加,导致大学生毕业人数急剧增长,就业率不断下降,大学毕业生很难寻觅到自己满意的工作,毕业生的就业问题面临着十分严峻的挑战。2013年全国大学毕业生达到699万人,较2012年增加了19万人,被人们称为“史上最难就业季”,2014年全国普通高校毕业生预计将达到727万人,再加上全国的待业人员,求职的激烈程度可见一斑。这就要求大学生积极收集就业信息,学习了解笔面试经验,搜集面试技巧,才有可能在千军万马中找到适合自己的岗位。
根据2013年6月底中国互联网信息中心发布的《第32届中国互联网络发展状况统计报告》,中国互联网普及率为44.1%,互联网普及率在稳步上升。互联网对大学生就业产生了巨大的推动作用,我国就业信息方面的网站已经发展到成百上千家,在传播就业政策和提供就业信息方面发挥了显著的作用。随着网络信息数量的迅猛增长,“信息过载”、“信息超载”已经成为日益严重的问题。笔者负责学生就业工作将近两年,其中担任过《大学生就业指导》任课教师。《大学生就业指导》作为一门公共任选课,没有被得到高度地重视。然而更多学生的目的只是获取学分甚至在大学四年重来没有选过,致使大部分毕业生缺乏笔面试经验以及面试技巧。本文旨在研究建立一个面向求职帮助信息主题搜索引擎的平台,对广大的求职者给予更大的帮助。
1 主题搜索引擎介绍
1.1 主题搜索引擎的概念。随着互联网信息的“爆炸式”增长和人们对搜索引擎要求的提高,通用搜索引擎也面临着挑战。为了得到更高的查全率和查准率,主题搜索引擎成为新一代搜索引擎的新趋势。所谓主题搜索引擎是专门采集某一行业、某一专题、某一学科、某一主题范围内的信息资源,建立本地资源数据库,对搜集到的资源做索引。用户进行搜索是通过界面接口对信息检索,以得到用户所需的专业信息。
所谓主题,是指用户所要搜集的信息的特征。主题通常由用户指定若干相关网页(称为样本网页)来确定。通过用户选定的样本网页来确定所搜集的主题,在此基础上进行特征提取,分析样本网页,提取特征信息,然后根据获取的特征信息进行搜集,对每一个搜集的网页,都赋予一定的相关度,相关度越高,就说明与主题越相似。
1.2 主题搜索引擎的优势。通用搜索引擎主要是针对全互联网各类网站信息进行搜集和检索的工具。主要目标是信息量全,覆盖各个领域和各个行业。而主题搜索引擎是针对某一主题、某一行业的专业搜索引擎,是通用搜索引擎的细分和延伸。主要优势表现在:(1)主题搜索引擎只为某一领域或行业的用户提供服务,所以信息资料减少,可以精确无误的对请求做出反馈。(2)主题搜索引擎只关注某一主题、某一领域的信息,所以信息提取量、数据量的变小对于计算机硬件的要求也相对较低,并且索引数据库的规模变小有利于缩短查询响应时间。(3)主题搜索引擎只涉及某一主题、某一领域的信息,所以使用专业词表进行规范和控制,大大提高了信息资源检索的查全率和查准率。
2 关键技术研究
基于面向求职帮助信息主题的搜索引擎具有自身的特性,下面列出实现面向求职帮助信息主题搜索引擎的关键技术。
2.1 网页信息抓取技术。网络信息采集是通过网络蜘蛛程序来实现的。在实际应用中,主题搜索的网页采集技术能够按照需控制采集范围和目标、需支持深度采集以及需支持复杂的动态网页来采集。也就是说,网页采集技术能够达到更加具有针对性、实时性。
2.2 网页内容分析技术。通过网络蜘蛛搜集来的网页信息一般要先进行分析,以便于后面建立索引。分析技术一般包括分词、过滤、转换等工作。经过分词、过滤、转换,将有价值的信息提取出来,才能进一步提供更有价值的服务。
2.3 信息索引技术。为了提高用户的查询精度、空间的利用率以及系统运行的效率,需要对这些信息建立索引。索引模块是信息采集模块和信息检索模块的“桥梁”,其工作主要是建立索引数据库。网页建立完索引才能被后续流程使用。设计良好的索引可以加快搜索速度,能够更加准确地进行网页定位,从而减少计算开销。在这里,针对求职帮助信息的主题搜索,我们将使用Lucene系统的索引技术。Lucene是一个开放源代码的全文检索引擎的工具包,提供了完整的查询和索引引擎,可以减少经费开支。
2.4 信息检索技术。信息检索功能是搜索引擎体现自己最终价值的重要环节。良好的反应速度、合理的结果集和排序次序都很重要。搜索引擎返回的结果需要根据语义相关性进行排序。主题搜索由于其只包含某个领域的信息,词义明确可以提高结果的相关性。
3 求职帮助主题搜索引擎设计方案
3.1 技术路线。求职帮助主题搜索引擎的研究开发采用如下的技术路线:(1)通过对主题搜索引擎的特点及关键技术的研究,总结出主题搜索引擎相比与通用搜索引擎对硬件要求更低,分类更加细致精确,更新更加及时的优点。(2)通过对Lucene全文索引引擎工具包架构的研究,比较Lucene数据库检索和传统数据库检索的异同。(3)通过对信息采集策略的研究,分析总结出面向求职帮助信息的有效信息采集策略。(4)在分析研究主题搜索引擎关键技术的基础上,针对有效的求职帮助信息采集策略,提出以求职帮助信息为主题的搜索引擎的设计方案并加以实现。
3.2 可行性分析。随着现代技术的蓬勃发展,上述所列举的关键技术在一些大型软件设计中得到了很好的应用,给主题搜索引擎的设计与实现提供了有力的技术支持,证明了这些技术是可行的。随着互联网和学校软件资源的发展,为开发研制收集了大量的免费资源,同时在开发阶段将使用的Lucene架构给出了全部开源工具包。这样,节约了系统开发的经济成本,满足了经济可行性的要求。由于开发这样一个面向求职帮助信息的搜索引擎可以帮助大学毕业生方便、准确、即时的查询相关应聘资料和求职信息,满足了社会可行性的要求。
3.3 创新性。(1)主题搜索引擎保证了对某一领域信息的完全收录与及时更新,避免了搜索时的“噪音”,提高了检索效率。在提供专业信息方面有着通用搜索引擎无法比拟的优势。(2)虽然面向求职的主题搜索已经出现,但是求职帮助信息也很重要,所以面向求职帮助信息的搜索引擎也是必不可少的。(3)用Lucene作为全文检索的工具进行检索,提高了检索效率,增加了系统的灵活性,便于二次开发。
4 结束语
随着互联网上信息资源的不断增加,毕业生通过互联网应聘找工作的人数也呈上升趋势。对于求职者来说,像百度、Google等常用的搜索引擎针对求职招聘这一主题在查全率和查准率方面很难满足其搜索要求,它所查询出来的工作岗位大多是不符条件或是已过期信息。为了得到更高的查全率和查准率,本文在研究主题搜索引擎的基础上,列举了四种面向主题搜索引擎所需要的关键技术包括网页采集技术、网页分析技术、信息索引技术和信息检索技术。并同时提出了面向毕业生求职帮助信息主题搜索引擎的设计方案,相信这无疑对求职主题的搜索引擎产生了不可低估的影响。
参考文献:
[1]孙宏,李戴维,董旭阳,季泽旭.搜索引擎技术与发展综述[J].计算机光盘软件与应用,2012(14)24-26.
[2]杨永斌.油田信息专业搜索引擎的研究与应用[J].计算机光盘软件与应用,2012(12):18.
作者简介:马睿瑄(1986-),女,硕士研究生;朱丽波(1972-),女,副教授,硕导,研究方向:计算机教育。
作者单位:内蒙古师范大学计算机与信息工程学院,呼和浩特 010020
基金项目:内蒙古师范大学2012年度研究生科研创新基金项目(CXJJ12056)。内蒙古师范大学教育发展基金会大学生发明创造基金2012年度资助奖励项目(NSJJ2012-15ZZ-003)。