面向美食的垂直搜索引擎的设计与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:mingge911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着这些年来互联网技术的发展,网络上面的信息越来越烦杂,信息量越来越大。面对着网络上面的海量数据,想要从中寻找到自己想要的信息,也变得困难起来。为了解决互联网用户信息检索的迫切需要,搜索引擎应运而生。我们常用的搜索引擎如谷歌、百度等叫做通用搜索引擎,用户可以通过输入关键词在网络中查询到拥有该关键词的信息。但是通用搜索引擎的搜索结果缺乏针对性,搜索结果多但是有用信息少。为了为用户提供更好的更有效率的检索体验,垂直搜索引擎应运而生。垂直搜索引擎是针对特定需求的用户执行搜索功能的搜索引擎,它的查询效率更高,查询效果更好。垂直搜索引擎是专门针对于某一领域的搜索引擎,查询结果都是在该领域中包含搜索关键字的信息,为检索用户节省了在通用搜索引擎中筛选无关信息所浪费的大量时间。现如今,在互联网上的垂直搜索引擎五花八门,其中针对音乐、图片、新闻和购物的垂直搜索引擎比较多,针对美食的比较少。但是随着现如今人们的生活水平的提高,却有越来越多的人不知道每天要吃什么、去哪里吃、如何健康的吃,一个面向美食的垂直搜索引擎能够帮助人们解决这些问题。面向美食的垂直搜索引擎能够帮用户筛选互联网中的与美食无关的信息,用户即使输入一个看似与美食无关的词语,也可以在其中检索到各种该词语与美食相关的推荐、菜谱和餐厅等信息,如搜索“冬天”,将查询到各种与冬天有关的美食信息。本文将介绍一个针对于美食领域的垂直搜索引擎的研究与实现的全过程。其中包括对网络数据的获取和对获取数据的处理、对索引的研究以及最后对垂直搜索引擎系统的设计与实现。在数据的获取和处理中,将使用Heritrix制作网络爬虫爬取互联网中的数据,Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源[1]。然后使用正则表达式和HTMLParser提取网页内容,通过ICTCLAS和IKAnalyzer进行中文分词的研究,之后还要进行去重、词频统计和排序等数据的研究和处理。在索引的创建方面,需要研究Lucene和Solr,Solr是在Lucene的基础上对Lucene的进一步封装,能够提高索引的效率。在最后的系统创建部分,将使用Spring+Struts+Hibernate框架,在数据库方面,将使用开源的关系型数据库MySQL。
其他文献
电视纪录片是取材于真实的生活内容,通过电视摄影的手法,将事情经过完整地记录,并经由后期电子设备的处理,最终在电视台播出的电视节目。纪录片始终强调真实性、有效性、启发
报纸新闻评论是媒介新闻评论中存在时间最长的新闻评论形式,担任着重要的意见领袖角色。报纸新闻评论的发展一直比较平稳,但是当网络时代来临的时候开始遭遇冲击并逐渐发生变
2012年是极端气候现象频发的一年,北半球尤为明显,主要表现为热浪、干旱、洪水和低温。冰火两重天极寒:低温暴雪造成欧洲600余人死亡 人们常说瑞雪丰年,可在2012年初的欧亚大陆,“
<正> 在刑事诉讼中,程序公正是立法者在程序设计、司法者在程序操作过程中所要实现的社会正义,它体现着程序的内在价值,因而为刑事诉讼的最高价值目标。案件移送方式作为检察
<正> 《图书馆情报学概论》([日]津田良成编,楚日辉、毕汉忠译。科学技术文献出版社1986年版)提纲挈领地论述了图书馆情报学的目的、性质和对象,图书馆情报学专业教育概况及
本文阐述了政府信息消费与电子政务信息资源开发利用的关系,探讨了提高政府机构信息消费能力的措施,提出了引导社会公众消费政府信息的策略。
一、课标解读本节内容选自人教版地理教科书七年级上册第二章“陆地和海洋”第一节,主要达成以下两条课程标准要求。(1)运用地图和数据说出地球表面海、陆所占比例,描述海陆分布
<正> 有些反应物料在反应过程中容易产生泡沫,如不能及时排除,则泡沫会越来越多,以致溢出设备造成物料损失和发生危险。因此,需要采用有效措施将泡沫消除,例如采用消沫剂或搅
大型电视活动能起到较好的效果,归功于电视导演的统筹艺术,即电视导演能够将大型活动科学地分为几部分,对整个活动进行宏观调控,使各项工作更有效率,最终达成完美的效果。
老年人体育锻炼是我国全民健身计划的重要组成部分。本文针对沈阳市北陵公园老年人晨练情况进行调查访谈,了解该公园晨练运动开展的情况、老年人对体育锻炼的了解、影响老年