基于Map-Reduce和Trie树的搜索需求识别研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:yigeyongbao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据量爆炸式增长的互联网时代,人们同时面临着机遇和挑战。一方面人们在不断地从大数据金矿中挖掘出有用的信息,另一方面又可能面对大量的Web冗余信息束手无策。而搜索引擎作为人们最常用的信息检索工具,在帮助人们从互联网中找到所需信息的同时,也承受着数据增长带来的极大负担。目前由于搜索引擎的索引数据正变得越来越庞大,其查询的工作量正变得日益繁重,同时,搜索引擎所查询到的绝大多数信息都是与用户需求无关的。如果搜索引擎在发起搜索之前就能预测用户的搜索需求,就能为用户提供体验更好的搜索服务。通过搜索引擎对用户搜索需求进行实时分析,不仅能为用户提供更加个性化的搜索结果,同时也可以省略很多不必要的计算。于是搜索引擎的用户搜索需求成了国内外学者们重点研究的领域。要完成对用户需求的预判,必须对用户的搜索词进行识别,这种识别往往需要借助一些日志挖掘的手段。但是现在的搜索日志数据量都在TB级别,在单机上难以实现。本文针对大规模数据计算的特点,提出了构建需求识别模板的Paratemp策略。该策略借助Map-Reduce技术,通过对搜索日志的训练从分布式集群上挖掘出具有代表性的分类模板,从而得到能识别用户搜索需求的模式。同时本文借鉴关联规则挖掘中的置信度和支持度变量,提出了针对模板的筛选标准。通过筛选的模板可以作为分类搜索需求的支持依据。在成功提取用户搜索模板后,为了达到识别搜索需求的目的,需要一套高效的自然语言算法来对这些模板加以利用。本文设计了Tempaser识别算法,利用Trie树空间换时间的思想对搜索词进行解析,最终实现了搜索需求的识别。最后的实验证明了基于Map-Reduce和Trie树的搜索需求识别具有正确性和高效性。文章的结尾对本次研究进行了总结和展望。
其他文献
在供应链成员间实行信息共享,是实现供应链高效、协调运行的关键所在。但是实践表明,信息共享过程中往往伴随着信息泄露问题,会严重影响供应链成员间共享市场信息的积极性、降低供应链上下游企业合作的紧密程度,甚至削弱供应链整体运行效率。因此,研究如何在实现信息共享的同时,缓解信息泄露对供应链造成的负面影响、保证共享信息的私有性以及供应链各方成员的利益,极具现实意义。本文将供应链中信息接收方的行为模式,即在接
在美术专业教学中,通常片面强调作为绘画基本功的造型技能训练,来成就专业美术人才的培养甚至只为了适应当前院校的应试方式,这种模式化训练势必造就模式化的思维方式。始于
随着知识经济时代的到来,知识管理已成为现代企业管理的中心。知识管理系统作为企业实施知识管理的工具和平台,能有效地促进和支持企业的知识管理。面对日益激烈的竞争,广大的中
近年来,随着全球化进程加快和中国加入WTO,中国金融市场全面向外资开放,中国金融市场和国际金融市场的关系越来越密切。中国股票市场从1992年成立之初到现在发展迅猛,股权分置改
8月25日上午,由中国美术馆、甘肃省宣传部、甘肃省文联、甘肃省美协主办的“西望敦煌——甘肃美术作品进京展”在中国美术馆拉开帷幕。这是建国以来甘肃美术作品在北京的第一
本文在分析传统人工智能与神经网络信息处理的各自特点的基础之上,指明二者相互结合的必然性,并给出了混合型神经网络专家系统的框架。 Based on the analysis of the respect
本文力求以辩证唯物主义和历史唯物主义为指导,运用文献分析、例证、对比和调查的方法,从大学的要义出发,以论证中国大学自治的合理性。在分析中国大学百年演进历史的基础上,提出基于自治的中国现代大学外部管理体制设想,并构思了合大学内在逻辑和普遍精神的大学内部管理制度。 全文共六章。第一章是导论,阐述了选题和研究的依据、对象和方法,指出了本文研究的理论价值和现实意义。结论是大学自治、学术自由、人文精神
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
在农村电价管理上,要进行一系列的改革,通过这些改革,使农村客户享受和统一服务和电价,有效地遏制各种价外加价等现象,使农村线损大幅度降低。用电管理包括以下主要内容有:营业管理
车间作业调度(JSSP)在企业生产经营活动中占有十分重要的地位。生产调度系统也是CIMS、ERP等系统中的重要组成部分。生产调度位于CIMS体系结构中的中间层,是控制与管理一体化的接合部。向上要给企业经营战略决策层提供决策依据,向下要安排生产加工任务,指导监督控制层的动作。因些,生产调度是实施CIMS的关键。由于车间作业调度问题是一个典型的NP-hard问题,因此受到学术界和工业界的广泛关注。对它