搜索引擎核心词提取系统设计与实现

被引量 : 5次 | 上传用户:tjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文选题来源于国内某著名互联网公司搜索引擎团队的搜索引擎核心词提取系统。索引系统作为搜索引擎的核心系统之一,需要处理海量的互联网信息,但是信息的高重复度浪费了大量的系统资源。为了解决这一问题,需要在索引系统中添加索引信息排重系统,通过比对信息文本的核心词来实现排重功能。本论文的主要工作是索引信息排重系统中核心词提取子系统的设计与实现,该子系统的目的是能够准确、快速提取信息文本中的核心词汇,供索引信息排重系统使用,进而达到索引信息排重的目的。论文阐述了搜索引擎核心词提取系统对于企业应用的价值和意义。介绍了搜索引擎核心词提取系统相关技术,包括搜索引擎技术、中文分词技术、模式匹配技术以及Linux系统开发技术;对搜索引擎核心词提取系统进行了需求分析,提出了基于中文分词和模式匹配技术的核心词提取方案;设计了系统的架构和功能模块;最终实现了该系统。本论文设计、实现的搜索引擎核心词提取系统主要应用于索引信息排重系统,还能将其扩展应用于文章相似度计算、网页相似度计算以及新闻相关词提取等。目前搜索引擎核心词提取系统已经应用于该互联网公司的搜索引擎中。该系统使得无线爱问搜索引擎有了更好的用户体验,主要体现在相同的存储容量下存储的信息内容更加丰富,而且搜索结果中重复信息明显减少。
其他文献
目的:观察降脂消斑片对鹌鹑动脉粥样硬化(AS)模型主动脉及冠状动脉粥样硬化斑块的影响。方法:采用单纯高脂饲料喂养方法复制鹌鹑AS模型。分别给予降脂消斑片高、中、低剂量及
关汉卿的杂剧极为关注女性的生存状态和人生际遇,为人们描绘了千姿百态的女性形象。他笔下的女性群体分为三类:“辣妹”组合类型,柔中有刚类型和软弱卑屈类型。关汉卿在理解
目的:使用双源CT对冠状动脉斑块进行无创评估,并与冠状动脉造影结果相比较,探讨其在冠心病诊断上的优点及不足。方法:48例疑诊冠心病患者,使用双源CT进行冠状动脉成像,了解冠
为了降低寄存器功耗而不损失处理器性能,提出一种基于读写队列的多体寄存器文件结构(multi-bank register file,MBRF)。该结构使用多个寄存器体来分担多端口的访问压力,并且
目的:探讨大学生不同自尊水平对应对方式的影响。方法:使用量表法对312名大学生的自尊水平和应对方式之间的关系进行了研究。结果:大学生总体上趋向于选择问题解决、求助等成
<正>2013年6月11日17时38分,中国"神舟"号系列飞船之一、也是中国第五艘搭载太空人的飞船——神舟十号,搭载三名宇航员成功发射,在轨飞行15天,并首次开展我国航天员太空授课
<正>转化顽童是班主任的一项极富挑战性的工作,但是,细细体味,其中也有无穷的乐趣。正如罗素所说,任何一个从事少年教育工作的人,到最后都会比较喜欢有时做点坏事、捣捣蛋的
期刊
日本的邮政事业涉及公共服务、金融、社会保障等诸多经济领域,其邮政机构——日本邮政公社兼营邮递、储蓄、保险三大业务,目前是日本,也是世界最大的金融机构,因而日本小泉内
目前我国企业的内部控制普遍存在观念和方法陈旧,制度、机制不健全等问题,已影响到企业的正常运作和长远发展。本文结合我国企业内部控制的实际情况,提出了改进与创新内部控