中文搜索引擎的个性化服务研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wcjlb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
1994年,万维网(World Wide Web)出现。万维网极大地方便了人们的工作,它的信息广泛的可访问性以及开放性极大的鼓励了人们的创作积极性,同时也给信息检索领域带来了新的发展机遇和技术挑战。搜索引擎是一个网络应用软件,从Web用户角度看,它能根据用户提交的查询词、短语或者一句话,返回一个可能与用户查询相关的网页列表,供用户进一步地判断和查询。当前,搜索引擎面临以下技术难点:多源异构数据类型、搜索内容的全面性、搜索的准确性、个性化检索等。个性化搜索是未来搜索技术发展的一个重要方向,是机器服务人类,人机和谐交互的一个重要发展。本文系统的研究了中文搜索引擎的工作原理、实现技术以及个性化模型。深入地分析了中文搜索引擎的核心技术:中文分词、机器爬虫、索引的建立与倒排序文件的生成、查询优化以及查询结果的排序等。通过对中文分词系统的改进,加入混合词典机制,提高了中文分词的准确性。分析Web信息挖掘技术与信息检索技术的关系,通过对用户使用中文搜索引擎的查询习惯、访问频率,浏览网页等信息资源进行挖掘,提取用户的使用特征以及兴趣爱好,建立用户的个性化兴趣模型。根据用户个性化兴趣模型,给出了一个个性化中文搜索引擎模型。旨在结合Web信息挖掘提高中文搜索引擎的查准率,为用户提供个性化的信息检索服务。本文所做的具体工作如下:(1)深入研究中文搜索引擎的核心技术实现细节:网页信息搜集、对搜集到的原始信息预处理、建立索引以及倒排文件、提供查询服务。(2)改进中文分词系统,提出一种实用的提高分词准确率的方法。(3)分析Web信息挖掘技术与信息检索技术的关系,研究用户个性化模型的建立与更新,提出基于对用户使用搜索引擎的行为和习惯等信息进行挖掘建立和更新用户个性模型的方法。(4)结合本文所做的研究,给出了一个个性化中文搜索引擎模型。
其他文献
对自然现象的真实模拟,由于能够增添虚拟现实真实感,更好地烘托环境气氛,因此历来是人们在影视特技、广告、游戏中一种视觉要求。气体属于流体研究范畴,为了逼真地模拟真实世
近些年来,随着网络的快速发展,传统网络的结构变得越来越臃肿,其弊端表现的越来越明显。一方面,传统网络设备的控制功能和报文转发功能是紧密集成的,这种方式极大地增加了网
AO幅面平台彩色扫描仪使用多CCD头进行图像采集并通过图像拼接来完成对大幅面原稿的扫描。多头拼接扫描的机械结构,对扫描精度的影响很大,而高精度的多CCD头拼接调校又是一件
在软件运行发生失效后,如何进行有效的故障定位是当今软件故障诊断领域的研究热点。虽然目前软件故障定位技术已有一定经验可以借鉴,但究竟如何做到将多种方法综合,以实现高
分布式数据存储以及处理技术的发展,使得可较为廉价的从海量数据中发掘潜在价值。当前数据挖掘基础技术取得长足进展,基本满足了在多种场景下的需求。但当前系统间集成度低,
在计算机的虚拟场景中,全局光照明很好的为用户提供了物体的各种重要信息。例如,物体大小,表面颜色,阴影部分以及物体相互之间的位置关系等,在很大程度上提高了计算机生成图像的真
随着网络、多媒体技术的快速发展,网络学习正逐渐成为重要的研究和应用领域,与之相适应的网络教育资源建设也日益受到人们的重视。但目前网络教育资源库大多处于孤立分散状态
大规模群体动画一直是虚拟现实技术研究的热点之一。群体动画技术广泛应用于游戏、电影动漫、建筑规划以及火灾等灾难现场模拟与辅助指挥。通过群体行为的真实模拟,可以辅助
模式识别研究的进程间接地推动了线上智能教育系统的发展。在针对数学学习的线上智能判卷这一应用中,由于答案有效的判分点往往在数学公式上,如何准确有效地识别出学生的手写
P4P网络全称“电信运营商主动参与P2P网络”,P2P过于强调“对等”,结点之间的交换完全是随机的,优先选择物理距离近的信息源,本地化文件片段交换就会使通信成本大大地降低,这