面向个性化服务的网页特征描述方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:by090706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet 技术的发展为人们提供了方便快捷的信息获取手段。面对网络上的海量信息,人们有时往往会感到无所适从。如何为每个用户提供快捷准确,满足个人实际需要的信息已成为众多业内人士越来越关注的问题,个性化服务的概念应运而生。所谓个性化服务指的是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。为了准确地表示用户兴趣,应该对用户访问过并且感兴趣的网页特征进行准确地描述。即希望能用简洁而有代表性的特征描述网页内容。因此,对于网页信息描述的准确与否将直接影响用户兴趣描述的准确与否,这是个性化服务的核心问题。然而,对于网页信息的描述方法却很少有人系统地研究,本文针对网页特征的描述方法作了研究,主要侧重于以下三个方面: (一)网页特征词的抽取范围。通过选定特定计算机领域的网页,分析其网页的组织结构,针对这类网页的特征,运用特征片技术,确定将网页的标题、黑体字、首段和末段作为能表征网页内容的特征片进行抽取。不再象传统抽取特征方法那样,只考虑标题、摘要等因素。利用抽取出的特征片经过分词处理后,形成了本地字典,其中包含了该领域词汇以及一些常用词。该字典的形成为该领域网页特征词的获取提供了参考。减少了分词等工作量。(二)网页特征词的精化。主要指特征词的规范化和消歧。在实现规范化处理时,运用了本体论思想建立模型,摈弃了传统的将词语所有可能的表达方式都写入关键词特征向量中的做法,建立了本体论字典,其中收录了计算机领域行业标准词及其等价的同义词,并用链表体现了它们之间的关系,其中还收录了一些通用词语及其同义词。对词语消歧处理时,则利用扩展本体论思想建立模型,包含了词语的全信息,为消歧工作的开展提供了可靠结构存储。并针对该领域建立了搭配知识库,作为消歧的依据。(三)网页特征词的权重计算。通过分析现有的权重计算方法,指出其不足,并结合信息论的知识,针对网页这种特殊文本,对原方法作了改进,提出了对加强标题词权重的改进计算方法。通过实验验证,本文研究的方法运用于个性化服务系统后,取得了较好的信息推荐效果。
其他文献
随着智能无人车系统(Intelligent Unmanned Vehicle,IUV)的发展,无人车的在线感知能力日益受到重视,障碍物检测能力则是无人车在线感知能力的重要组成部分。因为视觉传感器具有
数据中心作为云计算的核心支撑部分,数据中心的性能直接决定了云计算服务的质量。数据中心网络作为数据中心中的通信桥梁,其负载正变得越来越重,并开始影响数据中心的性能。组播
网络信息安全问题是当今计算机网络迅速发展所带来的迫切需要解决的问题,防火墙仍然是首要的不可替代的解决办法.传统防火墙在网络发展初期规模还不大的情况下是有效的,但随
从大学班级心理健康委员的职责、角色定位及工作开展等进行分析,发现主要有无所事事型、工作冒失型、自身障碍型等数种角色定位不当类型,在工作开展中对于哪些能做哪些不能逾
数据库中的知识发现是当前涉及人工智能、数据库等学科的一门相当活跃的研究领域。数据挖掘是从数据中提取人们感兴趣的、潜在的、可用的知识,并表示成用户可理解的形式。关联
传统公钥密码学是基于目录的,其认证框架--公钥基础设施(PKI)的树状层次结构导致系统异常复杂且成本过高。于是人们寻求简化公钥认证框架的方法。本文详细探讨了基于双线性对的
我国在入世谈判中,虽然在教育方面未作正式的承诺,但加入WTO以后,仍然存在着“接轨 ”的问题.总的来说,就是更新观念,深化教育改革,纠正和克服高等教育现实中存在的种种不适
当前,高性能计算机与高性能微处理器飞速发展,片上互连网络已经成为一个研究热点。片上互连网络负责实现片上处理器核之间的互连与通信,其体系结构对高性能微处理器的整体性
随着高性能计算的不断发展,传统的C/S计算模式已经不能满足处理海量数据的要求。只有通过分布式系统,协调利用网络上闲置的处理机资源,共同完成处理任务,才能实现真正的高性
视觉追踪技术能对认识人们的意图、需要、认知过程等产生巨大的作用,能被应用于许许多多的方面,如人机交互(残疾人辅助)、心理学(认知研究)、工业商业(广告分析)等等。按照是否