论文部分内容阅读
Internet 技术的发展为人们提供了方便快捷的信息获取手段。面对网络上的海量信息,人们有时往往会感到无所适从。如何为每个用户提供快捷准确,满足个人实际需要的信息已成为众多业内人士越来越关注的问题,个性化服务的概念应运而生。所谓个性化服务指的是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。为了准确地表示用户兴趣,应该对用户访问过并且感兴趣的网页特征进行准确地描述。即希望能用简洁而有代表性的特征描述网页内容。因此,对于网页信息描述的准确与否将直接影响用户兴趣描述的准确与否,这是个性化服务的核心问题。然而,对于网页信息的描述方法却很少有人系统地研究,本文针对网页特征的描述方法作了研究,主要侧重于以下三个方面: (一)网页特征词的抽取范围。通过选定特定计算机领域的网页,分析其网页的组织结构,针对这类网页的特征,运用特征片技术,确定将网页的标题、黑体字、首段和末段作为能表征网页内容的特征片进行抽取。不再象传统抽取特征方法那样,只考虑标题、摘要等因素。利用抽取出的特征片经过分词处理后,形成了本地字典,其中包含了该领域词汇以及一些常用词。该字典的形成为该领域网页特征词的获取提供了参考。减少了分词等工作量。(二)网页特征词的精化。主要指特征词的规范化和消歧。在实现规范化处理时,运用了本体论思想建立模型,摈弃了传统的将词语所有可能的表达方式都写入关键词特征向量中的做法,建立了本体论字典,其中收录了计算机领域行业标准词及其等价的同义词,并用链表体现了它们之间的关系,其中还收录了一些通用词语及其同义词。对词语消歧处理时,则利用扩展本体论思想建立模型,包含了词语的全信息,为消歧工作的开展提供了可靠结构存储。并针对该领域建立了搭配知识库,作为消歧的依据。(三)网页特征词的权重计算。通过分析现有的权重计算方法,指出其不足,并结合信息论的知识,针对网页这种特殊文本,对原方法作了改进,提出了对加强标题词权重的改进计算方法。通过实验验证,本文研究的方法运用于个性化服务系统后,取得了较好的信息推荐效果。