基于个性化搜索的网页特征提取相关技术的研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户：lss81

【摘要】

：

随着网络信息量成爆炸式地增长,人们要在信息海洋中找寻自己需要的信息是十分困难的。这些信息大多数是以网页文本的形式存放的,它们种类繁杂,缺乏组织,现有的以搜索引擎为代

【作者】

：

褚锋

【机构】

：

山东科技大学

【出处】

：

山东科技大学

【发表日期】

：

2009年期

【关键词】

：

中文信息处理特征抽取分词词典权重计算网页特征描述个性化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络信息量成爆炸式地增长,人们要在信息海洋中找寻自己需要的信息是十分困难的。这些信息大多数是以网页文本的形式存放的,它们种类繁杂,缺乏组织,现有的以搜索引擎为代表的网络信息系统难以为每个用户都提供满意的服务。如何将搜集的信息资源合理组织,如何从大量的信息中,针对用户不同的兴趣需求,返回用户真正需要的信息,从而实现个性化搜索,成为目前研究的重要课题。所谓个性化搜索指的是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的搜索。为了准确地表示用户兴趣,应该对用户访问过并且感兴趣的网页特征进行准确地描述。即希望能用简洁而有代表性的特征描述网页内容。因此,对于网页信息描述的准确与否将直接影响用户兴趣描述的准确与否,这是个性化服务的核心问题。然而,对于网页信息的描述方法却很少有人系统地研究,本文针对网页特征的描述方法进行了探讨,主要进行了以下三个方面的研究工作:①基于用户兴趣的网页正文的提取。目前网页的形式多种多样,包含了大量与网页主题无关的内容,如广告、图片、无关链接等,这些与网页主题无关的内容会严重影响搜索引擎等Web服务的效果。本文通过对网页HTML的语法分析,在基于HTML元素的网页正文提取算法基础上,基于启发式规则对网页正文提取方法进行了改进,得到了基于超链接到无网页正文提取算法,测试结果表明这种方法能有效地得到大部分HTML网页的正文部分。②基于兴趣词典的网页分词技术。传统的机械分词的词典数据量庞大,分词系统的负荷很大。针对网络用户的兴趣不同,本文利用兴趣词典这一新概念,通过对不同用户浏览过的网页集进行分词处理,分别为每个用户建立不同的兴趣词典。该词典存放于客户端,从而将网页关键词提取的工作由服务器端转移到客户端,节省了系统开支,并且通过实验表明基于用户兴趣词典的网页关键词提取在保持分词精度的同时可以增强系统的实时性,降低了网页描述的维度。③本文以矢量空间模型为Web文本的表示方法,在网页标签分析的基础上,在网页描述时结合了网页正文中“多词长句”特征,对常用的词语权重计算公式TF-IDF公式进行了改进,并将改进后的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了系统的聚类精度。本文介绍的网页特征描述技术通过个性化搜索引擎实验系统(My Personal SearchEngine,下文简称MyPSE)测试,测试结果证明,利用本文介绍的方法得到的网页特征向量可以较为准确的描述网页特征,为MyPSE系统中用户兴趣建模和个性化搜索提供了良好的支持。

其他文献

基于尝试优先策略的频繁导出子图挖掘算法

随着包括化学情报学、生物信息学、计算机视觉、视频索引、文本检索以及Web分析在内的广泛应用,图作为一种一般数据结构在复杂结构和它们之间相互作用建模中变得越来越重要。

学位

图挖掘频繁导出子图图同构数据挖掘图论深度优先策略

基于笔画距离的手写文档检索算法的研究

笔式交互是多通道交互（Multi-Model Interaction,MMI）的一种重要形态，笔式交互允许用户通过自由勾画、手势等交互方式实现自然高效的交互，逐渐成为人机交互研究的热点。人们对笔

学位

笔画距离手写文档检索智能人机交互归一化预处理最小近邻优先

基于SOA的数字城市信息交换平台研究

在信息技术飞速发展的今天,“数字城市”已成为当今信息时代城市发展的方向,是信息时代的城市形态。目前,世界各国都在积极开展“数字城市”研究和建设,我国许多城市也在进行

学位

信息交换信息共享数字城市面向服务的架构Web服务

动态可重组的组件集成框架研究与实现

根据测评系统的功能用户可扩展和可定制的需求,结合基于组件的软件开发的方法,提出了测评系统的动态可重组的组件集成框架,支持无限级菜单自动生成和菜单名称自定义。设计了

学位

组件集成测评系统无限可扩展软件可定制

数字化校园建设中异构数据集成技术的研究

随着计算机、通信和网络技术的发展，以及全球化、国际化给全世界带来的巨大而深远的影响，整个社会的信息化、数字化进程大大加快。高校在不同时期建立的封闭系统，形成了“信息孤

学位

数字化校园信息系统XML技术异构数据集成技术

基于GPU并行串匹配算法的研究

串匹配是计算机研究领域的一个经典问题,是网络内容分析系统的关键技术之一。随着互联网的普及和发展,海量信息的处理和新的应用需求对串匹配技术提出了新的挑战。在现实生活

学位

统一计算设备架构单指令多线程并行串匹配算法

多云存储网关可靠性技术研究

当今科技飞速发展,信息化普及程度不断提高,云计算的日益普及使得越来越多的企业将数据放入远程云存储端。然而,现今市场上的云存储存在机密性、可用性、完整性方面的问题,公

学位

云存储云网关数据安全多云存储

基于J2EE多层架构技术的电子商务研究与应用

近年来,电子商务的飞速发展,J2EE技术日益成熟,J2EE平台成为当今电子商务的最佳解决方案。重量级的J2EE框架暴露的缺点越来越明显,轻量级J2EE框架风头正劲,然而轻量级框架种

学位

多层架构电子商务关系数据库WEB应用开发

机器人分布计算框架中的实时性保证机制的研究与实现

当前,机器人已广泛应用在工业领域,并逐步向家用、服务业、军事等领域扩展。但是在向多领域深层次的扩展过程中,机器人技术的研究与发展面临着巨大的挑战。尤其是在具有多个

学位

机器人分布计算框架ROSDDS实时性中间件

基于hadoop的APT建模与流量预处理技术研究与实现

高级持续性威胁(APT)是指精通复杂技术的入侵者利用多种入侵向量(如网络、物理和欺诈),借助丰富资源创建机会实现自己目的的行为。近年来,APT事件频频发生,例如RSA SecurID事

学位

APTUML建模NetFlowHadoop采集聚合

基于个性化搜索的网页特征提取相关技术的研究

与本文相关的学术论文