基于个性化搜索的网页特征提取相关技术的研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:lss81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息量成爆炸式地增长,人们要在信息海洋中找寻自己需要的信息是十分困难的。这些信息大多数是以网页文本的形式存放的,它们种类繁杂,缺乏组织,现有的以搜索引擎为代表的网络信息系统难以为每个用户都提供满意的服务。如何将搜集的信息资源合理组织,如何从大量的信息中,针对用户不同的兴趣需求,返回用户真正需要的信息,从而实现个性化搜索,成为目前研究的重要课题。所谓个性化搜索指的是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的搜索。为了准确地表示用户兴趣,应该对用户访问过并且感兴趣的网页特征进行准确地描述。即希望能用简洁而有代表性的特征描述网页内容。因此,对于网页信息描述的准确与否将直接影响用户兴趣描述的准确与否,这是个性化服务的核心问题。然而,对于网页信息的描述方法却很少有人系统地研究,本文针对网页特征的描述方法进行了探讨,主要进行了以下三个方面的研究工作:①基于用户兴趣的网页正文的提取。目前网页的形式多种多样,包含了大量与网页主题无关的内容,如广告、图片、无关链接等,这些与网页主题无关的内容会严重影响搜索引擎等Web服务的效果。本文通过对网页HTML的语法分析,在基于HTML元素的网页正文提取算法基础上,基于启发式规则对网页正文提取方法进行了改进,得到了基于超链接到无网页正文提取算法,测试结果表明这种方法能有效地得到大部分HTML网页的正文部分。②基于兴趣词典的网页分词技术。传统的机械分词的词典数据量庞大,分词系统的负荷很大。针对网络用户的兴趣不同,本文利用兴趣词典这一新概念,通过对不同用户浏览过的网页集进行分词处理,分别为每个用户建立不同的兴趣词典。该词典存放于客户端,从而将网页关键词提取的工作由服务器端转移到客户端,节省了系统开支,并且通过实验表明基于用户兴趣词典的网页关键词提取在保持分词精度的同时可以增强系统的实时性,降低了网页描述的维度。③本文以矢量空间模型为Web文本的表示方法,在网页标签分析的基础上,在网页描述时结合了网页正文中“多词长句”特征,对常用的词语权重计算公式TF-IDF公式进行了改进,并将改进后的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了系统的聚类精度。本文介绍的网页特征描述技术通过个性化搜索引擎实验系统(My Personal SearchEngine,下文简称MyPSE)测试,测试结果证明,利用本文介绍的方法得到的网页特征向量可以较为准确的描述网页特征,为MyPSE系统中用户兴趣建模和个性化搜索提供了良好的支持。
其他文献
随着包括化学情报学、生物信息学、计算机视觉、视频索引、文本检索以及Web分析在内的广泛应用,图作为一种一般数据结构在复杂结构和它们之间相互作用建模中变得越来越重要。
笔式交互是多通道交互(Multi-Model Interaction,MMI)的一种重要形态,笔式交互允许用户通过自由勾画、手势等交互方式实现自然高效的交互,逐渐成为人机交互研究的热点。人们对笔
在信息技术飞速发展的今天,“数字城市”已成为当今信息时代城市发展的方向,是信息时代的城市形态。目前,世界各国都在积极开展“数字城市”研究和建设,我国许多城市也在进行
根据测评系统的功能用户可扩展和可定制的需求,结合基于组件的软件开发的方法,提出了测评系统的动态可重组的组件集成框架,支持无限级菜单自动生成和菜单名称自定义。设计了
随着计算机、通信和网络技术的发展,以及全球化、国际化给全世界带来的巨大而深远的影响,整个社会的信息化、数字化进程大大加快。高校在不同时期建立的封闭系统,形成了“信息孤
串匹配是计算机研究领域的一个经典问题,是网络内容分析系统的关键技术之一。随着互联网的普及和发展,海量信息的处理和新的应用需求对串匹配技术提出了新的挑战。在现实生活
当今科技飞速发展,信息化普及程度不断提高,云计算的日益普及使得越来越多的企业将数据放入远程云存储端。然而,现今市场上的云存储存在机密性、可用性、完整性方面的问题,公
近年来,电子商务的飞速发展,J2EE技术日益成熟,J2EE平台成为当今电子商务的最佳解决方案。重量级的J2EE框架暴露的缺点越来越明显,轻量级J2EE框架风头正劲,然而轻量级框架种
当前,机器人已广泛应用在工业领域,并逐步向家用、服务业、军事等领域扩展。但是在向多领域深层次的扩展过程中,机器人技术的研究与发展面临着巨大的挑战。尤其是在具有多个
高级持续性威胁(APT)是指精通复杂技术的入侵者利用多种入侵向量(如网络、物理和欺诈),借助丰富资源创建机会实现自己目的的行为。近年来,APT事件频频发生,例如RSA SecurID事