面向Web个性化服务的网页分类技术

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ccmjacky20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一个广泛分布的全球信息服务中心,万维网集中了海量的信息,其中大多数是以网页文本的形式存放的。这些文本信息种类繁杂,缺乏组织,现有的以搜索引擎为代表的网络信息系统难以为每个用户都提供满意的服务。个性化技术就是在这种情况下应运而生的。它根据用户兴趣关注点,提供为用户定制的服务,提高其对信息服务的满意度。在万维网环境下,基于网页内容的Web个性化系统有着广阔的应用前景。网页自动分类是数据挖掘的重要研究内容,是自然语言处理技术的重要应用领域。网页分类按照网页主题来自动划分其所属类别,是组织和管理网页信息的有力手段,是Web信息检索和Web个性化服务的重要基础。本文研究在Web个性化服务系统环境中的网页分类相关技术,主要研究内容及取得成果如下:首先,提出了一种综合性网页特征词加权方法。该方法在网页标签分析的基础上,针对中文网络环境,在网页描述时结合了中文词长特征,提高了网页描述的准确性,为获得好的分类结果奠定了基础。其次,针对大规模训练网页集,提出了聚类树支持向量机(CT-SVM)分类方法。该方法通过层次聚类对训练集进行了有效的缩减,可以在保证分类效果的同时大幅度减小支持向量机在大规模训练集上的时间开销。此外,SHM是一种新近提出的文本相似度计算方法,它使用知网词汇语义计算特征词条间相似性,并采用二部图最大权匹配方法计算文本间相似度。本文巧妙地采用了SHM来设计支持向量机核函数,可以较好的改善支持向量机分类器的分类性能。最后,论文在实际网页集上做了必要的验证实验,得到了较为满意的分类效果,验证了上述方法的有效性。论文研究提出的上述方法,在Web个性化服务、知识抽取、新闻分发、以及邮件过滤和信息监管等技术研究领域有一定的学术和应用参考价值。
其他文献
信息化社会在十几年的建设过程中,有了飞速的发展,但同时也出现了一些问题。当前,各地都在争上电子政务、建数字城市,但是许多地方、部门各自为政,各建系统,缺乏统一的规划和标准,造
对于某一个重点学科来说,国内不同的高校或研究机构都有一定的人员在研究,无疑高校之间的人员交流对于减少重复研究、促进学科发展具有重要的意义。但是受制于地域和经费,同
大批量定制生产方式实现了用户个性化和大批量生产低成本的有机结合,如何快速准确地反映客户需求,进行高效简便的产品配置设计是实现大批量定制生产方式的核心内容。然而,现
随着我国经济的快速发展,对煤炭的需求也越来越大。而煤炭行业是诸多能源行业当中的高危行业,其开采一直受到很多条件的限制,其中地下水是威胁煤矿安全生产的重要因素。最近,多起
苹果公司在Macworld 2007上发布的智能手机iPhone是多媒体与通信技术迅速发展带给我们生活美好礼物的一个典型例子,然而与之相对应的是当手持设备越来越像一个智能娱乐计算机
随着计算机网络技术的发展,信息系统的安全性问题变得越来越重要。数字签名作为一种具有消息完整性认证、可鉴别性、抗抵赖性和加密功能的技术在计算机网络安全通信中占有重要
聚类分析作为一种重要的非指导学习方法,在多媒体数据管理中得到越来越多的应用,如对图像进行聚类预处理,有助于发现图像之间的语义相似性、减少检索代价等。但是,由于图像语义与
随着计算机技术的飞速发展,身份认证已经成为一个十分重要的研究课题。本文对现有的身份认证机制及技术进行了分析和研究,利用PAM(可插拔认证模块)和安全U盘技术,设计开发了基于
随着Internet基础架构的发展以及音视频压缩技术的进步,基于Internet的流媒体信息交互平台受到了越来越广泛的重视。目前,利用流媒体技术进行远程网络教学已经逐渐成为流媒体
随着虚拟现实技术的发展,面对越来越复杂的场景模型和有限的图形绘制处理能力,为了提高实时绘制速度,满足交互式应用需求,研究人员探究出一些在图像真实度和帧速率之间折衷的方法