ITED:一种基于链接的主题提取和主题发现系统

来源 :第十九届全国数据库学术会议 | 被引量 : 0次 | 上传用户:hsb1588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网的日益普及与强大,在网络上搜寻所需的信息变得越来越重要了.诸如AltaVista,Hotbot之类的搜索引擎应运而生.典型的搜索引擎是基于文本匹配的,针对用户的查询会返回多个结果,但要从这许多结果中提取出高质量的页面,还需大量的工作.这种发现高质量页面的过程称为主题提取(topicdistillation).本文中借助基于相似度的模型,我们对ITED系统的特征进行了措述:它完全凭借对链接信息的分析,就在主题提取方面取得了很大的改善;它通过关联规则挖掘的方法,克服了HITS算法中对于相似性的扭曲;它将主题发现的过程结合到主题提取中,使用户能够搜索到更多的相关主题;井且,它以可视化的方式显示主题,方便了用户根据自己的需要选择不同的拨索层次。 在将来,除了完善现有的系统功能而外,我们也试图再进一步改善对于相似度的定义,期望可以在一步中得到有代表性的结果,而不是经过若干次的迭代。
其他文献
Data Cube计算是数据仓库和联机分析中一个重要的问题。对多维数据模型来说,多维数组是一个很自然的存储结构。如何在并行环境下,从分片的、压缩的多维数组中计算Data Cube是一
会议
本文讨论了逻辑层上集成XML数据和关系数据,使用XML文档表示多维数据模型,为Web用户提供OLAP服务的技术。该集成技术是基于XML、SOAP和HTTP等Internet标准,能够实现基于Web的异
会议
WWW的迅猛发展使其成为全球信息传递与共享日益重要和最具潜力的资源,如何有效利用这个巨大的信息资源已经成为众多研究者面临的新课题.Web仓储系统使用物化视图方法管理和维
会议
内容摘要:预设和生成是一对统一对立体,课堂教学既需要预设也要生成。在课堂教学中只有充分预设,注重生成,善于捕捉,才能有效发挥学生的主体性,彰显教师个性,提高教学效果。  关键词:预设 生成 课堂教学  福建师范大学余文森教授认为:“没有预设的课堂是不负责任的课堂,而没有生成的课堂是不精彩的课堂”。预设指的是在课堂教学前老师根据班级具体情况对整个教学过程的先期假设,其中包括教学设计、教学内容的组织、
本文介绍了我们所开发的一套简单实用、规模适中、适合我国国情的数据仓库工具集NGDW-1,并用于实际的数据仓库系统的应用开发中。该工具集面向我国的中低端数据仓库应用,具有良
背景:随着社会的发展,人均寿命延长,社会的老龄化问题日趋加剧。老年人的健康状况和生活质量备受关注。目的:了解影响老年人生存质量的几种常见老年病的现状和分布特点。设计
搜索引擎是一种用于帮助Internet用户查询信息的搜索工具,它根据一定的策略在Internet中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信
会议
Web已成为人们获取信息的一个重要途径,由于Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息.为了减轻这个困难,人们开发了许多工具来辅助寻找期望的信
会议
随着我国产业结构调整和优化升级,租格寄售这种新型的商业模式所展现出来的社会效益和经济效益是不可估量,寄售实体店内化妆品销售占据较大份额,成为化妆品流通的又一新兴业
数据仓库系统的特点主要是数据量大、要求查询速度快,用户的查询只关心综合数据,而很少关心细节数据.并行数据仓库系统的存储管理与以往的并行系统存在着很大的差异。由于数
会议