论文部分内容阅读
随着信息技术的发展,互联网(Internet)在今天已经渗透到人们的日常生活、娱乐、工作和学习等各个方面,越来越多的人在互联网上发布和获取信息.为了有效地检索和利用互联网上的信息,人们研究开发了包括搜索引擎在内的多种信息获取技术,以Google为代表的通用搜索引擎已经成为今天人们在Web上检索信息的主要方式.这类基于关键词检索的搜索引擎在一定程度上满足了互联网用户的信息需求,但是在信息的覆盖率和精确度上还不能满足用户的实际需要.互联网上的信息搜索、抽取问题是互联网迅速发展与普及的过程中一个急待解决的问题,引起了国内外研究人员的广泛兴趣.互联网的无限空间对于用户如何更方便地获取自己真正想要的内容带来了很大困扰.用户迫切需要一种能够根据用户的特点自动组织和调整信息的服务模式,帮助用户得到适应性的信息和服务,即个性化的互联网信息获取服务.该论文包含四个部分内容.第一部分介绍了互联网信息获取技术和个性化技术的总体情况、国内外的研究和应用现状,以及与此相关的重要理论及技术.第二部分综合了多种人工智能的理论和方法,包括半结构化模型理论、启发式搜索方法、机器学习以及信息的智能抽取技术等,对互联网信息抽取问题进行了深入的研究,并提出了一种新的方法.第三部分则在前面研究的基础上,探讨了个性化在互联网信息获取方面的应用,详细介绍了我们研制的两个个性化的互联网信息获取系统:互联网中文信息智能采掘工具和个性化Web主题信息监控系统.第四部分对该论文的工作进行了总结,并提出了进一步研究的方向.该论文主要的工作特色有以下三个方面:1)该文在相关研究成果之上,提出了一种基于路径树学习的信息抽取技术,该技术结合了归纳学习、网页结构分析等多种技术的特点,可以基本满足一定的互联网信息抽取的要求.2)该文提出了一种基于关键词加权重的用户建模技术,能够快速、准确、有效地获取用户的短期和长期的兴趣信息.采用该技术建立的用户模型准确性高、实现简便、易于维护.3)该文介绍了我们研制的两个个性化的互联网信息获取系统:互联网中文信息智能采掘工具和个性化Web主题信息监控系统.互联网中文信息智能采掘工具综合使用了元搜索、用户兴趣建模以及自动文摘等多种技术为用户提供个性化的服务.个性化Web主题信息监控系统则是一个集成了用户建模技术、Spider技术、主题鉴别技术以及全文索引等技术的综合系统.