基于智能体的个性化互联网信息搜集系统

被引量 : 0次 | 上传用户:huangjh9246
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为满足用户对高质量互联网信息的需求,个性化的互联网信息搜集成为了研究的热点。在对互联网信息搜集的原理和方法进行研究的基础上,提出了一种基于智能体(Agent)技术的个性化互联网信息采集模型,该模型综合利用了元搜索引擎、全文搜索引擎和目录式搜索引擎在信息搜集方面各自的优势。模型通过树型目录和智能体建立和维护用户特征描述(User Profile),能够较好地完成个性化信息搜集任务。针对信息采集Agent涉及到的关键技术进行改进和创新:加权VSM(Vector Space Model) 相关性判定算法更精确地量化Web页面与主题的相关程度;主题式Robot爬行算法使得传统的爬行算法更有针对性和可行性;文档选择算法新的实现改善了另一种Web信息搜集方法――元搜索的表现,使它能从众多搜索结果中选出最符合用户需求的文档。给出基于智能体(Agent)的个性化互联网信息搜集系统的实现方案,对该方案的具体实现进行测试分析,数据证明该系统在信息推荐效果、信息查准率、系统可扩展性以及界面友好性等方面的表现令人满意。由于课题的复杂性,元搜索的文档选择算法和用户特征描述需要更高效精确的设计和实现,主题式Robot爬行算法需要精确的数学推导证明其顺着某一页面能够爬行到质量最好的主题页面,并且整个爬行过程随着采集链接层数的增加快速收敛。
其他文献
<正>教学目标1.认识常用的面积单位“平方厘米”、“平方分米”、“平方米”,初步形成这些单位的实际大小观念。2.经历面积单位统一的过程,体会统一面积单
元数据是电子文件管理的重要工具,元数据方案管理是电子文件中心系统的重要功能。本文概述了基于综合档案馆建设的电子文件中心对元数据方案的管理需求,探讨了在多立档单位、
几年农业徘徊,突出了农业问题最终靠科学解决的紧迫感。科技兴农的新观念、新思路和新特点,反映了新形势下科技兴农实施战略的根本转变。
19世纪30年代末,审计委员会应公司监管的发展要求首次出现在美国,之后并没有得到进一步发展,直到19世纪70年代初才因为“水门事件”再次得到人们的关注。在1972年,美国首次通
通过梳理分析2001—2016期间在中国知网发表的667篇文献,发现国内时间管理倾向研究以相关性研究为主,内容主要涉及时间管理倾向与学业、身心健康、人格特征、拖延行为以及家庭
本文主要论述了福斯特的生态马克思主义给予我们的启示。这些启示择其要者有:人类急切需要一种理论来指导自己从生态危机中走出来,这一理论只能是马克思主义的生态世界观;马
结合生产实践,介绍了一种通过将最新的卫星遥感正射影像资料与上一轮数字线划图(DLG)数据进行套合的技术路线。利用这种方法能够对1∶10 000基础测绘地形图进行全要素的更新
新基础教育实验正在迅速推开,其显著特点是“把课堂还给学生”,其思想内涵在于“还语文教学以本色”。在课堂教学改革实践中,紧紧围绕“听、说、读、写”四大要素,以“读”为主线
中西方教育模式在考核的目标和功能、教育的方法和效果上存在着明显的差异。它们是中西方两种价值观和社会体制在教育上的反映。我国社会体制的重大变革呼唤着我国教育追求的
目的探讨医院尿路感染病原菌的分布及耐药现状,指导医师合理选择抗菌药物,提高尿路感染的临床治愈率。方法采集2012年1-12月尿路感染患者尿液标本,对其进行病原菌分离培养、