网络空间的人物信息聚合系统的设计与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:maxine1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网核心技术的快速升级和持续增长的网络用户规模,网络空间中存在着大量的数据信息。这些信息涉及到社会生活的各个方面,但人作为所有社会活动的参与者,不难得出人物信息在互联网信息中的所占比例以及重要程度。人们希望从网络空间中获得特定人物信息,但是面对庞大的网络信息量,用户检索信息的难度大大增加。因此设计一个系统,从网络空间中爬取用户可能关注的信息,对这些信息进行聚合并生成不同人物实体的聚合结果,正确、迅速、整体地将用户真正关心的信息展示给他们。本论文根据用户实际需要对人物信息聚合系统的功能和非功能需求进行分析,对系统体系结构和子模块功能进行设计,深入研究网络人物信息聚合的实际技术解决方法,实现了一个网络空间的人物信息聚合系统,具体完成工作如下:结合搜索引擎设计多线程爬虫对用户关注的人物信息网址进行采集,通过基于网页结构和统计特征的正文抽取方法构建同名人物的网页信息库。利用词袋模型、TF-IDF算法结合N元模型提取人物网页的不同特征信息,通过使用向量空间模型对每个网页信息文本构建文本特征向量。对比分析文本聚类中的相关聚类方法,评估近邻传播算法和凝聚层次聚类算法在网页人物信息文本中的聚类效果,通过结合轮廓系数设计了一种网络人物信息聚类方法,实现了对同名人物网页集合的聚合。利用Dj ango框架和Adminlte框架实现了将不同功能模块集成到系统中,用户可以通过多种形式与系统进行交互或查看、调整聚合结果,同时使用Echarts等前端技术完成了操作的可视化实现。本文在上述研究工作的基础上设计并实现了网络空间的人物信息聚合系统,帮助用户快速、准确地得到感兴趣的人物网页集合。并对系统进行了相应的功能测试和非功能性测试,结果表明系统能够接收不同数据源输入,并通过使用本文设计的网络人物信息聚类算法完成人物信息的聚合,聚合结果达到了预期的效果。因此该系统可以满足用户获取特定人物网页信息集合的需要并提供人物信息管理、聚合结果调整等功能,具有较好的实用价值。
其他文献
我国重点煤矿受水威胁的煤炭储量大约250亿t,其中受地表水体(江、河、湖、海等)、松散含水层、基岩含水层等水体威胁的煤炭储量近100亿t。仅就受河流影响来看,就有200多个矿
随着国家新农村建设的逐步推进,农业基础设施建设和农业产业化建设需要大量信贷资金支持,凸显了农村金融的重要性和改革的滞后性。作为农村经济的重要组成部分,农村金融应为新农
目的 将PET的功能代谢图像与CT、MRI的解剖图像进行比较与融合。方法  2 1例癫痫患者和 5 3例肿瘤或疑为肿瘤患者进行了PET检查。患者的CT、MRI资料通过扫描仪输入计算机。
中国商业电影都有语言时尚化取向,而在人物刻画上,冯小刚、周星驰、吴宇森、宁浩等导演的商业片都注意到了人物对白的时尚化取向。或是有政治调侃、戏谑讽刺的平民娱乐精神,
从分析衢州市职业教育的现状入手,提出了围绕地方经济特色发展职业教育的对策。
<正> 一、医学模式发晨的必然趋势西方医学自文艺复兴运动后,开始转入实验医学阶段。众多富于革新思想和探索精神的生物学者、医学家、甚至艺术家开始从不同角度分门别类地研
人类是符号的动物,人类的交际都是以一定的符号为媒介在一定的规则指导下进行的,因此交际就是符号活动.作为符号的语言或者非语言符号中的能指和所指之间的关系是任意的,又是
城市内湖是城市重要的水体系统,城市内湖旅游主要是依据城市内湖的自然和人文资源开展的旅游活动。城市内湖旅游地是一种人文与自然要素相结合的综合型旅游地,因此它对旅游者
股票融资交易——包括场内融资与场外配资——是证券市场加杠杆的交易模式,也因其给市场主体带来的个别风险与系统性风险而成为金融监管的对象。1934至1971年,美国历时30多年
研究背景及意义:中医药疗法诊疗精神分裂症的优势在于首发病的干预,目前国际上尚无首发精神分裂症的中医临床诊疗指南,临床工作中诊治标准不统一,导致运用中医药方法诊治首发