论文部分内容阅读
伴随着互联网核心技术的快速升级和持续增长的网络用户规模,网络空间中存在着大量的数据信息。这些信息涉及到社会生活的各个方面,但人作为所有社会活动的参与者,不难得出人物信息在互联网信息中的所占比例以及重要程度。人们希望从网络空间中获得特定人物信息,但是面对庞大的网络信息量,用户检索信息的难度大大增加。因此设计一个系统,从网络空间中爬取用户可能关注的信息,对这些信息进行聚合并生成不同人物实体的聚合结果,正确、迅速、整体地将用户真正关心的信息展示给他们。本论文根据用户实际需要对人物信息聚合系统的功能和非功能需求进行分析,对系统体系结构和子模块功能进行设计,深入研究网络人物信息聚合的实际技术解决方法,实现了一个网络空间的人物信息聚合系统,具体完成工作如下:结合搜索引擎设计多线程爬虫对用户关注的人物信息网址进行采集,通过基于网页结构和统计特征的正文抽取方法构建同名人物的网页信息库。利用词袋模型、TF-IDF算法结合N元模型提取人物网页的不同特征信息,通过使用向量空间模型对每个网页信息文本构建文本特征向量。对比分析文本聚类中的相关聚类方法,评估近邻传播算法和凝聚层次聚类算法在网页人物信息文本中的聚类效果,通过结合轮廓系数设计了一种网络人物信息聚类方法,实现了对同名人物网页集合的聚合。利用Dj ango框架和Adminlte框架实现了将不同功能模块集成到系统中,用户可以通过多种形式与系统进行交互或查看、调整聚合结果,同时使用Echarts等前端技术完成了操作的可视化实现。本文在上述研究工作的基础上设计并实现了网络空间的人物信息聚合系统,帮助用户快速、准确地得到感兴趣的人物网页集合。并对系统进行了相应的功能测试和非功能性测试,结果表明系统能够接收不同数据源输入,并通过使用本文设计的网络人物信息聚类算法完成人物信息的聚合,聚合结果达到了预期的效果。因此该系统可以满足用户获取特定人物网页信息集合的需要并提供人物信息管理、聚合结果调整等功能,具有较好的实用价值。