网络新闻中人物识别系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:ch3192530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网技术快速发展,各类信息剧增,互联网上每天有海量信息在生成、传播和存储。作为人的标识之一的人名,在互联网检索中有非常重要的意义。但由于人口巨多,人名数量巨大,使得进行人物相关文章的搜索时,重名现象严重,搜索引擎不能达到预期的效果,返回的内容中包含大量噪声信息,需要用户去进一步的识别、筛选,这就使用户检索信息的难度大大增加。因此如何设计一个系统,能高效识别人物,消除人名歧义,节省用户搜索时间,快速获取目标信息,成为众多研究者比较关注的问题。基于上述分析,本论文的具体研究内容和主要实现工作如下:(1)采用 Scrapy 框架,结合 BeautifulSoup 和 Requests 等工具,利用文档对象模型(Document Object Model,DOM)和 Newspaper 完成了对人物相关新闻网页的获取以及内容的解析与结构化存储工作。(2)将基于规则和基于统计的特征抽取算法相结合,实现对人物特征的抽取和向量化表示。同时对比分析了 K-means、DBSCAN和层次聚类三种典型聚类算法的最终实现效果,根据实验结果最终确定利用层次聚类实现对特征的聚合,完成对新闻中人物的识别。(3)完成了对网络新闻中人物识别系统的设计与实现,包括对需求的调研与分析、对架构的设计与选型、对系统的概要设计与详细设计和对系统的开发与测试。后端使用Django框架将各个模块进行集成。前端使用Vue框架,利用Ant-design等组件实现了前后端的交互和展示功能。系统包括注册登录、网页信息采集、人物特征抽取、人物识别、新闻推荐、信息展示与交互和数据管理七大模块,最终借助F值等指标验证,结果表明系统实现了设计需求,达到了预期效果。本文在上述研究内容和工作的基础上设计并实现了网络新闻中人物识别系统,最后根据对系统的功能和性能测试表明:该系统可以实现对网络新闻的获取、对网络新闻中人物的识别、对结果的结构化展示与管理以及与用户的交互等功能,有较好的实用价值。
其他文献
微博由于其内容传播速度的即时性和传播范围的广泛性积累了大量的用户,成为了热点事件的舆论爆发地与传播地。对于微博的某个突发热点事件来说,在一段时间内会产生大量的社交媒体文本数据,并且这个突发热点事件往往会蕴含若干语义相关的子话题,挖掘出微博蕴含的各个子主题信息对于舆论的正确导向具有重要的意义。但是由于短文本的语义稀疏性问题,主题挖掘或文本聚类等文本挖掘算法的效果会受到一定程度的影响。此外,社交媒体文
随着深度学习的不断发展和语言模型研究的不断成熟,对话系统提供了一种比视窗界面操作更符合普通人习惯的新型人机交互方式,但在现有对话系统中,仍然存在多轮对话中无法联系上下文、无法处理专有名词后面的复杂信息,只能进行日常闲聊无法进行更有价值和意义的聊天。为了使得对话系统能够联系对话历史上下文以及理解专有名词的背景信息。本文主要研究内容如下:(1)提出了一种模型压缩方法,采用预训练参数初始化任务和模块对齐
随着5G网络、物联网的普及应用,无人机、无人驾驶车等新设备的出现,促进了定位技术的广泛研究。其中,基于视距场景下时延与距离线性关系的无线定位技术以其精度高、计算复杂度低、方便部署等优点而被广泛应用。但实际环境中多径和NLOS(non line-of-sight)误差的广泛存在,为时延估计和定位算法都带来了挑战。为了解决多径干扰以及传统时延估计方法精度受限于采样率的问题,针对最大似然时延估计法,本文
随着社会的高速发展,物联网、大数据等技术的不断升级,信息化得到越来越多企业的高度重视,然而在信息量呈指数增长的同时,基础数据的统一、完善显得尤为重要,因此越来越多的企业开始进行主数据治理和主数据系统项目。论文以X公司主数据系统项目为研究背景,结合项目风险管理的理论体系,在国内外风险管理研究的基础上,进行主数据系统项目的风险管理研究,主要内容有:一、简述论文研究的实际项目,即X公司主数据系统项目的项
如今正是互联网高速发展的时代,各项互联网技术层出不穷。物联网技术建立物体与互联网的联系,AI技术促进生活的智能化,大数据技术挖掘数据更深层次的价值。这些技术也标志着未来是“互联网+”的时代[1-2]。因此,新时代下信息的传递显得尤为重要,需要建立在一个稳定可靠的通信系统上。而光纤通信系统无疑能够很好地适用于这些场景。得益于光通信频带宽、损耗低、抗电磁干扰等特点,未来的通信网络发展方向必定是大容量、
网络异常流量检测是抵御恶意攻击、保护网络可用性和隐私安全的重要手段,对于维护网络安全有着至关重要的作用;而基于流量分类的方法是网络异常流量检测任务中的重要方法之一。近年来,基于表征学习的流量分类方法由于无需人为提取特征、检测速度快且在特定环境下表现优异,因此受到了研究者的广泛关注。但是在部署基于表征学习的异常流量监测模型时,单一网络域内面临着数据不足、标注能力不够、难以检测未见过的异常流量、且原始
学位
随着当代互联网技术的不断革新,越来越多的单位使用互联网软件传输机密数据。互联网应用的不断深入和扩展,也为计算机网络带来越来越多的安全隐患。本系统旨在设计并实现匿名、安全的文件传输管理系统,为用户提供好友管理、群组管理、匿名聊天、文件传输等功能。在Tor(The Onion Router,洋葱路由器)网络中,用户借助匿名通信技术,多层加密通信数据,让流量监控无法嗅探到用户数据和用户身份信息,维护文件
相较于传统的在远端云中心进行数据处理的方式,移动边缘计算(Mobile Edge Computing,MEC)通过将计算和存储能力下沉到网络边缘,提供了高带宽低时延的网络环境,从而能够提高时延敏感业务的服务质量。作为MEC的关键使能技术之一,网络功能虚拟化(Network Function Virtualization,NFV)支持将网络功能与底层硬件资源解耦,在统一的物理基础架构之上配置虚拟网络
由于无线通信设备的增长和网络技术的发展,对频率的需求不断增长。为了在有限的频率资源环境中有效地共享频率,应该进行研究以开发频谱共享技术。传统的频谱共享研究依靠中央机构来验证每个频谱共享交易的真实性,缺少安全的频谱共享机制,这容易受到众多的安全威胁。其次,通过频谱感知,或频谱数据库进行的传统频谱共享机制使用效率并不是很高。最后,由于同频道干扰和其他干扰,自私且理性的频谱所有者不愿在没有适当经济补偿的