基于文本嵌入的网信项目预评估模型设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jialin5163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,陕西省信息化建设进入全面深化应用阶段,为了响应陕西省信息化规划的要求,需要对政府投资的网络安全和信息化项目(简称“网信项目”)进行统一的生命周期管理和绩效评估,进而规范网信项目管理流程。对于申报的的网信项目,其完整的生命周期一共包括七个阶段,分别是项目申报、项目预评估、项目立项、项目实施、项目验收、项目跟踪检查、项目绩效评估。本文主要研究如何解决网信项目预评估阶段的决策问题。项目预评估是项目生命周期管理的一个重要环节,对申报的网信项目进行科学合理的预评估是后续审批决策的重要参考依据。因此,本文基于“网信项目绩效评估办法研究”课题组提供的网信项目预评估指标体系,建立了一个网信项目预评估模型,该模型可以自动对申报的网信项目进行预评估评分,解决了人工评估的主观性和不可重复性问题,节约了人力成本的同时还提高了项目预评估的客观公正性。本文提出的网信项目预评估模型基于文本嵌入技术实现。使用该模型进行预评估的具体流程为:第一,对模型的原始输入文本进行预处理,输入为网信项目申报书,对其进行中文分词之后再去除停用词;第二,文本向量化,使用文本嵌入算法对预处理过后的文本进行嵌入,将文本类型的数据表示为数字化的特征向量;第三,将后续预测预评估分数的任务转化为一个回归问题,训练一个非线性回归模型,将得到的文本特征向量输入到非线性回归模型中预测预评估分数。本文的主要研究内容如下:(1)本文改进了四个通用的文本嵌入算法。由于通用的文本嵌入算法都是无监督学习算法,这些算法不以任务为导向,得到的文本特征向量只保存了文本本身的结构和语义特征,因此无法保证预评估任务的准确率。为提升文本嵌入的质量,本文使用孪生神经网络对现有的四个文本嵌入算法进行了改进,加入预评估分数作为文本标签信息来进行二次嵌入。使用孪生神经网络进行有监督学习得到的文本特征向量可以保存文本标签中的潜在语义信息,有利于提高预评估的准确率。实验结果也证明了基于孪生神经网络改进的文本嵌入算法的优越性。(2)本文提出了基于文本嵌入的项目预评估模型。该模型使用改进了的文本嵌入算法,通过两次文本嵌入得到优化的文本特征向量。论文将后续的预评估任务视为一个回归问题,使用基于神经网络的非线性回归模型建立文本特征向量和预评估分数之间的非线性关系,训练好的非线性回归模型可以根据输入的文本特征向量输出预测的预评估分数。本文使用提出的项目预评估模型对真实的网信项目进行预评估,预评估结果证明了该模型的可行性和有效性。
其他文献
提问一直以来是课堂教学最常用的策略之一,也是最富影响力的教学艺术(Taba,1984)在英语阅读教学过程中,教师可以通过提问来了解学生对文章的内容理解程度。教师对提问模式的正确使用有利于引起学生的阅读兴趣,提高阅读技能并且养成良好的阅读习惯。目前对高中英语阅读提问模式的相关研究已有很多,但关注教师课堂提问模式的具体使用和实施情况的研究并不多,尤其是不同教龄的教师之间的差异。本文以高中英语阅读提问模
自从上世纪80年代我国决定以加工制造业为经济发展的起点以来,我国迅速改变了原来经济发展较为落后的现状。但是,随着世界金融经济危机的到来,我国以制造加工出口为主要经济
教育部明确提出体育中考要逐年增加分值,达到与语数外同分值的水平,同时针对体育素养的评价和记分等升学评价体系进行深入研究推进。为响应教育部号召,多地开始付诸实际行动,或着手规划当地的体育教育政策。国家对青少年体质健康状况及学校体育的重视,从而进一步推动体育中考的发展。贵阳市在2016年开始启动体育中考改革工作,在2018年两次公开向社会征求意见,通过多次系统内部研讨论证会和中考改革工作专题会议,于2
学位
学位
异构信息网络HIN由于其丰富的语义信息在推荐任务中得到广泛应用。但是,传统的HIN推荐忽略了元路径Meta-path的属性信息,以及不同对象之间的相互影响。如何充分利用Meta-path信息以提升HIN推荐性能成为当前HIN推荐发展的关键难题。本文主要考虑一种特殊的HIN二分网络BN,并构建和实现Top-N推荐。为了更全面地获取用户的偏好信息,本文同时考虑用户-对象的显式和隐式反馈信息以准确挖掘潜
光波在透过毛玻璃、云雾、烟尘以及生物组织等散射介质时,由于散射介质内部折射率的分布不均匀,光波在其内部传输时会发生强散射。然而传统的直接成像技术大多依赖于未被散射的弹道光子,无法解决透过散射介质进行光学成像的问题。此外,现有的散射成像技术比如散斑相关、浴帘效应、光学传输矩阵、波前调制等在透过介质成像时,存在分辨率低、视场和带宽受限等不足。编码孔径相关全息技术是2016年提出的一种新的非相干全息技术
《法苑珠林》是我国现存的篇幅最大、最重要的佛教类书,其中不仅引用大量的佛教经典,还汲取了大量儒道经典以及史书杂记等,而且它所征引的文献时代跨越也较大,主要是从汉代到初唐时期。故《法苑珠林》中存在着非常多的语料,能够为汉语词汇学以及文字学的研究带来很大的帮助。另一方面,《法苑珠林》作为类书,版本繁多,这就造成了大量的异文现象,很多都值得去深入。论文通过对《法苑珠林》中繁复的异文现象进行考察研究,以中
学位
在行人检测中,检测精度不够高和NMS阈值设定困难是要解决的问题。对于检测精度不够高的问题,目前有很多主流的目标检测网络试图改善它,如RCNN系列,SSD系列,YOLO系列等,虽然随着网络结构的改进,目标的检测精度不断提升,但最后的检测精度仍然有很大上升空间。在另一种思路中,后期处理也能改善目标检测精度的问题,如NMS算法、Soft-NMS算法等,然而NMS算法中易出现阈值设定困难问题,如有两个物体
本文以高中生优秀议论文语篇为研究对象,运用语篇学、语用学等相关理论,采用统计分析、描写与解释相结合等方法,对高中生优秀议论文的言语交际结构、语篇结构、修辞特点及衔接手段等进行了考察,这既能够丰富汉语语篇学的研究内容,为其发掘新的研究对象,又有助于把握优秀议论文语篇建构的一些重要元素,为高中议论文写作提供一定的参考。本文共分为四章,具体内容如下:第一章绪论部分主要阐述了本文的选题缘由、研究内容及意义
学位
集成电路是信息技术的核心,在社会经济发展和国家安全领域都扮演着至关重要的角色。在经济全球化的驱动下,为了加快集成电路开发并降低最终成本,大多数公司通常将芯片掩膜生产与制造外包给第三方代工厂,导致供应链无法得到完全控制。攻击者可通过硬件木马的植入实现机密信息窃取、电路功能篡改等目的。因此,开展硬件木马检测技术研究对提高集成电路自主可控、自主可信和保障我国各类信息系统安全具有重要意义。本文课题来源于9