基于非结构化数据的软件编程领域知识图谱的研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:langyagongzi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着互联网技术的快速发展与用户生成内容的急速增长,基于知识图谱的语义搜索已成为大势所趋。知识图谱作为一种新的知识表示方法,以图为组织形式,使用抽象化概念描述真实世界中存在的各种实体以及实体之间的关系,是语义搜索、智能问答、决策支持等智能服务的基础技术之一。当前我国软件编程开发具有巨大的市场潜力,越来越多的人学习软件编程,构建软件编程领域知识图谱有助于学习者梳理知识体系,并为构建领域知识体系结构的查询系统奠定基础。当前软件编程领域存在实体概念词性特殊,缺乏标注语料与成熟的关系类型定义等问题。针对以上问题和挑战,本文在深入研究与分析知识图谱构建、自然语言处理和相关深度学习技术的基础上,围绕软件编程领域知识图谱的构建技术和方法进行研究。首先针对传统命名实体识别算法不能充分提取局部特征的问题,提出了 BACER(BiLSTM-Attention-CRF for Named Entity Recognition)算法模型,在目前主流的 BiLSTM-CRF算法模型的基础之上,引入Attention机制关注文本的词性局部特征,解决了 BiLSTM模型对文本局部特征缺乏关注的问题,将BiLSTM-CRF算法模型的性能提升了 8.54%。在进行关系抽取工作时,考虑到基于依存句法分析的开放式关系抽取准确率较低,本文基于句子文本特征构建多粒度特征集,为每个基于依存句法分析得到的关系三元组分配信任度,通过过滤信任度较低的实体关系进一步优化关系抽取的性能,将关系抽取的准确率提升了 16.96%。最后,本文以Scratch编程语言作为应用样例,构建了 Scratch知识图谱,设计并实现了 Scratch知识查询管理系统。该系统可帮助学习者构建Scratch知识体系,同时对类似软件领域的知识图谱构建提供一定的参考价值。
其他文献
目前,甚低频(Very Low Frequency,VLF)通信受传输条件的限制,存在着可靠性差、通信速率低的不足,必须依托高功率效率的信道编码和高带宽效率的调制技术,完成甚低频通信新体制的设计。将多元低密度奇偶校验(Low-density Parity-check,LDPC)码与连续相位调制(Continuous Phase Modulation,CPM)结合,能够在保证可靠性的同时,进一步提高
随着油气田勘探和开发的不断发展,地质条件复杂的油气田不断发现以及对油田开发经济效益更高的要求,水平井适用范围越来越普遍。水平井测井对比直井有很大的优势,水平井能够极大限度贯穿天然裂缝,增加泄油面积,更有利于井区油田储层的开采。本文以M井区B组致密砂岩储层为研究对象。首先对该井区区域地质概况进行调研和分析,针对测井资料较全的地区,通过水平井水平段与其对应层位的直井段进行测井响应对比分析,经对比发现水
可靠性分析是复杂系统在设计、调试和维护中的一项重要任务,精准的可靠性分析能够帮助有效规避风险和降低损失。本文研究的是存在竞争失效行为的动态系统可靠性。竞争失效行为是指在功能相关系统中,触发元件的本地失效与依赖元件的传播失效在时域上的竞争关系:依赖元件的传播失效先发生,其他系统元件受影响而失效;触发元件的本地失效先发生,依赖元件被隔离,其他系统元件不受影响。在处理这类动态竞争系统时,通常采用组合方法
栓皮栎(Quercus variabilis Bl)是我国最主要的软木资源树种,具有重要的生态价值和经济价值。林木遗传改良是提高生产力和抗病虫害能力的重要途径,将植物基因工程和常规育种相结合,能够加快遗传改良的进程。其中,农杆菌介导的遗传转化是植物转基因强有力的生物技术工具。因此,开展栓皮栎遗传转化体系的研究,对该树种的遗传改良具有重要意义。本研究以栓皮栎未成熟合子胚为外植体诱导体胚发生,开展了细
随着互联网的快速发展,业务软件的功能日益复杂,传统的单体架构和面向服务架构由于耦合度较高、扩展性不足等原因无法满足快速迭代的业务需求。在此背景下,学者和工程师们提出了微服务的架构思想,作为软件架构的最新发展趋势,微服务具备可独立开发部署、高容错、易扩展等特点,能有效缩短软件开发周期,提高产品整体质量。本文提出了一种基于服务网格的微服务解决方案,实现了微服务中平台支撑技术和业务逻辑的解耦,基于该方案
多阶段任务系统是任务含有多个时间连续且不重叠阶段的系统。本论文研究是各阶段系统结构与阶段成功标准均为k-out-of-n多阶段任务系统。这类k-out-of-n多阶段任务系统广泛存在于如航空航天、核电厂、高性能计算系统和无线传感器网络等众多关键领域中,高效准确分析其可靠性对于判断系统是否满足预期的可靠性需求,确定最优化的设计以及操作模式,并对成本和可靠性等系统参数进行权衡至关重要。由于k-out-
太阳能作为一种可再生清洁能源正在得到大力发展,传统的交流汇集并网技术所存在的各种问题:电能质量谐波、系统稳定性不高、线路损耗过大等也慢慢的凸显出来。而光伏直流汇集技术作为一种新兴的光伏电站汇集解决方案,在经济性、能源利用率和系统发电效率方面具有一定的优势。但现阶段光伏直流汇集技术在应用研究中还存在各式各样的技术问题需要解决。本文就光伏直流汇集系统中直流升压结构存在的技术问题进行了一系列的探讨和研究
植物在与病原物长期共同进化过程中形成了一套复杂且高效的免疫系统用来抵御外界病原物的入侵。保卫细胞感应病原物入侵时关闭气孔的主动防御现象被称为气孔免疫,它是植物免疫的重要组成部分。金属硫蛋白(Metallothionein)是一类存在于动植物及微生物中低分子量、富含半胱氨酸、不含芳香氨基酸的金属结合蛋白质,而其是否调节植物免疫还不清楚。本研究对拟南芥金属硫蛋白AtMLP在植物抵抗病原细菌Pseudo
随着“一带一路”战略的稳步建构与持续推进,我国建筑企业迎来了前所未有的发展机遇期。值此背景下,我国主要建筑企业对己身绩效输出及行业整体绩效损益水平的关注,无疑成为业者群体核心竞争实力提升、市场发展活力维续的主要动因。其理论基础在于,绩效管理是人力资源规划的有机组成部分,是将抽象的企业战略规划具体化为指标考核体系管理的关键环节和重要步骤。其现实基础在于,绩效往往通过层层分解企业发展目标,并落实至作为
目前城市基坑往大、深方面发展,传统基坑围护方式已不能满足,尝试采用冻土帷幕作为围护结构,但常规的立井厚壁圆筒冻结设计理论运用于深大基坑时,冻结壁的受力情况会和实际情况相差很大,造成冻结壁设计厚度偏大,因此本文提出多圈薄壁筒结构,并对这种结构在开挖过程中的受力变形规律进行研究。首先,采用理论分析在常规的冻土本构关系和冻结壁厚度确定方法的基础上增加对两圈冻土之间未冻土的受力分析,利用位移连续和应力连续