基于自然语言处理的检索系统设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yoyoyu2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着目前信息时代的飞速扩张发展,信息资源,数据资源是一切的根本,信息检索的使用范围越来越庞大且不可或缺。检索系统可以解决传统的搜索方法中部分错查,误查,漏查,无法给用户提供针对性的检索服务等问题。为了可以针对公司内部数据和内部员工提供更加个性化的检索服务,可以缓解检索效果不佳所带给用户的不便,减少用户的检索耗时,提升用户的使用体验,设计并实现了检索系统。系统在离线段,首先从网络上爬取,收集金融、保险领域的文本数据并进行清洗、标注,训练得到分词模型,命名实体识别模型和关键词提取模型,并训练出词向量模型。然后使用之前的搜索记录训练用户意图识别模型。并且根据每次的搜索结果,计算资源和用户的相关性得分。同时根据内容的热度、质量、评价、上传时间等多个维度对资源质量进行打分排序,构建倒排索引表。系统在在线端,根据用户输入的文本,通过图神经网络模型得到分词结果,命名实体结果,关键词结果。将分词结果转为词向量表示,结合命名实体结果和关键词结果,输入长短期记忆网络得到用户意图偏好。最后根据命名实体结果和关键词结果得到初步的候选结果,然后按照用户意图和资源相关性得分,对候选结果进行重排序,展示最终结果,实现检索系统的在线功能。检索系统实现了自然语言处理模块,离线评分模块和资源排序模块,并且在功能测试和性能测试方面均达到了设计要求,可以对公司内部人员,提供更加具有针对性,个性化的检索服务。图神经网络模型相比较于传统的双向长短期记忆网络加条件随机场的模型,在分词,命名实体识别和关键词提取上整体的精确率,召回率和F1值都有着2到3个百分点的提升。检索系统返回结果的精确率在90.21%,召回率在89.08%,F1值在89.64%。
其他文献
在休闲鞋智能化成型生产线的施胶工艺中,选择合适的施胶工艺参数是保证施胶质量的关键。然而由于施胶过程的复杂性,多种工艺参数相互作用共同对施胶质量产生影响。现有施胶工艺参数的调整仍然依赖操作工人在反复试验中得出的经验值,这一现状造成施胶质量的不稳定。针对这一问题,本文选取施胶宽度和施胶厚度作为衡量施胶质量的定量指标,以对施胶质量影响最大的5个工艺参数为优化对象,将神经网络、遗传算法等智能优化算法应用到
随着伺服系统在工业制造装备中应用越来越广,人们对其控制精度提出了更高的要求。减小伺服系统跟踪误差是提高控制精度的主要方法之一,又因为转动惯量是一个影响伺服系统动态性能且不稳定的伺服系统参数,因此本文建立了能够反映转动惯量变化的伺服系统变参数传递函数模型,提出了基于该模型的跟踪误差在线补偿方法。首先,本文对伺服系统进行逐环路分析,建立了伺服系统整体模型并对其进行适当简化,同时分析了转动惯量随负载质量
2019年12月,住房和城乡建设部、国家发展改革委发布《房屋建筑和市政基础设施项目工程总承包管理办法》(建市规[2019]12号),并自2020年3月1日起施行,标志着我国工程总承包管理迈入新台阶。在此基础上加快对EPC总承包模式的研究探索,更具有积极的现实意义。本文首先通过文献研究法,较为全面的介绍了EPC总承包管理模式、特点、差异,重点是与传统房建施工的差异性、优势。随后通过理论和案例分析,从
为了给薄片再生放大提供一个优良的种子激光,获得高单脉冲能量,高平均功率的短脉冲或超短脉冲的激光输出,本文提出了种子源加光纤放大的方案,采用分布式反馈激光器(Distributed Feedback Laser,DFB laser)作为种子源,掺镱光纤作为放大器进行光放大的技术方案,即主振荡功率放大(Master Oscillator Power Amplifier,MOPA)技术,与薄片放大系统光
现代系统正在往复杂方向发展,一旦发生故障会造成巨大的损失,因此人们迫切的需要可靠的系统.“容错”原是计算机系统设计技术中的一个概念,容错是容忍故障的简称.在一个系统中,更多需要考虑的是针对执行器和传感器的容错控制.一个系统能够容错的必要条件是系统中存在着冗余,即对执行器的容错需要有执行驱动冗余、对传感器的容错则需要存在传感测量冗余.容错控制系统设计的关键是如何使用这些冗余来达到容错目的.研究容错控
复杂曲面零件广泛应用在航空航天、运输、能源等重要领域。机器人具有智能化、操作空间大、柔性好等优势,因此采用机器人实现复杂曲面零件的加工成为了目前的研究热点。然而,面向多品种、小批量、非结构化复杂曲面零件如航空发动机叶片、燃气轮机叶片等,机器人离线编程困难、配置周期长。结合虚拟夹具的机器人动觉示教可实现人手操作轨迹向机器人迁移,克服机器人离线编程效率低、示教学习精度差等不足。然而,虚拟夹具辅助机器人
本论文旨在总结分析当前持久性有机污染物在长江流域内的分布现状,探讨不同环境介质以及不同地区内持久性有机污染物的分布的差异性与规律性,并对于持久性有机污染物对城市人群的健康影响进行评估,为进一步控制污染以及维护人们健康提供参考。总结文献检索平台上相关文献,进行总结归纳,针对采样检测数据进一步进行环境与健康风险评价,提出典型持久性有机污染物的分布规律,计算相关风险值进行评估。基于知网、万方、Web O
随着毫米波辐射测量技术的不断发展成熟,被动毫米波极化测量技术作为目标信息获取的一种有效方法受到国内外学者的广泛关注。毫米波具有全天候的特性,能够穿透衣服、云雾等等,在人体安检、军事目标探测、火灾消防、地形测量等方面发挥着重要作用。目前,通过被动毫米波极化测量可以对目标进行金属与非金属材料分类,获取目标的属类信息,是除可见光、红外和雷达之外的又一重要探测手段,具有重要的科研价值和国防战略意义。本文首
攻击者很容易利用计算机网络不可或缺的网络基础设施——DNS域名系统,构建DNS隐蔽通道进行隐蔽通信。恶意利用DNS隐蔽通道的攻击行为给企业和个人造成严重的信息安全威胁。当前,DNS隐蔽通道检测工具仍停留在实验室阶段,其使用范围大多是局域网且安装部署复杂。本文旨在设计一个普通用户可以使用的DNS隐蔽通道检测系统来保障个人计算机不受DNS隐蔽通道威胁。DNS隐蔽通道检测系统基于MVC设计模式,包含四个
学位