基于用户搜索—点击数据的关键词抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gaibian000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网服务的发展,搜索引擎、推荐系统等互联网应用越来越深入我们的生活。在这些应用中,关键词在提高对用户搜索意图的理解、改善内容推送的精准度等方面具有非常重要的作用。使用关键词的前提是能够从数据中抽取到大量高质量的关键词,所以研究如何高效地从数据中抽取关键词具有十分重要的意义。关键词主要来源之一的用户搜索-点击数据直接由用户产生,具有很强的随机性和长尾性,而传统的无监督抽取方法过于依赖统计特征和数据的规模,在该问题中抽取效果不佳;有监督抽取方法精准度较高,但需要人工标注训练数据集对模型进行训练,会产生大量人工标注成本。针对以上问题,本文基于UCCM数据集进行研究,使用无监督方法与有监督方法结合的抽取方法,通过自举模板法自动抽取到部分高质量关键词,并使用它们生成训练数据对有监督方法进行训练并完成关键词的抽取。在无监督方法部分,本文采用自举模板法进行抽取,并使用少量人工标记数据训练了一个关键词过滤器对自举模板法进行修正,最终抽取到大量高质量的关键词。在有监督方法部分,本文搭建了一个Bi LSTM-CRF模型进行抽取并使用词性特征与分词特征对模型进行增强。在最终的抽取实验结果中,模板法在测试集中抽取到2546条关键词,深度学习模型抽取到2736条关键词,并使原生标签的召回率提高了5%,该结果表明该算法的抽取质量较高,但相对模板法外延能力较弱。针对上述模型存在的问题,本文提出了一种基于图数据的关键词抽取算法,将一组搜索-点击数据构建成图的形式,并使用基于关系的图卷积网络对图进行标注,使用本文设计的解码方法从图中抽取出关键词,并且使用词性特征和依存关系特征对模型进行增强。最终的统计结果中,该方法抽取到3471条关键词,相对模板法新抽取到2897条关键词,原生标签召回率提高了9.5%,外延性较强。最终的实验结果证明,本文提出的基于图网络的关键词抽取方法,在模板法生成训练数据的基础上能够有效扩大抽取范围,抽取到大量高质量关键词,具有较高的研究价值。
其他文献
随着铁路技术的发展,列车的车速和载重都在不断提高,列车运行的安全问题也受到了越来越多人的关心。车轮作为列车的关键部位之一,它的完整程度直接决定了列车能否安全地行驶,车轮上严重的伤损可能会导致列车在运行中脱轨,威胁列车上乘客的生命安全。因此进行车轮伤损检测方法的研究在保证列车的安全运行中具有十分重要的意义。本文使用声发射技术作为车轮伤损检测方式,针对其容易受到噪声干扰的问题,以特征提取与分析和深度学
学位
神经网络如今在各种机器学习任务中都取得了显著的成功,而神经网络推理,也在生活中得到了广泛的应用。在推理的过程中,用户往往需要提供自己的隐私信息,例如人脸图片,输入记录等,存在数据被收集后滥用的风险。安全多方计算能很好地解决上述问题,从理论上保证数据的安全性。但性能一直是安全多方计算的主要问题,将使推理过程产生极大的延迟,极大地影响用户体验,例如输入预测,长达几秒钟的推理时延是用户根本不能接受的。在
学位
A87区块位于松辽盆地中央坳陷地区,油气资源充足。该区块萨尔图油层和葡萄花油层油水关系和流体性质复杂,存在油层、气层、油水同层和水层以及低电阻率油层和高电阻率水层现象,油水层识别难度大。因此,有必要开展A87区块萨葡油层含泥含钙储层测井评价方法研究。本文利用岩心分析、录井、测井和试油资料,研究了A87区块萨葡油层储层特征和四性关系,得出萨尔图油层储层主要岩性为粉砂岩、钙质粉砂岩、泥质粉砂岩,含泥含
学位
空间引力波探测项目为保证测量平台超静稳工作,对微牛级推进系统提出了“宽、稳、准、快、久”等非常严苛的性能指标。而作为电推进系统中两个主要的执行模块:推力器与阴极,两者的工作状态彼此影响、紧密交织,在微牛级系统中耦合效应更是显著,为保证推力输出符合项目指标,迫切需要探究两者的耦合特性。会切场推力器具有宽范围可调、工作稳定、寿命长等特点作为引项目的备选推力器之一,为增强低流量下工质电离引入微波放电增强
学位
运用直观模型指的是用“画图、列表”等可视化手段“表示”出思考过程、数学知识内涵或问题解决过程的一种方式,是小学生学习数学的重要手段。在计算教学中,教师要正确认识与辩证使用直观模型:通过“计数”直观材料获得正确的计算结果是算法多样化的根本保证;用矩形的面积表示分数乘法有两类不同含义,其一是基于分数意义的直观模型,其二是将分数乘法定义为矩形的面积;直观模型只是数学学习的表征方式之一,随着学生年龄增长应
期刊
高光谱图像(Hyperspectral Image,HSI)因其包含了丰富的光谱信息在遥感和计算机视觉等领域被广泛应用。受硬件条件的限制,高光谱成像系统往往很难同时达到高空间分辨率和高谱间分辨率。因此,高光谱图像超分辨率作为一种提升空间分辨率的后处理方法具有现实意义。本文的研究集中于基于卷积神经网络的高光谱图像超分辨率方法,并从数据和模型先验两个角度提出了两个改进算法。本文研究工作主要包括以下两个
学位
静电雾化是一种通过电场力作用使液体工质破碎雾化的技术。基于静电雾化技术的空间电喷雾推力器极具发展潜力,但基础研究的缺乏限制了其进一步发展。本文对乙醇(牛顿流体)、EMI-BF4(离子液体)及PIB溶液(粘弹性介电液体)三种不同物性工质在高压直流电场作用下的静电喷雾开展实验研究,对比分析工质电导率和粘弹性对电喷雾特性的影响,为电喷雾推进器控制调节、工质选择等方面提供理论基础。首先设计并搭建了一套静电
学位
松辽盆地北部杏南D区块扶余油层地层较厚、底部标志不明显、断层两盘厚度有差异、多个断堑打乱了地层厚度的分布规律,储层含油气预测比较困难。利用现有的钻井、测井单一井点的资料难以实现对于储层含油气性情况的研究,同时也无法满足当前对于精细地质研究的要求。因此,本文以钻、测井资料为基础,对研究区储层的含油气预测方法进行了进一步的研究和探索。本文以油藏地球物理、构造地质学、地震沉积学等理论为指导,首先综合流体
学位
报纸
虽然行人轨迹预测模型在计算机视觉和机器人领域取得了巨大的成功,但其体系结构和训练方案的设计依赖于繁重的人工工作和领域知识,对普通用户不友好。此外,现有的研究忽略了联邦学习场景,未能充分利用具有丰富的实际场景的分布式多源数据集来学习更强大的行人轨迹预测模型。本文弥补了上述缺陷,并提出了ATPFL框架来帮助用户联合多源轨迹数据集来自动设计和训练一个强大的行人轨迹预测模型。ATPFL通过分析和总结现有的
学位