面向政务服务的自动问答系统研究与实现

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:chinadongfang2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
政务服务网站列举的行政审批事项错综复杂,往往群众有了医疗、住房、教育等方面的问题,需要花费较长时间才能找到相关问题的解决方案。因为对办事流程的不熟悉,群众反映的“问事难”等问题日益突出。如果能构建一个面向政务服务的自动问答系统,那么群众就可以在很短的时间内获得想要询问的政策知识。面向政务服务的自动问答系统构建对群众快速了解政府相关政策知识以及办事流程起着关键重要作用。本文结合办事群众反映的实际需求,研究构建了面向政务服务的自动问答系统。主要工作内容有:1.提出融合多特征问句相似度算法。该算法融合了四种不同的问句特征,包括问句类别特征、问句政务实体词特征、问句句法依存特征以及问句语义特征,并且构建问句分类模型、政务实体词识别模型以及语义模型。实验结果表明,与Word2Vec相似度算法和词频-逆向文档频率(Term Frequency–Inverse Document Frequency,TF-IDF)相似度算法相比,融合多特征问句相似度算法具有较高的准确率。2.提出问题推荐的方法。首先,构建基于用户的协同过滤问题推荐模型。其次,根据用户的行为构建用户画像。再次,提出基于文本排序和逆文档频率的问题关键词提取算法(Textrank-IDF,Tk IDK),并根据问题关键词和主题词构建问题画像。最后,依据用户画像特征和问题画像特征构建基于XGBoost+LR的问题排序模型,将推荐结果进行重新排序。3.构建政务服务知识库。政务服务知识库源数据由二部分组成,第一部分来自于山西政务服务网群众留言较多的问题和答案,第二部分来自于山西政务服务网公示的行政审批事项。将源数据依据不同部门进行分类整理,形成包含问句、问句类型以及问句答案的三元组知识库,共计52508条。实验结果表明,面向政务服务的自动问答系统F1值为0.812,基于用户的协同过滤问题推荐模型均方根误差(Root Mean Square Error,RMSE)达到0.087461,基于XGBoost+LR的问题排序模型AUC值达到0.919,验证了本文方法的可行性。
其他文献
语义分割是计算机视觉领域的基础任务,其作用在于通过对图像进行像素分类来辅助计算机进行场景理解,在现实生活中有着非常广泛的应用。近年来,图像语义分割任务取得突破性进展,以深度学习方法为基础的图像语义分割算法在分割精度和推理延迟上取得空前的进步。但是在大多数应用场景下,图像采集单元采集到的是连续的图像序列,这种序列中蕴含着重要的时空关联信息。直接运用图像语义分割算法对图像序列进行处理将忽略这种联系,带
在石灰石和机制砂生产过程中,伴随着石灰石粉的产生,造成环境污染和资源浪费。工业生产也产生了大量的工业废渣,比如粉煤灰和矿渣;若将石灰石粉等矿物掺合料部分替代水泥,一方面可以充分利用自然资源,减少污染;另一方面可以充分发挥其各自优势,改善混凝土的工作和力学性能。在已有成果基础上,本文在物理试验与数值计算的基础上,对复合石灰石粉混凝土基本力学性能、粘结性能以及小偏心柱的受压性能进行研究。复合石灰石粉混
链路预测是近年来新兴研究课题,是包含数据挖掘,信息科学和复杂网络在内的多个学科的交叉研究要点,在理论研究和实际应用中扮演着越来越重要的角色。近年来,科研人员基于网络结构特征进行了大量预测方法的研究,以深入挖掘网络结构信息,揭示网络演化机理。然而,现有研究成果更倾向于利用端点对之间的传输路径进行预测,鲜少考虑端点在预测中的作用。即便考虑了端点的影响力,也只利用端点度来进行定量研究,导致了节点中蕴含的
加强知识产权保护背景下,涉及实用新型和外观设计专利侵权纠纷日益增多。实用新型专利申请和外观设计专利申请仅通过初步审查即可授权,其法律稳定性较差。专利权评价报告作为补充,对这两类专利是否具备授权条件进行评价,其结论包括认为专利权全部不符合、部分符合、全部符合授权条件三种情况。其中,前两种情形可称为具有负面内容的专利权评价报告。2008年《专利法》将专利权评价报告规定为“作为审理、处理专利侵权纠纷的证
目前,河北省高等学校正处于加快一流大学、一流学科建设,实现内涵式发展的关键环节。作为全省高校发展中的第一梯队,河北省省属高校要从教学、技术、科研领域发掘人才,同时要加强管理、规划、制度领域的人才培养。高校中层干部队伍建设是党的建设和干部队伍建设的重要组成部分。高校中层干部处于高校干部队伍的中间环节,起着上传下达的关键作用,高校顶层设计的办学理念通过他们来推动,高校的发展规划通过他们来实现。高校中层
烷基汞(甲基汞、乙基汞)作为有机汞形态之一,其生理毒性、生物富集性及环境中含量水平较其他有机汞更为突出,且引发了日本水俣病等汞污染事件,是国内外最受关注的有机汞形态。已有研究证实,受人类活动影响较大的自然环境水体有利于汞活化、甲基化和生物累积。国内早期对于烷基汞的研究多集中在土壤与水库沉积物中较高含量水平甲基汞的分布特点及汞甲基化过程机理等问题,对自然环境水体中痕量乃至超痕量水平烷基汞的研究存在检
随着移动互联网的快速发展,越来越多的计算密集型应用程序出现,移动设备对延迟和计算能力的要求越来越高,这驱动了移动边缘计算(MEC)的发展。MEC的主要特点是将移动计算、网络控制和存储推到网络边缘(如基站和接入点),从而协助能力有限的移动设备实现计算密集型和延迟敏感应用。在移动边缘计算领域,任务调度问题一直是研究的热点。当计算任务被调度到不同的边缘服务器时,产生的传输和计算的成本不同,因此,一些已有
教材的难度评价作为教材评价的关键,对我国新课改是具有深远影响的,“统计与概率”章节的内容对于培养学生的“数据分析观念”十分重要。国内大部分的教材比较方法以定性比较法为主,而教材的难度比较更需要定量比较。国内涉及到教材难度比较的文献,很少有通过研究教材的例、习题的难度来反映教材难度的。故本文选择人教版、北师大版、浙教版和华东师大版等四个版本教材在“统计与概率”章节进行教材的难度比较研究,旨在考察这四
现如今油田后期生产出的采出液含水量越来越高,三次采油等驱油方式应用越来越广,以现有的旋流器仅靠离心力来实现采出液的分离变得越来越困难。基于水力旋流分离方法,提出了一种多相耦合分离方法,采用一种在油水混合液中加入第三相介质的方式,利用固体颗粒在旋流器内运动过程中推动部分油滴,增加油滴所受径向力和轴向力,从而促进油水分离,提高旋流器分离性能。基于欧拉-欧拉方法,采用离散相模型(Discrete Pha
中国特色社会主义进入了新时代。中国政治、经济、外交、文化进入了一个崭新、全面、全方位发展的时代。与新时代同步发展,诞生了诸多的文化产业、文化产品和文化元素,中外文化交流活动的层次、规模、主题也越来越丰富多样。文化是政治、经济、社会的集中反映,是现代化发展进程中所表征出来的精神记忆,它深深的烙印在时代的演变中,代表着一个国家或民族的软实力。五千年中华优秀传统文化,不仅具有博大精深的历史意义,而且对每