基于文本相似度计算的专利与技术需求的匹配研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:shanghairenxuchenhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
技术转移是实现创新的重要手段之一,在“互联网+”的环境下,技术转移信息服务搭建了技术需求方和技术供给方之间的桥梁。虽然目前的一些在线的技术交易平台提供了技术需求登记的功能模块,但是需要技术拥有方主动检索技术需求,联系技术需求方,技术供需方的信息不对称问题仍然没有得到解决。为了在大规模的专利中,面向技术需求实现专利和技术需求的匹配,识别有技术转移潜力的专利,以提高技术转移信息服务水平,本文通过调研相关研究成果,在前人基础上做了以下研究。
  通过调研技术需求和专利的文本结构特征,确定特征抽取方案:在专利摘要以及技术需求的需求描述中抽取动宾结构(Action-Object,简称AO)作为技术特征,在专利标题、摘要以及技术需求的标题、需求描述中抽取关键词特征,以反映文本的整体特征。
  通过补充构建专业领域词典,对中文专利摘要和中文技术需求的需求描述部分进行分词、词性标注与依存句法分析,抽取专利和技术需求的AO结构。清洗AO结构,并基于语义TRIZ将专利AO结构标注为解决的技术问题、实现的技术功能、达到的技术效果,将技术需求AO结构标注为面临的技术问题、想要实现的技术功能、想要达到的技术效果。以挖掘专利和技术需求的技术信息特征,用AO结构的词组袋表示专利和技术需求文本。基于《知网》和《同义词词林》两种中文知识词典综合计算Action之间的相似度、Object之间的相似度、AO结构之间的相似度。在专利/技术需求文本的向量空间模型基础上反映特征之间的语义关系,以计算专利和技术需求的文本相似度。
  对专利标题、摘要和技术需求标题、需求描述的文本进行分词、词性筛选、去停,基于TF-IDF筛选重要关键词,构建向量空间模型计算专利和技术需求的文本相似度。
  基于语义TRIZ和基于关键词两种方法计算的文本相似度结果分别赋权综合计算专利和技术需求的相似度。
  为了验证综合方法计算相似度的有效性,本研究以“新能源汽车/电动汽车电池”领域为研究对象,在IncoPat和在线技术交易网站上获取专利和技术需求数据。利用本研究提出方法,基于语义TRIZ计算专利和技术需求的相似度,基于关键词计算专利和技术需求的相似度,综合计算专利和技术需求的相似度,并进行对比分析,证明综合计算方法的优越性。并且利用本论文提出的专利与技术需求的匹配方法应用于具体的场景中,即面向技术需求,识别、推荐有技术转移潜力的专利。
其他文献
随着信息技术的发展,信息呈现爆炸式增长,信息素质已经成为信息社会公民的一项基本能力。高等教育人才培养目标的变化、“互联网+教育”的驱动,都要求信息素质教育融入新型教学理念和教学技术,创新教学内容和教学形式,提高教学效果。  翻转课堂作为一项新型教学技术,在对学生批判性思维能力、语言表达能力、合作学习能力、创新能力等综合能力的培养,提高学生学习兴趣和主动性,提升教学效果和教学质量等方面作用突出。而且
学位
当前中国正处于全面建成小康社会的决胜阶段,新型城镇化发展遭遇瓶颈。通过培育特色小镇,振兴小城镇经济,提高人民收入和生活水平,能够破解城乡二元化结构,同时推进区域协调发展以及乡村振兴;迈入“十三五”后,中国经济进入从高速增长转为中高速增长的新常态阶段,只有通过产业转型升级才能实现创新发展,特色小镇通过创新创业,使旧有的城镇存量重新散发活力,形成了新产业、新态势,是产业转型升级与发展的新路径。然而,目
学位
本研究以特色科学文化资源为研究对象,以院士信息资源建设为研究主体,以“国内外特色科学文化资源研究综述——调研国内外代表性机构院士信息建设案例,总结院士信息资源建设通用模式——对比国内外代表性机构院士信息建设案例各自优劣势,总结院士信息资源建设优化模式——中国科学院院士文库建设研究及SWOT分析,总结完善院士文库建设的策略——提出对中国图书馆特色科学文化资源可持续建设的建议”为研究主线,将理论与实践
学位
目前科技论文资源的十分巨大,难以处理,如何对海量数据进行分析、挖掘以及有效组织成为了一个难题。识别论文中并列关系知识单元,即对全文中在结构上或内容上呈并列关系的文本以及其描述的知识种类进行识别抽取,不仅能实现科技论文的重点概要预览,同时也可以实现文中核心知识内容的有效组织,为知识组织、知识抽取等工作提供可靠的数据基础。  本研究以科技论文为研究对象,目标是识别并提取单文档中的核心知识内容,利用文本
学位
信息化社会知识爆炸式增长造成了严重的知识分散问题,对决策的效率效果造成了极大影响。知识晶炼理论及其应用可以将分散的知识进行集中,可极大提高和改善决策效率效果。  本文梳理了国内外知识晶炼理论的演化发展,并通过冰山双循环模型的启发,从物理原理这个源头出发结合工作生活事例,探索提出知识晶炼双循环理论。通过对冰山模型的发展分析,原始的冰山模型被引申为胜任力模型等,本文将原始冰山模型进一步细分出正冰山模型
学位
随着大数据时代的到来,科学研究的模式和方法也在不断创新和发展,数据驱动开始成为科研领域重要的研究范式。科技文献作为科研成果发布的重要形式,海量的信息、数据、知识隐藏于科技文献中,面对从大量科技文献中发现有用的信息、知识和数据的挑战,迫切需要自动化的工具和方法帮助人们从文献中快速、准确的获取真正需要的信息;同时,随着众多学科领域综合集成研究方法的应用,基于大量文献中数据和数值信息的综合集成研究不断深
学位
信息技术的日益发展使得包括人文与社会科学领域在内的各个学科的研究资料逐渐被数字化,大量数据库与相关平台得以构建与运营,这极大地方便了研究者从网络上获取研究资料并开展研究,人文学科研究者采用技术手法从大规模的文献资料中发现新的研究问题并取得研究成果,人文学科有向数字人文发展的趋势。在数字学术环境中,人文学者利用数字资源开展研究,图书馆与信息专业人员对数字资源进行分类和组织,对知识进行描述、揭示、存储
在第四范式科研模式下,对科学数据这类已有科研成果的分析和利用,成为实现科技创新的重要途径。在科研大数据的背景下,科研人员对领域知识点的需求也在不断增强。人工智能的发展也是建立在对人类已有知识的学习、利用再创新基础之上。而领域知识图谱是揭示某一领域知识的语义网络,它能够有效支持科研创新、知识点获取和知识推理等。  本文从科研人员的领域知识点需求出发,通过领域知识图谱的构建,获取领域知识点,满足科研人
文本语义匹配是文本分析中的一项核心问题,旨在从大量文本中筛选出与指定文本在语义上相近的文本集合。目前已有大量面向同源文本的语义匹配研究,这些研究均建立在大规模匹配数据集的基础之上。但在真实场景下,文本语义匹配任务的研究对象往往是异源文本数据,不仅没有可用的匹配数据集,甚至连不同类型文本之间的样本量也极不均衡,所以无法使用以往的方法进行建模。  本研究以科技论文和专利两种科技文献为研究对象,针对无匹
学位
随着科研事业的发展,关于同一主题的研究文献越来越多,基于文献的研究集成(Document-based Research Synthesis)因能系统整合关于同一主题的研究成果,获得综合性结论,而在社会科学领域得到日益广泛的发展和应用。另一方面,研究集成为循证实践和跨领域的集成研究提供了基础。在循证实践中,研究集成能将多个原始研究进系统性整合,从而为实践者提供最佳证据;同时,其作为一种知识集成方法,
学位