【摘 要】
:
专利作为技术信息的有效载体,记录了科技领域最新的研究成果,对专利的深入挖掘已经成为辅助企业创新的重要手段。传统的专利挖掘主要是对专利中结构化信息的简单统计。然而专
论文部分内容阅读
专利作为技术信息的有效载体,记录了科技领域最新的研究成果,对专利的深入挖掘已经成为辅助企业创新的重要手段。传统的专利挖掘主要是对专利中结构化信息的简单统计。然而专利中真正具有价值的是技术、功效等非结构化信息,构建技术功效矩阵是提取专利中非结构化信息的重要方式,它能揭示专利中隐含的技术创新点和专利所达功效等重要信息。构建技术功效矩阵需要解决两个主要问题,即技术术语的识别与提取,功效短语的识别与提取。传统的术语提取主要以人工为主,随着专利数量的急剧增长,人工提取专利中的非结构化信息难以为继。目前,大多数现有方法主要使用IPC分类号、统计分类,或者利用规则匹法来提取技术术语和功效短语。该类方法提取的结果集比较粗糙,准确率低,容易忽略隐含的语义信息。本文将文本挖掘技术应用于专利信息抽取中,实现了对中文专利技术术语和功效短语的半自动提取。首先综合分析了技术术语和功效短语的特点,将15000篇机器人领域的专利的摘要部分作为实验数据集。接着采用聚类算法对专利进行聚类。最后采用相关算法提取得到技术术语和功效短语。在实验过程中,针对K-means聚类算法初始中心点难以确定的问题,本文采用基于主题模型的K-means算法对专利文本进行聚类。针对技术术语提取准确率较低的情况,首先采用线索词和SAO(Subject-Action-Object,SAO)三元组提取技术术语目标句,接着采用规则和互信息相结合的方式提取技术术语。针对大量功效短语被切分的情况,本文定义了复合功效短语的概念,并采用规则和条件随机场模型相结合的方式提取复合功效短语。实验结果表明上述方法有效提高了技术术语和功效短语提取的准确率。对于提取得到的结果,进行人工过滤去噪,使得技术术语和功效短语的实用性进一步增强。最后成功构建技术功效矩阵,并用Web系统进行了可视化展示,实现了机器人焊接领域的专利地图。
其他文献
目的:糖尿病(Diabetes Mellitus,DM)作为一种代谢性疾病,可对多种组织器官造成慢性损坏并致其功能障碍,糖尿病肾病(diabetic nephropathy,DN)作为其临床最常见的并发症之一,最早期的表现为出现白蛋白尿。本实验通过对早期糖尿病肾病患者的血清中肝细胞因子(Hepatokines):胎球蛋白A(Fetuin-A)、成纤维细胞生长因子21(FGF-21)及促代谢因子(B
随着社会的发展,人们的生活质量不断提高,心血管疾病已经成为严重威胁人类生活质量的疾病。心血管疾病是一种可以预防的常见的死亡病因。目前,心血管疾病的医学影像诊断技术有多种,为了更加清晰的辨别血管内病灶的组成成分,专家可以使用血管内光学相干断层扫描(OCT,Optical Coherence Tomography)图像来检测和表征病变。但是,冠脉OCT图像中的病灶诊断仍需要专家手动标注,这样不仅存在因
蒸汽吞吐是稠油开采的主要方式之一,增产效果非常显著。然而随着吞吐轮次的增加,增产效果逐渐变差,表现为生产井产量下降快,含水上升迅速。为了多轮次吞吐后油藏的进一步开发
在化石能源不断减少与自然环境的污染越发严重的形势下,能源清洁高效利用是关乎国家安全,人类社会发展乃至生存的关键因素。在此背景下,作为清洁能源太阳能的高效利用是实现
随着RFID技术的广泛应用,阅读器密集部署的情况也逐渐增多。在阅读器密集部署的情况下,会加剧RFID阅读器碰撞问题的发生,影响RFID系统的识别率及稳定性。当阅读器数目很大时,
接地网作为电力系统中重要的保护结构,由金属导体焊接而成,以保障接地网所连设备的电位稳定。我国常用扁钢材料做成的接地网导体,在服役过程中需要埋设在地下。在复杂的土壤环境下,接地网导体会持续发生电化学腐蚀,接地网导体截面积减小,导体热稳定性降低,导致接地网的接地性能变弱,不能满足正常工作的要求,继而威胁到电力系统的稳定运行。对接地网进行探测并对探测数据进行分析,是评价接地网腐蚀程度的主要手段。探测方法
人参(Panax ginseng)是五加科人参属,人们常称之为“百草之王”,因其具有珍贵的药用价值成为各国学者研究的热点。人参叶中含有多种有效活性成分,包括皂苷类、黄酮类、生物碱、
研究目的:探究清肠化湿方对溃疡性结肠炎模型小鼠的治疗作用及对炎症小体6的调节作用,并从肠黏膜屏障角度探索清肠化湿方对紧密连接蛋白(Claudin-2、Claudin-5)表达的影响,为
菜心营养丰富,滋味清甜,深受华南地区人民群众的喜爱。低温贮藏菜心可以延长储存时间,不过在贮藏过程中会出现木质化的现象,具体表现为菜茎中空,口感变韧。利用高氧气调包装
细菌和原生动物是海洋微食物网中最重要的微生物类群。原生动物通过摄食将细菌的生物量转化为自身生物量,一方面构成其他浮游生物的食物基础,影响食物网的物质和能量传递;另