基于机器学习分类算法的专利质量评估研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:chen0507
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在上一个十年,中国的企业、科研机构和高等院校创造了专利数量上的不平凡,在即将到来的下一个十年,我们期望着他们可以加大研发方面的投入,推动中国的专利质量升级,使中国进一步变成专利强国。从专利大国到专利强国,显然提升专利的转化率是一个重要突破口。而一个专利能否进行转化,主要和专利自身质量高低有关,高质量的专利是专利进行转化的起点。目前,中国资产评估协会颁布了《专利资产评估指导意见》,意见中规定可以使用成本法、市场法和收益法来对专利质量进行评估,而三种不同的专利质量评估方法,也就意味着三种不同的结论,这也就表明了目前缺乏科学统一的专利质量评估方法。本文使用机器学习分类算法K-近邻、逻辑回归、支持向量机、随机森林、Ada Boost、GBDT、XGBoost、Voting应用于2003年至2015年中国芯片行业专利数据,通过比较不同算法构建模型的准确率、精确率、召回率、F1值和AUC值来找到最优的专利质量评估模型。首先,将在incopat专利数据库上采集的数据进行缺失值的删除与填充,重复值与异常值的删除。其次,在进行特征选择时,使用了相关性分析、多重共线性检验以及主成分分析,删除了简单同族个数、被引证次数、IPC数量等7个字段专利数据,保留剩下的13个字段专利数据作为特征变量。再次,在建模之前,对实验数据进行了SMOTE过采样保持正负样本比例平衡并对实验数据进行归一化处理。从次,使用五折交叉验证结合Grid Search网格搜索的方式寻找各种算法的最优超参数并依次建模比较准确率、精确率、召回率、F1值和AUC值。最后,选取了分类效果最好的Ada Boost、随机森林和XGBoost进行了Voting聚合,使得构建的新模型的准确率和F1值达到了其他算法达不到的高度。除此之外,本文还能在此基础上,对识别结果进行深入剖析,挖掘出影响专利质量高低的四个重要特征变量——家族被引证次数、权利要求数量、INPADOC同族个数和文献页数,为专利申请者撰写专利申请提供了新思路。
其他文献
局域表面等离激元共振(Localized Surface Plasmon Resonance,LSPR)吸收特性是纳米颗粒独特的光学性质,也是当今纳米光学领域的热门研究方向之一。LSPR能够增强纳米颗粒在可见及近红外范围光吸收、发光和光热转换,在光电通讯、光声成像和光热治疗等领域具有重要的应用价值。传统的具有LSPR性质的材料一般为贵金属纳米材料,其内秉的高载流子浓度决定了LSPR通常出现在可见光
学位
随着物联网、大数据、人工智能、5G等技术快速发展,开发低成本、自驱动、多功能的电子器件是这些领域的必然发展趋势。光电探测器件由于其将光信号转换成电信号输出特点,被广泛应用于成像、传感探测、检测等微电子行业。铁电薄膜材料具有介电调谐、储能、电卡制冷、光伏等多种应用功能,可以被用作开发新型多功能光电探测器的潜在材料。本文通过采用溶胶-凝胶法在Pt(111)/Ti Ox/Si O2/Si(100)衬底上
学位
我国是木材消费大国,木材市场需求缺口巨大,如何高效率地开发和利用原木已成为当下人们关注的焦点。目前,木材粗加工的多片锯拉条环节中主要以传统机器加工结构为主,利用安装不同间距多片锯的拉条机来完成木板裁切。传统木板拉条方法是通过人工识别木板的宽度,再利用红外激光比对后完成木板裁切。这种方式效率较低,受主观意识及人工熟练程度影响较大,成品率相对较低,导致木材浪费,且人工成本较高。为了提高企业生产效率、降
学位
随着集成电路的集成度越来越高,器件的特征尺寸也随之不断缩小,逐渐接近其物理极限。将光子学器件与成熟的微电子技术相结合,实现单片光电集成是突破限制的有效途径之一,其关键课题在于开发与集成电路工艺兼容的高效、稳定的硅基光源。另一方面,为了突破太阳能电池的Shockley-Queisser理论极限,科学家们提出可以在太阳能电池中添加上下转换层,以拓宽太阳电池的光谱响应,减少吸收损耗。探索基于稀土离子掺杂
学位
据世界卫生组织报道,全球每年有180万至270万毒蛇咬伤患者,其中死亡8.1万至13.8万人,造成永久性残疾40万人。大多数的医疗机构缺乏蛇伤救治的经验,容易出现误诊甚至漏诊,严重者危及病人生命。目前毒蛇咬伤诊断方法主要依靠医生的临床诊疗经验。为提高毒蛇咬伤辅助诊断水平,本文通过收集和整理蛇伤病人临床病历资料,建立包含文本和图像的多模态蛇伤数据集,对数据进行预处理,使用机器学习方法对毒蛇咬伤辅助诊
学位
甘蔗制成的蔗糖是我国食糖的主要来源,蔗糖业的发展直接关乎我国数千万蔗农的生计。甘蔗质检是蔗糖生产自动化流水线的关键环节,当前质检是依靠人工的传统方式。这种方式会存在人为主观因素和环境客观因素的影响,同时在短暂的蔗糖榨季内低下的人工质检效率将会带来高昂的时间和人力成本。因此,本文尝试取代传统人工质检方式,将基于深度学习的目标检测技术应用于甘蔗质检阶段,对甘蔗杂叶的检测进行研究。本文的主要研究内容如下
学位
在对比分析财经与非财经专业基金经理的投资风格和技能的基础上,尝试解释后者流行的原因。研究发现,就投资风格而言,财经专业经理人擅长利用系统性风险,而非财经专业经理人偏重非系统性风险。就投资技能而言,财经专业经理人能够获取更高的风险调整后的超额收益,而且他们的基金业绩排名更稳定;而非财经专业经理人风险调整前原始收益较高,这可能与他们逆市场周期的任职时点选择有关。结论表明系统化、专业化的财经知识教育具有
期刊
近年来,摩擦纳米发电机(triboelectric nanogenerator,TENG)在有效收集低频海洋波浪能转化为电能方面表现出独特的性能,成为发展新型分布式可持续能源的潜力技术。由于TENG的输出功率仍较低,为进一步提高发电机功率,常与传统的电磁发电机(electromagnetic generator,EMG)构建混合型发电系统。但TENG与EMG的工作原理不同,输出特性也截然相反,TE
学位
早期对乳酸菌发酵的研究主要用于延长食品保质期和改善风味,近年来集中于其对酚类物质的生物转化以提高食品基质的功能活性。目前已有报道证明乳酸菌发酵会改变酚类物质组成,但由于基质和菌株的复杂与多样性,其对乳酸发酵转化多酚的机制还不明确。百香果皮作为果汁加工后的副产物,富含酚酸以及糖苷类黄酮,研究表明类黄酮苷元比其相应的糖苷形式更具抗氧化和消化酶抑制活性。本研究通过对具有产β-葡萄糖苷酶和产阿魏酸酯酶的乳
学位
荔浦芋(Colocasia esculenta)是广西荔浦市的特色农产品,营养丰富,品质独特,但目前为止其开发利用程度较低。淀粉是荔浦芋中的主要成分,探究荔浦芋淀粉在食品工业中的可能用途,对提升荔浦芋的产业价值具有重要意义。本论文以荔浦芋淀粉为研究对象,探究荔浦芋淀粉与其他商用淀粉加工特性和体外消化性能的差异,在此基础上研究湿热处理和添加魔芋胶、海藻酸钠和茶多酚等对荔浦芋淀粉加工特性和体外消化性能
学位