基于互联网数据的专利分析研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:faycbl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络使得数据量飞速增长,海量的专利数据不断的涌入人们的生活。现如今企业需要了解相关的专利情报信息,以制定更加精确的发展战略,可一些隐藏在专利文献中的信息并没有得到充分的利用,传统的基于人工统计的分析方法忽视了它们的存在,专利分析报告中也只是一些人工手动统计的分析结果。因此,本课题通过调研我国专利信息分析的发展现状,在数据统计分析的基础上,计算其技术发展参数的变化。除此之外,挖掘潜藏在专利文献中的可利用的信息,主要集中在专利主题的提取和专利文献的自动分类。为了弥补传统专利分析报告内容的单调贫乏和自动化书写,本研究还致力于丰富专利分析报告内容,实现报告的自动写作系统。为了得到更多相关的专利数据以及完善专利检索的性能,调研了专利查询词扩展对结果的影响。基于词典和百度平台得到的扩展词集,虽然得到的结果较为全面却不够精确,相关反馈与此相反。综合各个方法的优缺点,提出了词典与相关反馈相结合扩展查询的方法,其召回率和精确率均得到了一定的提升。基于爬虫技术得到专利数据时,为了优化仅通过计算技术发展参数来预测成熟度的做法,加入了新的衡量参数,即技术创新度。它的计算加入了对文本相似度的分析,并对本数据集从不同角度的分类来计算技术创新度。为了探讨每年专利申请量的变化趋势,使用时间序列预测算法对得到的数据序列进行处理,指数平滑与ARMA取得了较好的效果,并验证了生命技术因子的确对数据序列的预测产生了影响。专利的IPC号并不是唯一获取主题的方法,在专利文献集合中,应用文本主题提取算法,可以得到更有针对性更加细致的技术主题关键词。本文在已得到的数据集应用了Text Rank、LDA以及TFIDF三种算法,以反映主题的程度作为衡量,Text Rank取得了0.63,虽高于0.55的LDA,但其过于依赖单文档。通过调节LDA选取的初始主题数,发现当设置其为4时,困惑度最小。对于专利文档的自动分类,在大类别上的实验结果均小于等于0.7,在小类别上的实验效果明显提升,其衡量值最低也接近0.7,其中k NN的R值达到了0.88。基于已有的研究成果,本课题为使其更贴近实际生活应用,探讨了专利分析系统的实现,并辅助用户实现专利分析报告的写作。
其他文献
磨削温度高是产生磨削烧伤的主要原因,建立一个合理准确的磨削温度在线预测系统,对满足核电高压容器的高效深磨质量要求至关重要,为此建立了基于神经网络的高效深切磨削温度预测
目的观察半夏白术天麻汤合逍遥散治疗良性位置性眩晕的临床疗效。方法选取符合标准的良性位置性眩晕患者56例随机分为两组,对照组予以西比灵胶囊+手法复位治疗,治疗组予以半
商务部产业损害调查局局长杨益在12日举行的第七届中国企业竞争力年会上说,截至今年11月初,全球共有19个国家和地区对中国出口产品发起了101起贸易救济调查,涉案总额超过116亿美
三菱材料工具开发出了刀头可更换的铝合金加工刀具“AXD7000”。其特点是:通过改进刀片的固定方法以及刀刃的形状,可支持高速旋转。适用于部件大多由铝合金切削而成的飞机产业
铣削加工过程中刀具的磨损是产生曲面加工误差的重要原始误差,将刀具磨损引起的误差通过建立的误差模型进行定量补偿,是虚拟制造中的一项关键技术。研究了虚拟制造环境下基于球
该文就《二次供水设施卫生规范》(GB 17051-1997)中二次供水的定义及二次供水水质相关指标进行了研究探讨,并对完善二次供水的定义及二次供水水质相关指标提出了建议和修改意
以湖北大冶铁矿尖山IN挂帮矿开采为工程背景,通过室内相似材料模型实验来模拟挂帮矿开采及降雨过程,使用压力传感器、百分表、近景摄影测量等手段监测滑体内应力变化,最终得
本文就当代书法理论研究的实际,着重从书法艺术的艺术理论研究和书法史研究两个方面进行了论述,并对理论研究中的两个具体问题进行了讨论:在书法艺术本体的认识方面对"书法是
近年来,世界各国都把提倡阅读风气、提升阅读能力列为教育改革的重点,纷纷发起了阅读运动。课外阅读指导一直是我国小学语文教学的重要内容。全国教育科学“十五”规划课题—
学生思想政治教育工作是高校众多工作中的重要一环,关系到高校育人质量。学生思想政治教育工作的开展必须依据高校类型的不同及学生的特点,有针对性地进行。体育院校及其大学