基于Spark的集成电路专利数据聚类分析研究与实现

来源 :南昌大学 | 被引量 : 0次 | 上传用户:wrx5428167
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于美国频繁对中国集成电路产业进行制裁,国家和企业越发意识到技术自主的重要性,因此也更加重视我国集成电路产业的发展和建设。但是我国该领域与国际先进水平相差较大,为了能实现技术追赶甚至反超,创新显得尤为重要。而对相关技术专利数据挖掘研究能为有效创新提供一定的指导意义。使用传统方式进行专利数据挖掘存在着效率低、正确率低、挖掘不深入和数据维度单一的问题,为了提出一种能够自动挖掘大量专利数据信息的方案,本文主要做了以下研究:1、针对专利数据量太大的问题,提出了一种改进型K-Means聚类算法对这些数据聚类分析。对原始K-Means算法做了两个改进:一、原始K-Means算法存在中心点随机选定可能会陷入局部最优解的问题,因此对中心点的选定规则改为其他点与中心点的距离来确定,距离越远选定概率越高;二、串行化K-Means算法存在无法在并行化Spark上运行的问题,因此对K-Means进行了并行化改造。最后使用改进型K-Means算法对中国集成电路领域的相关专利数据中的年度发展状况、IPC分类号和高产申请人进行聚类计算,聚类速度提升较大。2、为了确定集成电路领域的核心技术主题,提出了一种使用LDA主题模型对相关专利文本进行主题挖掘的方法。本文通过建立LDA主题模型分别对集成电路领域专利文本中的名称信息和摘要信息进行主题挖掘,挖掘出8个核心技术主题,对比挖掘结果,发现相似性高效果良好。3、为了获得集成电路领域核心技术发展趋势,提出了一种对技术主题强度演化分析的方法。本文在LDA主题模型挖掘出的8个技术主题的基础上,通过主题专利申请数量与相关领域专利总量的比值获取主题强度,再结合时间维度计算出主题强度,最后对技术主题的演化趋势进行分析。4、为了企业和研究机构的专利研究人员更方便进行专利数据聚类研究,本文搭建了一个专利聚类研究系统。该系统使用Java Web相关技术搭建,功能包括专利文本采集功能、用户管理功能、专利查询功能、改进型K-Means聚类计算功能和LDA主题挖掘功能。
其他文献
当前社会,婚恋成为青年群体的人生难题,单身人口数量逐年上涨。传统的相亲方式重新回归现代生活,成为现代人的一种生活方式。面对婚恋压力,家长比子女更加焦虑。如今相亲角存在于许多中大型城市之中,大多在公园、广场等类似的公共空间当中,为社会择偶难问题起疏导作用。相亲角中人气旺盛,参与者大多为代子女相亲的家长们,但是成功率却普遍较低。关于相亲角人气旺却效率低的问题,过往的研究多是从宏观的社会学角度进行分析,
学位
新冠肺炎疫情是新中国成立以来发生的传播速度极快、感染范围极广、防控难度极大的一次重大突发公共卫生事件;严峻的疫情不仅考验我国各级政府的突发应急处置能力,更是检验社会治理、公共服务和医疗卫生水平的“试金石”。疫情爆发之后,人们恐慌心理加剧,迫切需要通过各种渠道了解最新疫情信息,媒体作为人们了解疫情的主要渠道,自然发挥着重要的抗疫宣传与舆论引导作用。作为社会未来的中坚力量、媒体信息传播的重要用户与群体
学位
在2021年建党百年庆期间,全国各级各类媒体围绕“庆祝中国共产党成立100周年”主题,发挥各自优势,运用多媒体技术和内容形式进行了集中、广泛的报道,可谓亮点纷呈,为迎接和庆祝建党百年营造了良好的舆论氛围。其中,作为江西省委机关党端和省级党报新闻客户端的江西新闻客户端,就这一重大庆典报道主题,通过提前策划、周密部署,运用多种报道载体,利用图文、动漫、短视频、H5等融媒体手段,开展了大量有特色的报道和
学位
当前,社交媒体成为人们获取资讯的重要渠道。作为社交媒体的内容经营者,“小编”隐藏在每篇文章、每条信息的背后,我们每天不可避免地都会接触到“小编”,这已然成为一股不容忽视的力量,影响着信息生产传播的全过程。但在学术层面,“小编”一词使用至今,鲜少有人追究其内涵和使用语境,一度造成了学理概念的模糊和边界不清;同时“小编”在长期地使用中,其固有表达方式、语义也会受到不同程度的“磨损”与衍生,也在一定程度
学位
人类发展的历史进程中,灾难总是如影随形,人类在与不同类型灾害共生的过程中,不断积累经验和智慧,在不同层域的文化传承中探索有益于人类可持续发展的理念及应对措施。新型冠状病毒席卷全球,新冠疫情对世界影响深重,它改变着人们的生产生活、组织结构、思维方式、行为观念,甚至影响到人类社会的发展进程。在这一重大灾难事件面前,疫情纪录片将现实纳入历史思考的思维向度中,记录宏大历史背景下的人和事,通过关注大事件对普
学位
随着信息技术的发展,众筹出版模式在国内逐渐成为一种新兴的出版模式,它促进了图书选题的进一步开发,也为传统出版转型开辟了新的发展道路。“摩点网”作为近年来发展势头迅速的众筹平台,在图书出版领域发起了许多成功的图书众筹案例,创造了许多众筹纪录,成为众筹模式研究的典型案例。文章以“摩点网”作为研究对象,运用文献研究法、案例分析法、比较研究法、统计分析法,对“摩点网”自成立以来到2021年12月31日完成
学位
传媒作为重要的信息获取途径,在社会预警系统中起着举足轻重的作用。预警是传媒与生俱来的重要功能。随着社会的进步,传媒不断发展壮大,并被赋予了宣传、文化、娱乐等社会功能,而其最天然的预警功能却没有得到应有的重视。传媒的预警功能强弱,外化为其在预警方面能够产出的价值大小。如果能对传媒的预警价值提出评价标准,在对标提升中,传媒将能够最大程度地发挥预警功能,最终实现传媒预警价值的最大化。基于文献阅读、专家调
学位
新冠疫情爆发,大量关于疫情发展的新闻报道和新闻漫画涌现。其中,以医生群体为主题的新闻漫画居多。媒介和公众都将视线聚焦到医护人员群体,他们的工作状态、一言一行受到了广泛的关注。本文也聚焦医生群体,将中国新闻漫画网的新闻漫画作为样本,进行研究。该网站是国内中国日报网旗下子网站,属于行业类权威网站。本文结合多模态隐喻理论和费尔克劳夫话语分析的三维模式,探究新闻漫画中的医生群体呈现了何种媒介形象,并分析医
学位
社交媒体已成为宗族宗亲活动的主要平台。以传统宗族关系为纽带的这一特殊群体和组织,在新兴社交媒体上如何重建和维系特定关系?这是本文的主要研究问题。为此,本文以江西省于都县“于都黄氏宗亲群”为研究对象,采用虚拟民族志以及深度访谈法来收集一手实证资料,试图对其进行初步探索。研究发现,网络突破了传统宗亲交往的空间限制,宗亲组织得以虚拟重建。社交媒体成为宗亲开展活动、传承集体记忆以及传播宗族文化的主要平台,
学位
近年来,随着互联网技术对于人们生活的渗透,研究者们对深度神经网络技术的不断探索,深度神经网络技术目前在图像识别、语音识别、机器翻译和自然语言处理等多个领域可以运用的范围不断扩展,其提供的解决效果和人工处理的结果越来越贴近。而最近几年,伴随着人们在计算机视觉领域的探索和学习不断深入,人们对于图像处理的水平越来越高,图像处理技术的应用范围也逐渐扩大,在人们生活和工作中应用面也是越来越广。近年来利用深度
学位