基于表示学习的跨语言相关专利推荐研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:csdncsdn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利文献数据集是目前世界上最大的技术信息集,几乎包括了所有应用领域内的技术成果和发展动态,在技术、商业、法律等领域有举足轻重的地位。随着经济全球化和科技的飞速发展以及知识产权保护国际化意识的逐渐增强,专利冲突与专利壁垒深深困扰着国内广大企业与研发机构,专利技术创新和产品革新信息成为关注焦点,追踪和研究国外专利技术的需求与日俱增。因此,及时准确地获取世界其他国家的专利信息变得十分必要,使得作为有效获取其他语言相关专利的跨语言专利推荐研究得到广泛关注。跨语言专利推荐可以为企业和个人遴选相关重要专利、发现相关技术发展趋势、追踪最新技术进展,进而提供个性化信息推送和决策支持服务。当前,专利推荐主要基于单语言专利文献数据,从专利的技术关键词、主题等内容特征出发,研究单语言环境下的相似专利推荐,而专门针对双语或者多语种专利文献数据的跨语言专利推荐和分析还较少。跨语言专利推荐和分析一般是将跨语言检索中涉及的词翻译和机器翻译等技术直接应用于专利推荐中,主要包括三种方法:基于词典的方法、基于语料库的方法以及基于机器翻译的方法。以上跨语言专利检索推荐的方法多从查询词和文本精确翻译的角度出发,往往需要大规模特定领域的双语词典、双语语料库以及高效准确的机器翻译方法来实现有监督的跨语言查询扩展,导致这些方法应用扩展到其他领域进行跨语言专利推荐的难度较大;与此同时,由此推荐的专利大多是相似专利,推荐的多样性和相关性尚需进一步扩展,亟需从专利文本语义角度出发进行相关专利推荐,提供更好的决策支持服务。因此,本文基于无监督跨语言词向量映射的方法,使用中英专利单语语料库独立训练中英单语专利词向量,然后通过线性变换将它们映射到统一语义空间。在即不需要任何外部双语词典,也不需要大型双语语料库等情况下,就可以得到很好的中英专利相关词映射关系,实现跨语言需求相关词推荐。以此为基础,利用文本表示学习方法,自动学习中英专利文本的语义信息,并在统一语义向量空间中进行表示,最后通过向量相似度计算方法,计算不同语言下专利文本间的语义相似度,构建基于表示学习的跨语言专利推荐方法,实现跨语言相关专利推荐。在“无线通信网络”领域中英双语专利实验证明,本文设计的基于表示学习的跨语言相关专利推荐方法,能够实现较全面准确的中英跨语言专利推荐,Top-1和Top-5的推荐准确率分别达到了55.63%和77.82%,较弱监督推荐方法均有所提高,该方法可以扩展到其他语言的专利推荐研究和应用中。
其他文献
铝粉凭借其高反应热被广泛应用于含能材料配方中,但实际应用时,其点火延迟及燃烧不充分等现象导致铝粉高能优势未被充分发挥。PTFE含氟量高达75%,可以和铝粉反应生成Al F3,促进体系释能,同时改善铝粉性能。本文选择PTFE包覆铝粉,通过机械力活化-烧结法实现复合材料的制备,主要针对制备参数和复合材料改性效果及安全性能开展了研究,旨在为未来复合材料在配方中的高效应用提供依据。主要研究工作及成果如下:
晶粒尺寸是金属材料一项重要的显微组织参数,能够显著影响材料的多种性能。近年来,通过剧烈塑性变形的方法制备超细晶、纳米晶材料引起了材料研究者的广泛关注。卢柯等人通过具有高应变速率的表面机械碾磨分别在纯镍、纯铝中获得梯度纳米层片结构,具有纳米层片结构的纯镍表现出高强度和良好的热稳定性。与纯镍相比,纯铝具有较低的位错湮灭激活能和较高的回复率,加剧了晶粒细化的困难。添加合金元素(比如镁元素)可以显著减小铝
复杂网络中存在各种各样的有害传播过程,例如谣言传播、病毒传播、故障传播等。如果我们能及时定位传播的源头,便可以采取更有效的防控或免疫策略。近年来,复杂网络传播过程中的溯源问题引起越来越多研究者的关注,已取得了一些研究进展,但仍有许多理论问题亟待解决。本文借助于网络科学、概率统计和进化计算等领域中的理论工具,对复杂网络传播过程中的溯源问题开展了以下研究:(1)提出了一种基于随机游走的多源头溯源算法。
剧烈塑性变形后样品的晶粒尺寸和力学性能与塑性变形程度以及均匀性密切相关。不均匀变形往往将对材料性能甚至对应用产生不利影响,因此塑性变形过程中应变场的分布对于超细晶材料的制备及其力学性能至关重要。由摩擦力驱动的剧烈塑性变形方法如高压扭转(High pressure torsion,HPT)以及周向高压剪切变形(tube-High Pressure Shearing,t-HPS),造成变形不均匀现象的
通过抗原纯化试验、冻干曲线的建立,解决阻碍狂犬病冻干灭活疫苗下游工艺规模化生产的问题。病毒液纯化试验,纯化方式采用凝胶过滤柱层析技术,比较不同上样量和不同洗脱流速下狂犬病毒蛋白与杂蛋白的分离效果、杂蛋白的去除率以及纯化效率;根据狂犬病冻干灭活疫苗的耐热保护剂配方的热参数科学设计冻干程序,通过物理性状、耐老化实验、残余水分等指标筛选冻干程序。结果显示,病毒液纯化以8%柱床体积上样,30~40 cm/
本翻译报告的案例全部选自美国三大时事性周刊之一的《时代周刊》。本报告以实现商业广告语的原语言和目标语的一致性为目的。根据韩礼德的语域理论,译者应该在译文中再现原文的语域特征,恰当表现原文的语场、语旨和语式,实现译文和原文的语域特征一致。笔者依据此理论,对翻译文本进行分类,以语场对等,语旨对等,语式对等为指导原则进行翻译实践。语场指说话的主题,语旨指参与者之间的关系,语式指语言交际的渠道或媒介,这三
荧光蛋白(fluorescent proteins,FP)是生物学研究中的一项非常重要的工具。同时,他们逐渐运用到微藻的研究中,例如莱茵衣藻(Chlamydomonas reinhardtii)。几种荧光蛋白,例如mCherry,tdTomato,Venus或者CrYFP,CrGFP,mTagBFP和PtCrCFP都成功地作为报告基因用到了莱茵衣藻诱变株UVM4和UVM11的核基因组转化中。但是,
三硝基乙基官能团是一类经典的含能基团,其基团中富含氮氧元素。若将其作为修饰基团引入到氮氧杂环化合物中,可以极大提高其密度和爆轰性能。因此,此类含能化合物的特性对推进剂、炸药等新型含能材料的研究至关重要。本论文以此为出发点合成了几种三硝基乙基高氮含能化合物,主要研究内容如下:1.基于3,3’-二氨基-4,4’-联呋咱类含能化合物合成与性能研究本论文通过以二氯乙二肟为原料,经氰基化、加成、成环三步反应
在英语语言中,歧义现象普遍存在,即听者理解的意义和说者企图表达的意义不一致。所有的歧义可以概括为三种:词汇歧义、结构歧义和语用歧义。词汇歧义是指某个词有两个或者以上的意义,词和义不是简单的一对一映射关系。词汇歧义消解过程的研究始于上世纪70年代,心理学家也提出了多个歧义词意义通达模型来解释相对意义频率(歧义词各个意义的使用频率)及其他因素对歧义词意义通达的影响。基于对英语本族语者歧义词意义通达的研
互联网时代,网民越来越多地参与突发事件和社会话题的讨论,网络舆情对于政府和企业的影响越来越大,及时、准确地了解网民情感至关重要。目前,关于网民情感分类的研究大多基于单一的文本数据,但社交网络平台上图文结合的现象非常普遍,图片往往也蕴含着网民的情感信息,是对网民情感判断的重要补充,尤其是含有人脸的图片。面部表情,作为情感表达的主要外在表现,能够直观、可靠地揭示网民情感。因此,本文将网民面部表情与文本