基于表示学习的无监督跨语言专利推荐研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:rilton
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]减少双语词典和大规模双语语料库的构建,提高专利文本语义的揭示和利用,从文本语义表示角度设计无监督的跨语言专利推荐方法,提高跨语言专利推荐效果和领域适用能力.[方法]首先设计无监督跨语言词向量映射方法,通过线性变换将独立的中英专利词向量映射到统一语义向量空间,构建中英词语间的语义映射关系;然后利用平滑倒词频的词向量加权方法,形成基于跨语言专利词向量的专利文本语义表示方法,实现中英专利文本在同一向量空间中的语义表示;最后应用向量相似度计算指标,计算不同语言专利文本间的语义相似度,构建基于表示学习的无监督跨语言专利推荐方法,实现跨语言专利推荐.[结果]在无线通信领域的实验中,无监督跨语言专利推荐方法的Top-1和Top-5推荐准确率分别达到55.63%和77.82%,较弱监督跨语言专利推荐方法分别提高了0.66%和1.45%,较基于机器翻译的跨语言专利推荐方法分别提高了4.29%和3.90%.[局限]仅对特定领域中英专利进行推荐,尚需扩展领域和语言范围.[结论]能够实现有效的中英跨语言专利推荐,并可扩展应用到其他领域和语种下的专利推荐中.
其他文献
[目的]为保护临床文本中的隐私信息,有效地从非结构化文本中识别受保护的健康信息(PHI),提出利用BiLSTM-CRF模型从临床记录中删除隐私信息的自动化方案.[方法]选择一家区域卫
[目的]在标注语料匮乏的情况下,利用主动学习策略,探索科技文献信息抽取的有效解决方案.[方法]设计一种融合主动学习的神经网络模型架构,将三种代表性的主动学习策略(MARGIN,
交际能力表现为听、说、读、写四个方面能力的培养,听、说、读、写既是教学目的,又是教学手段,四者是统一整体,相辅相成。教学中应综合听、说、读、写四方面技能,不能顾此失
[目的]针对当前文本分类任务中存在的训练数据匮乏以及模型泛化性能低等问题,在少样本环境下研究文本分类问题,提出一种少样本文本分类模型.[方法]基于元学习中的分段训练机
我国资本市场的规范发展需要进行较大的调整:(1)国债市场需从体制建设上进行完善,设立常设发行机构及保持国债筹资独立循环的国债资金动用机构,并且国债发行的对象应从以居民个人为主转为以金融机构为主。(2)股票市场需要改变其赌博性,啬投资性,保持合理的投机性存在,现实的出路是提高股民素质和扩大市场容量。(3)供贷市场的规范要求是尽快使我国的商业银行适应市场化经营的环境。(4)产权市场的发展必须转为以企业
公共图书馆在我们的传统印象中,是作为人们阅读、学习的重要场所,但是随着我国经济的快速发展,文旅行业的不断变革,公共图书馆也需要改变其固有的观念,做好文化与旅游的有机