中文专利的自动分类

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:shrimpdragon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在飞速发展的当今社会,科学技术是第一生产力。作为科技载体的专利—已经成为衡量一个国家和企业创新能力的重要因素。专利文档是一个重要的资源,它能够用来保护个人、组织和公司的权益。因此,专利数据的研究、处理、分析、挖掘具有重要意义,而这些分析处理中首要的就是专利分类。尽管专利的挖掘在最近几年取得了突飞猛进的进步,文本分类和专利分类技术取得了进步。但是专利的分类研究仍然有待提高。本文在对文本分类的基本框架和基本原理进行系统梳理的基础上,研究了基于向量空间模型和词向量的方法,并设计了中文专利自动文本分类系统,该系统的主要内容如下:(1)首先下载专利摘要文本作为本研究的数据集,对专利文本进行处理,得到专利文本的形式化表示。(2)接着通过处理后的专利文本训练得到专利领域的词向量,结合词向量,建立文本向量模型;本文提出了两种方法:基于词向量做特征选择和基于词向量和空间向量模型结合的方法。(3)最后运用机器学习的方法进行建模和分类,得到分类的准确率。为了验证本论文设计方法对于专利文本的自动分类的有效性,本文运用标准的数据集SST进行测试,对于得到的模型分别运用支持向量机算法(SVM)和随机森林算法(RF)等经典算法进行对比。实验表明本文设计的方法是对于中文专利文本的分类是有效的。
其他文献
《物权法》第八十一条规定,“业主可以自行管理物业及其附属设施”。这一规定的出台在物业管理行业内引起了广泛关注,许多业内人士纷纷分析业主自管这种管理模式对行业未来发展
财政部《水运企业会计核算办法》(财会〔2004〕30号)明确,港口码头企业的成本核算对象是按照货物种类、装卸操作过程、成本责任部门、作业场所作为成本计算对象。在《企业会计
目的探讨ICU呼吸机相关性肺炎(VAP)的危险因素及其预防对策,为今后的临床预防工作提供可靠的参考依据。方法随机选择2014年1月至2015年12月入住我院ICU接受呼吸机机械通气治疗
建立一套由物业纠纷协调,纠纷仲裁、物业纠纷诉讼、物业纠纷行政申诉共同构建的解决矛盾的机制是有效减少物业纠纷和防止物业纠纷不断冲突升级的重要举措。
保利西山林语于2006年开发建设,2008年4月,业主正式入住。项目总建筑面积13万平方米,共201栋,由公寓和别墅组成,由保利物业管理(北京)有限公司承担物业服务工作。近日,本刊编辑部接到
<正>将出正月,周围还余存着喜庆的氛围,各家置办的年货都吃得差不多了。正月里吃食花样繁多,孩子们不加节制,大人们也放纵,就可能会出现食积,今天咱们就来谈谈食积。食积,也
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
文章通过采用问卷调查、随堂观察和访谈等方法,对大学英语课堂生态现状进行调查分析,发现大学英语课堂存在诸多生态失衡现象。分析大学英语课堂生态失衡的原因,并提出了生态
春节前夕,中共中央书记处书记、中共中央纪委副书记何勇,给北京房修一慧中物业管理有限责任公司的领导及全体员工写了一封热情洋溢的慰问信,信中说道:“春节将至,我代表吴官正书记
中国的P2P贷款经过高速的野蛮发展,正式进入金融监管的时代,P2P贷款面临正规化和重新洗牌。区块链技术和应用的发展也即将进入成熟期。两者作为点对点转账和去中心化的分布式