基于KNN的专利文本分类算法研究

被引量 : 0次 | 上传用户:kiry250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和信息技术的快速发展,大量的半结构化和非结构化信息量的急剧增加,如何在最短的时间内获取自己所需要的信息已成为当前我们迫切需要解决的问题。目前,专利技术已成为国家或地区间竞争力的核心,面对海量的专利信息,如何利用文本分类技术来对这些专利信息分类已成为大势所趋。首先,本文介绍了文本分类的研究现状以及专利分类背景。其次,系统介绍了文本分类的关键技术和各种分类算法,以及各种分类算法在不同领域中的应用。目前,在众多分类器当中,KNN分类器相对于其他分类器分类效果较好,但是其依旧存在一些缺点,诸如分类速度慢、分类精度低下等。为了克服KNN分类算法的诸缺点,本文提出了优化的KNN算法分类器,该分类模块由训练、分类以及评价三部分组成。优化的KNN算法采用基于簇的原始空间模型对训练集进行处理,首先将训练集中相似的文本形成一簇,把每一簇看作是一个普通文本,计算每一簇的中心向量,再设定一个阈值,对高于该阈值的簇进行管理,并重新形成训练集。该分类算法在尽量保存原始文本信息的基础上,根据文本稀疏性特点,本文采用压缩表示模型的思想,然后做距离的计算,最后将待测文本归属所属的类别。这种分类算法不仅减少计算量,而且提高了KNN分类器的分类速度以及分类精度。最后本文通过专利分类的实验,对优化KNN算法在专利分类运算速率、正确率、错误率以及召回率方面作评估,验证了优化KNN算法较传统KNN算法在分类效果上有一定程度的提高。
其他文献
胃肠功能性疾病是消化系统最为常见的疾病。这类疾病发病率高,临床表现的症状种类繁多,主要包括上腹疼痛、饱胀、嗳气、恶心、呕吐等。由于发病机理尚不明确,目前临床上缺乏有效
公安巡防是指巡防人员徒步或使用自行车、电动车、汽车等交通工具在重点区域进行巡逻,及时处理突发事件。公安巡防工作承担着接受公民报警和上级公安机关指令,先期处置一些突发
随着科技的发展,人们对移动电子设备轻薄、便携性的要求越来越高。软包装锂离子电池由于其质量轻,厚度簿,形状和容量可定制,且安全性能好,被越来越多的智能手机,平板电脑和超薄笔记
<正> 1、应设置独立的焊接专业技术职能部门。工业锅炉制造厂一般属中小企业,从组织机构上看尚都没有设置独立的焊接专业技术职能部门,而且具有丰富专业知识和实践经验的焊接
本课题是《陕西省传统民间服饰文化研究》课题中的子课题,针对陕西关中地区民间服饰文化进行挖掘与整理,阐述关中民间服饰文化的发展,重点分析关中民间艺术及民间习俗对民间服饰
在云计算环境中,服务混搭(Service Mashup)作为一种聚合和重用互联网应用服务的创新模式,通过开放服务接口,按照用户需求对云计算服务进行简单且易于实现的聚合,从而创建新的应用服
以苹果、柠檬为主要原料,研究苹果柠檬复合果汁饮料的制备工艺.以感官评价为指标,通过单因素试验分析苹果汁、柠檬、白砂糖、甜蜜素的用量对产品品质的影响,再通过正交试验确
在利率市场化、金融脱媒化以及经济增速放缓、资金规模偏紧的形势下,商业银行在经营中出现了诸多问题,尤其体现在资产质量方面,不良贷款攀升,风险防控压力增大,优质信贷资源
以我国经济改革与发展的思路及目标模式为依据,从会计模式、职能作用、会计行为、会计手段、会计理论研究与会计教育等6个方面对我国会计改革与发展进行了探讨与展望。
香港在回归前后,无论是经济还是社会都发生了翻天覆地的变化,但是没有改变的是香港社会中普遍存在的一种社会现象,那就是香港社会运动。当然伴随着香港的回归,香港社会运动还