LDA模型在专利文本分类中的应用

来源 :现代情报 | 被引量 : 0次 | 上传用户:JockWang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。
其他文献
2010年,中国首次发布版权相关产业的经济贡献统计数据。版权相关产业概念的内涵在相当程度上与文化产业概念重合,但版权业理论更体现文化核心财富的价值内涵,它提示人们:金融
先对金刚石进行化学镀镍,得到增重率分别为5%、10%、20%、30%、45%和60%的镀镍金刚石。随后以直径120μm的镀铜圆柱形琴钢丝作为基体,采用氨基磺酸镍为主盐的镀液(由80 g/L Ni
研究了透波性混杂纤维复合材料的性能,结果表明,芳纶纤维和玻璃纤维按一定混杂比和混杂方式与力学性能和电性能优良的乙烯基酯树脂体系制成的混杂纤维复合材料,可作为频率选
轴重的增加与运行速度的提升使得重载铁路隧道病害状况进一步恶化,有些已达到了威胁铁路行车安全的程度。本文通过大准铁路南坪隧道滑坡病害原因及治理方案的分析,提出了南坪
本文从2009年全国高考卷I的一道向量高考试题联想到解决向量问题的常规通俗的解决方法即代数法和几何法,挖掘和探索高考试题的解决途径,探讨向量问题的一题多解和变式训练,并
目的探讨单孔全胸腔镜肺癌根治术在临床中的应用效果。方法回顾性分析北京大学深圳医院自2014年1月至2015年1月我院胸腔镜治疗原发性肺癌患者95例的临床资料,其中单孔全胸腔
<正>淡水资源匮乏、电力供应短缺等问题将阻碍我国经济迅速发展。海水淡化、电力和舰船等关键材料白铜长冷凝管,目前国内供应短缺、生产工艺落后、生产成本高,尚无专业化生产
<正>在常州市中心最繁华的南大街东侧,毗邻人民公园,高高矗立着一座具有阿拉伯伊斯兰建筑风格的清真寺。它主体六层,错落有致,高大的拱门庄严雄伟,穹顶金碧辉煌,在蓝天白云的
从受精卵发育成为多细胞的生物个体经历了细胞的增殖、分化、凋亡和迁移过程。在细胞的增殖过程中伴随着细胞的分化,人们越来越认识到肿瘤不仅是细胞异常增生的结果,也是细胞