【摘 要】
:
随着科技的进步,科技创新越来越受重视,但目前科技项目评审缺乏科技创新参考指标,因此需要对以往科技项目创新性指标进行分类,提高科技项目评审的质量。采用传统的基于向量空
论文部分内容阅读
随着科技的进步,科技创新越来越受重视,但目前科技项目评审缺乏科技创新参考指标,因此需要对以往科技项目创新性指标进行分类,提高科技项目评审的质量。采用传统的基于向量空间模型的方法不能满足查全率和查准率的需要,因此论文给出潜在语义索引的文本分类模型,以提高查全率和查准率。本文在潜在语音索引/奇异值分解的基础上,分析奇异值分解方法在实际分类中所存在的问题,引入偏最小二乘法来替代奇异值分解方法。通过对全局潜在语义索引分类模型的实验,发现该分类模型整体上具有良好的分类稳定性和准确度。但是这种全局潜在语义索引分类模型对稀有类别的分类效果比较差,为此,进一步引入局部潜在语义索引分类模型。同时为了进一步降低存局部潜在语义分类的存储空间的开销,采用半离散分解方法替代奇异值分解方法。通过实验,发现局部潜在语义模型能很好地解决了稀有类别的分类问题,并且全部类别的查全率和查准率都有一定的提高。实验语料采用标准中文语料和科技项目信息语料两种语料,以提高分类模型上的通用性。本文在潜在语义索引的基础上,通过对全局潜在语义分类模型和局部潜在语义分类模型的研究,发现潜在语义索引能一定程度上提高文本分类的性能。
其他文献
在人工智能(AI)领域,计算机博弈历来都是一个重要的研究方向。对中国象棋计算机博弈的研究始于上世纪八十年代,经过二十多年的努力,出现了大量优秀的博弈系统,在对弈能力方面
网格技术是近年来兴起的一门信息新技术,它代表了继Internet技术和Web技术之后的第三次技术浪潮。它将高性能计算机、分布式技术、因特网等多种技术有机地结合起来,实现地理
本世纪初,摩尔定律的失效加速了多核处理器的问世和不断普及,硬件并行化的发展反过来也推动了工业界对软件并发性的研究。软件内存事务是用软件的方法对内存操作进行封装,以
随着Internet的发展,互联网上的数据和信息呈现海量特征,文本分类作为处理和组织大量文本信息的关键方法,可以方便人们准确地找到自己所需要的知识。信息的爆炸式增长,使人们
计算机网络在各行业中获得广泛应用的时候,网络安全也成为机构和企业越来越关注的问题。虽然防火墙、防病毒系统、IDS、漏洞扫描等安全产品被部署于网络中,但多种安全设备缺
基于人工免疫的入侵检测技术是近年来入侵检测研究领域的热点,它的突出特点是利用生物免疫系统特征、规则与机制实现对入侵行为的检测和反应。入侵检测系统与免疫系统具有本
无线传感器网络是近年来信息技术领域的一个研究热点,它融合了传感器、计算机科学、信号与信息处理、通信等多个领域的技术,集成了信息采集、数据传输、数据处理、数据管理等
体绘制技术是科学计算可视化领域一个重要的研究方向,近年来,由于计算机图形处理器(Graphic Processing Unit,简称GPU)的高速发展,使得基于GPU的实时绘制成了当前计算机图形
随着无线传感器网络研究的不断深入,应用化已经逐渐成为人们关注的焦点。各种在特定应用背景下的研究层出不穷,如环境监测、目标跟踪、安全监控等。如何对这些应用研究成果进