潜在语义索引在文本分类中的应用

来源 :电脑与信息技术 | 被引量 : 0次 | 上传用户:ten_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。
其他文献
用于流量计检定的标准体积管一般应每3年标定1次。标定前通常采用水驱法来清洗体积管,清洗过程的完善与否。会直接影响标定的精度。在多年现场经验的基础上,运用大量的第一手数据
随着企业信息化的发展,企业需要对大量异构、分布、自治数据源进行集成。以SOA架构和Web Services技术为支撑,采用XML技术进行集成,实现了一个统一的数据平台,为系统的其他部分提
针对框架-核心筒体结构体系的特点和低碳钢的优良性能,在吸收国内外学者有关研究成果的基础上,开发研制了一种新型的耗能减震器-环形低碳钢滞后阻尼器。这种减震器的优点是耗能区
动态链接库技术是实现和设计程序常用的技术.文章分析和比较了Windows和Linux两种操作系统动态技术,并给出了将Visual C++编制的动态库移植到Linux上的方法和经验.
针对4PA-6×4型氨水泵机械密封频繁失效的问题,通过对该泵机械密封的失效原因进行综合分析,找出了其主要原因是由于原密封选型不合理,轴套结垢,泵振动大及安装精度低等原因造成的,对
根据热油管道的运行特点,在室内用旋转粘度计做模拟实验,研究了管道停输后,胜利原油的胶凝结构特性与剪切历史、停输时间、启动温度及启动剪切率等因素的关系。
文章指出了用于二值图像游程编码的 Wyle符号法对码字的潜力利用还不充分 ,提出了一种可以使编码的压缩比明显提高的改进方法。
国家教委目前特别重视远程教育在我国的发展。文章根据我国高校校园网的发展状况,探讨了基于校园网的远程多媒体教学系统的若干相关问题,分析了目前我国远程教学系统所存在的主
社会保险基金的征缴是社会保险信息系统中的关键环节,按时、足额征收社会保险基金将保证社会保险正常和安全运行,促进社会和谐和稳定。文章着重介绍了社会保险基金的统一征缴
文章利用XML DiffGram及中间件技术,通过网络实现了对SQL数据库表的删除、插入和更新等操作.与一般操作数据库方法不同,该方法直接使用XML文件对SQL Server2000的数据进行操