论文部分内容阅读
针对互联网海量数据和目标对象的信息获取和状态监控需求,采用预定制特征元素集控制信息采集,经过去重、正文抽取、净化去噪、分词和过滤后,构建词汇/文本向量矩阵,采用隐性语义分析、奇异值分解、正则逼近和伪文本压缩等处理技术,实现了对获取向量信息的相似计算和排序,得出最佳搜索结果和监测目标的状态向量,同时降低了相似文本排序的计算量。