【摘 要】
:
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特
论文部分内容阅读
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上
其他文献
随着移动应用的爆炸式增长,如何高效、正确地进行UI自动化测试成为了一个重要问题.传统自动化方法大多需手动编写测试脚本,自动化程度更高的录制回放方法则普遍具有跨设备能力不足的问题,而且现有断言机制已经不足以描述丰富的UI语义.针对上述问题,本文提出一种跨设备能力强且可以描述丰富UI语义的录制回放自动化测试方法.该方法使用控件路径精确定位控件,并结合跨设备UI自适应方法以提高跨设备能力;通过提出两种新
物流"最后一公里"是直接面向客户服务的物流末端环节,直接影响到物流的效率、成本和服务质量.针对此"最后一公里"问题,提出基于自提柜的末端物流配送解决方案.通过引入自提柜
EDI电子数据交换作为一种信息技术,目前已经广泛应用在航运领域.然而由于各个国家乃至各个航运公司所用的EDI报文格式和系统都不相同,导致数据流通性差.为了解决航运领域信息
嵌入式系统在图像处理、空间计算等领域越来越广泛,如何在功耗、成本和计算能力三个主要方面取得平衡,利用多核和多处理器系统以并行计算方式提高嵌入式系统计算能力是一种有效的解决方案.讨论了基于Cortex嵌入式多处理器系统的基本结构,并在该系统上进行图像中值滤波算法的并行化研究.实验结果分析表明,在该嵌入式多处理器平台上配合并行算法能够成倍提高图像中值滤波的运行性能.
为了提升业务流程执行效率,提高流程建模的客观性,在考虑日志文件存在噪音的前提下,对结构化工作流模型的四种基本结构进行分析,研究从日志文件中挖掘出流程模型的结构化算法
针对SQL查询程序实现多样性的问题,提出一种用于精确评估SQL程序的评分模型.首先基于通用标准的SQL语法规范标识符和命令子句,基于同义词链和抽象语法树规范表达式,将SQL程序
针对秦俑碎块的三维网格数据模型,提出了一种基于特征轮廓线的碎块断裂面匹配算法.首先,对数据模型进行纹理贴图、去噪、补洞、简化数据模型等预处理,然后提取碎块的主轮廓线和次轮廓线,进而提取出碎块的特征轮廓线,最后根据角点对特征轮廓线进行分段,并采用计算最长公共子序列的方法对分段曲线进行匹配,完成特征轮廓线的匹配,从而实现碎块断裂面的匹配.实验结果表明,该算法是一种有效的、精确的秦俑碎块匹配方法.
Malignant fibrous histiocytoma(MFH) is one of most common types of soft-tissue sarcoma. However, it accounts for less than 1% of all human cancer types. In addi
公钥基础设施(Public Key Infrastructure, PKI)和SSL/TLS加密协议,是当今互联网进行安全通信的关键要素,但存在被攻击或恶意CA所导致的重大安全隐患.2013年,谷歌提出证书透明
对候选特征进行降维在机器学习领域,如分类、聚类问题中占有很重要的地位.现有的方法大多数是基于单一特征对目标T的依赖性或特征与特征之间对Y影响的关联性,互补性和冗余性