基于混合并行遗传聚类的文本特征抽取方法研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:m168471863
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
同义词和近义词现象以及强关联语义信息加大了文本向量的特征维数,对文本分类的效率和精度都会带来极大影响。为了有效降低文本向量的特征维数,提出一种基于混合并行遗传聚类的文本特征抽取方法。该方法首先使用K-means聚类算法进行特征词粗粒度聚类,然后采用混合并行遗传算法对各类特征词进行细粒度聚类,最后对各聚类中的特征词进行分析并压缩,得到最终能反映文本类别特征和语义信息的文本特征词集合。实验证明,该方法是一种有效的文本特征抽取方法,能切实提高文本分类的效率和精度。
其他文献
为了提高计算机对自然语言的理解能力,实现概念的语义匹配,提出了基于概念格标尺的广义匹配。对现有的模式匹配的概念进行拓宽,利用概念格特有的层次关系建立语义标尺,通过标尺的
形式化方法工具通常是在UNIX/Linux系统下设计开发的,难于使用阻碍了形式化方法的进一步推广。本文针对形式化方法RAISE,提出了一种研究和开发基于Web的工具的方法。该方法以原