—种基于词聚类的文本特征描述方法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:fsp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的概念来描述文本的特征,该方法不借助主题词典,先从训练语料中对词的共现情况进行分析,用词聚类(word clustering)生成由种子词(seedwords)表示的代表某一主题概念的词类,然后用种子词作为文本的特征项。实验表明,该方法不仅压缩了特征空间的维数,也克服了HowNet 中概念信息的局限性,提高了文本分类的精确度。
其他文献
经室温拉拔的铜包铝线的显微组织是纤维状细长晶粒,晶界面积增大系数与形变量近似地成正比。晶界面积增加使静态缺陷对电子波散射增强,导致电阻率随形变量增加而增加,但相对增量
研究了对CuW70合金进行不同变形率的变形处理后,在不同退火温度以及环境气氛条件下进行退火处理获得的变形CuW70合金的密度、硬度及电导率的变化情况。用光学显微镜对变形CuW
期刊
针对惯性导航系统成本较高精度低无法广泛使用,设计了一种新型的自主式微惯性导航系统,采用DSP作为导航解算和控制的核心处理器。导航解算算法利用四元数理论进行编写,进而确定
惠州市永昌电工材料有限公司位子中国广东省惠州市,紧邻深圳特区,是生产高性能高精度电工合金材料及产品的专业化新技术企业。公司共有员工100余人,其中材料学科高级工程师3人,工
数据集的聚类边界不清晰时,人工免疫网络聚类使用最小生成树确定聚类数的依据往往不足。分析了问题存在的原因,提出一种基于人工免疫网络的半监督聚类算法。该算法一方面在抗体
主要针对基于ARM平台的嵌入式Linux图形界面的研究与实现。通过裁剪定制在ARM9上构建一个基本的Linux系统,然后在此Unux系统上移植了X协议和一个小型的窗口管理器Matchbox,最后
GSM AMR_WB是唯一可以作为有线和无线通用的语音编码标准,提高AMR_WB在丢包环境下的语音质量至关重要。本文提出了一种改进的AMR_WB丢包处理方法,发送端利用基于多脉冲的前向纠
针对移动实时累加系统对海量数据的实时性处理要求,提出了适用于通信行业的内存数据库服务模型,详细阐述了MDB服务体系的设计与实现,使其可以屏蔽业务与存储介质的关联度;同时模
H.264编码标准中为了得到更高的压缩比,针对计算量比较大的运动估计部分,采用了六边形运动估计算法。与全搜索算法相比,六边形算法减少了搜索时间,但是,六边形算法采用了固定