改进的维吾尔语Web文本后缀树聚类

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:lxj5186101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提取关键短语,改进了合并基类的二进制方法,根据语料类别数自动调整聚类类别阈值,利用最一般短语对聚类类别进行描述,有效地改善了文本聚类的质量。与传统的后缀树聚类算法相比,聚类全面率提高了44.51%,聚类准确率提高了11.74%,错误率降低了0.94%。实验结果表明:改进的后缀树算法
其他文献
党的十八大指出,中国共产党人的初心是带领人民群众创造幸福的生活。新中国成立以来,中国共产党领导全国人民经过70年的奋斗,取得了令人惊叹的成就,经济、文化、科学、社会等
研究公司福瑞斯特2月5日发布消息表示,预计今年亚太地区用户花费在科技产品和服务上的资金将达到创纪录的6930亿美元(约合人民币45256亿元).2017年这一数字更是有望攀升至7230亿
<正> 1、前言气缸套内表面珩磨加工是加工气缸套的关键工序,其加工质量的优劣直接影响发动机的技术性能和使用效果.众所周知,珩磨夹具的好坏是影响气缸套内表面珩磨质量的重
【目的】通过模拟慢性颈椎间盘退变及关节突关节双重退变,建立慢性神经根型颈椎病的动物模型。【方法】将48只SD大鼠分层随机分为两组:模型组、假手术组。观察大鼠行为学变化,并
<正>"阅读是搜集处理信息、认识世界、发展思维、获得审美体验的重要途径。"良好的阅读能力不但能够加强小学生在阅读中的情感体验,受到高尚情操与趣味的熏陶,而且可以积累丰
为了发掘图像质量单一评价指标对融合图像目标探测性的影响,采集典型场景图像,开展彩色融合图像主观评价实验。考虑相邻图像的质量评价结果对当前图像评价结果的影响,提出采