【摘 要】
:
对中文文本聚类进行了研究,将所改进的DMK算法应用于实际的中文文本聚类中。将百度百科数据集中的不同类型词条内容经过文本处理(分词、去停用词、特征选取、降维)后分别使用原
【基金项目】
:
上海市科学技术委员会科研项目《基于个性化推荐技术的航空移动社区服务模式研究与应用》(项目号:14DZ1101400).
论文部分内容阅读
对中文文本聚类进行了研究,将所改进的DMK算法应用于实际的中文文本聚类中。将百度百科数据集中的不同类型词条内容经过文本处理(分词、去停用词、特征选取、降维)后分别使用原始K-means聚类算法和DMK(Density-based and Max-min-distance K-means)算法进行聚类,并选择F-measure值及RI值(Rand Index)等指标对聚类结果进行分析。结果表明,针对实验中使用的百度百科中文数据集,DMK算法的F-measure值较原始算法平均提高0.342%,RI值较原始算
其他文献
本文从分析流场、湿度场的特征入手,对青藏高原东部地区的水汽通量、水汽通量散度进行了计算研究。
本文就五十年代以来半Lagrange法在数值预报中的应用和近年来的发展进行评述。介绍我国在这方面的工作。还就此法和Eluer法的优缺点作了比较;指出了存在的问题。
本文简单介绍一维平面平行大气多次散射辐射传输方程的一些解法,包括在chandrasekhar(1960)的基础上建立起来的经典的解析解,以及一些标准的数值解法和近似解法。并详细地讨
针对三维点云模型数据在去噪平滑过程中存在的不同尺度噪声和算法计算耗时问题,提出一种点云噪声基于分类思想的去噪算法。此算法将噪声分成两类,分别为尺度大的噪声和尺度小
本文研究了纬向基本气流具有弱切变而不是缓变的情况下的正压非线性Rossby波包,在仅考虑纬向波数k是tx的缓变函数时,可以得到一个描述非线性Rossby波包的推广的非线性Schrodi
本文用微分方程定性理论方法分析了地形对有限振幅Rossby波的稳定性影响。结果表明:地形北坡有利于波动出现不稳定,南坡使波动稳定;西坡使导式波动不稳定但使曳式波动稳定,东
高压开关GIS设备在电力系统中应用广泛,但导体触头温升过高会引发重大事故。为准确分析GIS导体触头的损耗发热问题,运用有限元分析方法和电磁场、热场的理论,对问题进行分析,
Cloud VR将是5G的重要应用。Cloud VR是在VR业务中引入了云计算、云渲染的理念及技术,将云端的声音输出及视频输出通过压缩编码,凭借高速稳定的网络传输到终端设备,实现VR业
针对机载航电语音告警系统的控制命令通道常采用两通道或三通道互为备份,而一次只采信一个通道未实现真正共同决策的问题和共同决策时易于因延迟出现漏报警和误报警的问题。
针对大规模MIMO系统中存在的导频污染问题,论文提出了一种基于ZC(Zadoff- Chu)序列的导频序列设计方法. 与现有的采用序列长度为奇数的Z C序列导频序列设计方法不同,论文利用序