基于LDA的英汉维文本聚类系统的设计与实现

来源 :现代电子技术 | 被引量 : 0次 | 上传用户:MARRYMAS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以英汉维三种大规模文本聚类为目标,针对三种语言的特点实现基于LDA模型的静态文本聚类系统.因为存在博客、微博等网络媒体的文本不太规范及涉及的话题范围广泛等现象,对文本特征的提取及聚类算法的选择带来一定的难度.通过对样本文本的分析,计算出适当的聚类数k,再调用LDA算法将文本聚为k类并给出每类文本的关键词.测试结果表明,该系统能将英汉维三种语言的文本相似度高的聚为一类,可显著提高聚类效果.
其他文献
《郑州市城市轨道交通近期建设规划(2014-2020)》已获国家发改委批准,按照规划,郑州市中心城区未来几年将建设1号线二期工程、2号线二期工程、3号线一期工程、4号线、5号线等5个
日前,上海市发改委正式批准5号线南延伸可行性研究报告。5号线(莘闵线)南延伸连通闵行和奉贤,线路全长19.505k m,其中高架段11.245k m,地下段7.74k m,敞开段0.52k m,共新建8座车站,其
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
针对高渗透微电网接入配电系统后,给主网调度稳定运行和可靠性带来困难这一问题,基于Multi-agent提出一种新的微网控制模型,该模型将微网及内部单元作为a-gent节点行为,构建
期刊
2014年5月21日,国家发改委公布了我国首批5大领域向社会资本开放的投资示范项目清单,包括深圳地铁6号线、深圳港盐田港区集装箱码头扩建工程、中石油深圳迭福北L N G调峰站项目