面向大数据短文本的高并发语种识别系统的设计与实现

来源 :现代计算机 | 被引量 : 0次 | 上传用户:cxhhhsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今大数据环境中包含大量不同语种的网络短文本数据,尤其是在国内多民族地区的网络环境中多种语言混杂的情况普遍存在.为了解决此类易混淆短文本的识别问题,设计一种基于编码区间判断,特征字符检测和基于N-Gram的朴素贝叶斯分类器相结合的多策略方法,并在此基础上设计一套结合Nginx、uWSGI和Django的语种识别系统,提升系统的高并发能力.实验结果表明,该系统能高效识别网络中各类易混淆短文本的所属语种信息.
其他文献
小周刚搬进了和别人合租的房子,为了防止有不熟悉的宿友擅入自己的房间,同事小张教了他一招零成本的“远程监控”方案,只需一部Android手机和笔记本就能达成。不相信?笔者就带大家亲自尝试一下吧。  简单来说,这个方法就是通过手机控制笔记本摄像头,将摄像头拍摄的画面通过无线的方式返回到手机屏幕上,从而做到了“远程监控”的功能,全程不需花费一分钱!实现上述功能只需一款“网灵一号”软件的帮忙,它可以实现手
目的对比人乳头瘤病毒16型(HPV16)感染阳性和HPV感染阴性的宫颈上皮内瘤样病变(cervical intraepithe-lial neoplasia, CIN)患者2年间复查资料,探讨在HPV自然清除时间内子宫颈炎症反应对CIN病情发展的影响。方法选取2011—2016年广东省韶关市粤北人民医院和肇庆市第一人民医院CIN患者300例(HPV16阳性和HPV阴性各150例)作为研究对象,以宫
空间交会对接测量技术是空间交会对接中的关键技术,直接关系交会对接过程的成败。基于CCD像机的视觉测量技术是目前研究的热点。本文通过设计并搭建空间交会对接视觉测量模拟
在智能交通领域,交通场景图像质量的高低直接影响对车辆及其牌照、交通标志等目标的检测和识别,从而关系到车辆辅助驾驶系统的正常运行。然而,在获取和传输图像的过程中,由于
从总体的电渣重熔技术水平和生产能力来看,目前我国处于世界的前列。但是随着这一行业的不断发展和对产品种类、品质等要求的不断提高,对于传统固定型电渣炉来说,在某些方面已经