【摘 要】
:
在如今大数据环境中包含大量不同语种的网络短文本数据,尤其是在国内多民族地区的网络环境中多种语言混杂的情况普遍存在。为了解决此类易混淆短文本的识别问题,设计一种基于
【机 构】
:
新疆大学信息科学与工程学院,新疆大学新疆多语种信息技术实验室,中科软科技股份有限公司信息工程八部
【基金项目】
:
国家自然科学基金资助项目(No.61762084、61662077、6142083),国家语委重点科研项目(No.ZDI135-54),新疆多语种信息技术实验室开放课题(No.2018D04019)
论文部分内容阅读
在如今大数据环境中包含大量不同语种的网络短文本数据,尤其是在国内多民族地区的网络环境中多种语言混杂的情况普遍存在。为了解决此类易混淆短文本的识别问题,设计一种基于编码区间判断,特征字符检测和基于N-Gram的朴素贝叶斯分类器相结合的多策略方法,并在此基础上设计一套结合Nginx、uWSGI和Django的语种识别系统,提升系统的高并发能力。实验结果表明,该系统能高效识别网络中各类易混淆短文本的所属语种信息。
其他文献
为了设计融合MFCC语音特征参数、声学模型和高斯混合分量参数优化的隐马尔科夫模型,通过构建由28个人录制的数字0到9,每人每个数字录制2次,共560个离散数字的语料库,根据HTK
传统的网络安全试验通常是基于真实的网络设备,试验成本高且具有一定的局限性。随着虚拟化和云计算技术的兴起,用户可以通过虚拟化技术进行网络安全试验。然而,由于试验场景
随着人民群众生活质量的日益提高,广大居民对社区的体育文化生活要求越来越高。"以人为本"地开展群众性体育活动,使社区体育运动更好地向大众化和平民化的方向发展,是当前新时
本文整理了湖北宜城城区方言的音系,归纳了宜城方言儿化的语音形式和范围,并探讨了儿化在宜城方言中的作用。
<正>在当代古典乐坛上,意大利指挥家克劳迪奥·阿巴多无疑是最为杰出的风云人物之一。自1965年首度登上国际舞台,阿巴多经过多年的演出磨砺·一跃成为"二战"后第二代指挥家中
从系统迭代出发,首先用余弦函数线性组合作为辅助函数与图像构造离散动力系统,提取图像的迭代轨迹作为图像特征矩阵,进行汉字识别的相关研究。然后从汉字图像矩阵本身入手,构造三维特征矩阵,经过加入斜面、移位叠加构造字体曲面等方法,优化系统结构,解决汉字图像大面积平坦导致系统收敛的问题。使用迭代特征矩阵在数据集HCL2000上进行实验,提取30人书写的20个汉字,全部训练识别率可达到100%,每个汉字训练2
常用的电缆故障点检测方法精度低且存在较大的安全隐患。设计一种红外三维检测结合拼接技术测量故障点的方法。通过多尺度Harris算子进行特征点提取,利用归一化互相关法配合随机采样一致性算法提高图像匹配的精度。该方法可有效地显示故障点在电缆防护层中的分布情况。
通过"以学为中心"教学模式,结合新时代地方应用型高水平本科高校"金课"建设的需求,以《光伏技术与应用》为例给出"金课"课堂教学改革的策略.
《莎菲女士的日记》是对《莎乐美》的一种戏仿,不仅两个文本的叙述元素存在着诸多相似之处,而且两个文本在中国的传播,也有着相同的命运。但是由于叙事语境的不同,两个文本的