基于文本的语言识别方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：z88981414

【摘要】

：

本研究针对因特网上的文本数据进行语言识别，包括网页和电子邮件内容等，以构建实时、高效的语言识别模块为目标，设计了一种复合方法来实现多语种文本的语言识别。文章首先介绍了

【作者】

：

陈伯勇

【机构】

：

南京邮电大学

【出处】

：

南京邮电大学

【发表日期】

：

2008年期

【关键词】

：

计算机网络文本数据信息处理语言识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本研究针对因特网上的文本数据进行语言识别，包括网页和电子邮件内容等，以构建实时、高效的语言识别模块为目标，设计了一种复合方法来实现多语种文本的语言识别。文章首先介绍了区域编码方案和Unicode并存的现状，指出语言识别在计算机自然语言处理领域中的广泛应用，分析了语言识别方法的研究现状。然后，具体研究了目前主要的基于文本的语言识别方法，包括基于编码非重叠区的、采用字频分布统计的、利用马尔可夫模型建立语言模型的以及采用部分匹配预测压缩算法的语言识别方法，这些技术将被用到文中提出的语言识别模块设计方案中。之后，本文设计了一种语言识别的方法，即融合了基于编码非重叠区的识别方法和语言统计模型识别方法的复合识别方法。在对真实数据进行实验和分析的基础上，设计了语言字符分布律统计模型和可信度计算模型，保证了准确和高效地实现语言识别。本文设计和实现的语言识别模块能够对目前因特网上广泛使用的主要语言字符集进行识别，包括Unicode字符集，多字节和单字节编码方式的字符集，满足电子邮件转发和过滤引擎、网页编码识别等实时系统的应用需要，并且该模块已经在国家某部委的应用工程中得到了应用，获得了很好的评价。

其他文献

复杂企业过程分布式柔性模拟技术的研究

企业过程工程(Business Process Engineering)是指用系统工程的方法指导企业过程的开发和运作,它包括企业过程的定义、模拟、优化和运作四个阶段。企业过程模拟是对企业模型

学位

过程工程过程模拟本体模型Multi-agent保守机制

基于主题与语义的作弊网页检测方法研究

随着互联网的高速发展,网络中的信息量呈爆炸式增长,互联网已经成为人们获取信息的最主要渠道之一。作为信息检索过程中不可缺少的重要工具,搜索引擎在给人们带来便利的同时,

学位

网页作弊搜索引擎主题模型语义分析

基于MPEG-Ⅰ和小波包分解的说话人识别

说话人识别是从说话人的一段语音中提取出说话人的个性特征,通过对这些个性特征的分析和识别,达到对说话人进行辨认或者确认的目的。与文本无关的说话人识别具有用户使用方便

学位

小波包分解说话人识别MPEG-Ⅰ语音识别RBF网络

决策树算法在贴片机生产数据挖掘中的应用研究

随着数据库技术的迅速发展,数据库中存储的数据已经远远超越了人类理解力所能达到的范围。对这些数据进行全面系统的分析,挖掘出这些数据中蕴藏着的知识已经成为一项极具挑战

学位

决策树算法贴片机生产数据挖掘测试训练比

配电线载波通信的网络及其协议的研究与实现

配电线载波通信(DPLC)技术，是指利用已有的配电网作为传输媒介，实现数据传递和信息交换的一种技术，具有投资少、见效快、可靠性高、稳定性好、运营成本低等得天独厚的优点，近年来

学位

电力通信载波技术通信网络通信协议

公务员在线培训系统的设计与实现

学位

基于BP神经网络的服装供应链反倾销预警系统研究

频频发生的反倾销案件使得中国服装产品出口受到重创，当务之急，作为全球最大的纺织品出口和遭受反倾销调查最严重的国家，中国应迅速建立针对出口服装商品的反倾销预警机制。　　

学位

出口贸易反倾销预警系统服装供应链BP神经网络

基于Boosting算法的未知协议解析

随着互联网应用的普及，对网络通信进行分析和监控确保企业和国家的网络信息安全已经成为一个非常重要的课题。当前的协议解析研究工作多是在协议已知的前提下进行的。协议未知

学位

网络通信通信协议协议解析机器学习

P2P流媒体软件研发

当前,P2P流媒体直播软件已经大规模商业应用,而P2P点播软件在技术上也逐步走上成熟。虽然不同网络运营商对于P2P软件的蓬勃发展采取了截然不同的态度,但P2P软件所代表的个体

学位

P2P流媒体覆盖网数据调度VODboost::multi_index

基于工作流的移动电信业务的研究与实现

在过去的一个世纪中，通信网络的发展主要取决于技术的更新。自上世纪末开始，业务驱动网络发展的趋势已经明朗，业务提供已经成为下一代网络(NGN)的关键技术之一，快速高效地生成和

学位

下一代网络移动电信BPEL工作流语言

基于文本的语言识别方法研究

与本文相关的学术论文