网络信息发现系统的中文编码处理的研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:ty532215014
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该课题的目的是:1、针对现有的中文编码及Internet上的中文信息进行研究,为网络信息发现和其它网络应用提供中文支持环境Internet上的中文信息进行研究,为网络信息发现和其它网络应用提供中文支持环境;2、研究并实现能够支持多种中文编码查询的信息发现工具.根据中文网络信息发现系统以及其实际应用的需要,作者研究和实现的中文支持接口包括:1、中文编码的自动识别;2、中文编码转换;3、中文自动切词;4、汉语拼音和中英文字典输入.在这些工作的基础上,并通过张俐博士所提供的数据库检索接口,实现了能够进行多种编码查询的信息检索工具.其中,在对中文编码自动识别方法的研究中,作者采取了基于编码状态、编码范围和字典相结合的方法,解决了重叠编码域的编码识别等技术难点,并实现了对五种主流中文编码GB,CNS,BIGS,HZ,ISO-2022-CN/EXT)的识别.在中文编码转换部分,作者在已有的编码技术基础上进行了改进,增加了编码转换的种类,完善了转换功能.在对中文自动切词的研究中,通过分析已有的各种切词方法的优缺点,采取了最大匹配与最佳匹配相结合同时配合标点切分的中文切词方法.此外,考虑到UNIX操作系统上对于中文输入方式的缺乏,以CGI方式为中文信息发现系统配置了中英文字典和汉语拼音的输入方式,也是该论文工作的一个特色.最后在该文的结尾,总结了论文的工作成果并对以后的工作提出了建议.
其他文献
该文对数字同步网三级时钟的锁相环路进行了研究.通常的锁相环路由有源模拟电路实现,但是由于元器件本身条件的限制,无法达到指标所要求的时间常数和各种模式.因此,该文设计
低码率语音压缩是数字通讯系统中的关键技术之一.该文从人耳的听觉特性和合成语音的包络匹配入手,研究了低码率语音压缩中的合成语音的嘶哑问题以及自然度损失问题,并提出了
该文提出了环境影响评价辅助决策系统的系统逻辑结构,它包括:界面层、管理层、识别层、处理层和数据层,其中数据导由标准库、数据库、模型库、图形库和属性库组成并分析了五
在《语文课文程标准》中,明文规定小学一年级的课外阅读量累计不少于100万字。然而,在很多贫穷落后的地区对小学生语文教育根本不上心,更何况是培养小学生课外阅读的兴趣。尤其
该文在深入研究八五项目"汉语规范普通话连续语音识别技术"的基础上,对原系统提出了改进和完善措施.在清浊切分模块中,采用高斯矩阵的概率统计模型,避免了原来对主观经验值的
本文通过对荣华二采区10
期刊
随着遥感传感器在空间分辨和谱间分辨率上的不断提高,一组多光谱图象的数据量将更大,因此研究有效的多光谱图象数据压缩技术有着重要意义.该文正是从这一实际面要出发,着力研
随着人们对大数据需求的增加,内容分发日渐成为互联网上最重要的应用之一。P2P内容分发网络以其良好的灵活性、有效性和可扩展性受到了诸多用户及研究者的青睐和关注。与此同