论文部分内容阅读
该课题的目的是:1、针对现有的中文编码及Internet上的中文信息进行研究,为网络信息发现和其它网络应用提供中文支持环境Internet上的中文信息进行研究,为网络信息发现和其它网络应用提供中文支持环境;2、研究并实现能够支持多种中文编码查询的信息发现工具.根据中文网络信息发现系统以及其实际应用的需要,作者研究和实现的中文支持接口包括:1、中文编码的自动识别;2、中文编码转换;3、中文自动切词;4、汉语拼音和中英文字典输入.在这些工作的基础上,并通过张俐博士所提供的数据库检索接口,实现了能够进行多种编码查询的信息检索工具.其中,在对中文编码自动识别方法的研究中,作者采取了基于编码状态、编码范围和字典相结合的方法,解决了重叠编码域的编码识别等技术难点,并实现了对五种主流中文编码GB,CNS,BIGS,HZ,ISO-2022-CN/EXT)的识别.在中文编码转换部分,作者在已有的编码技术基础上进行了改进,增加了编码转换的种类,完善了转换功能.在对中文自动切词的研究中,通过分析已有的各种切词方法的优缺点,采取了最大匹配与最佳匹配相结合同时配合标点切分的中文切词方法.此外,考虑到UNIX操作系统上对于中文输入方式的缺乏,以CGI方式为中文信息发现系统配置了中英文字典和汉语拼音的输入方式,也是该论文工作的一个特色.最后在该文的结尾,总结了论文的工作成果并对以后的工作提出了建议.