论文部分内容阅读
语料库语言学以文本数据作为研究对象,通过计算机检索和统计分析来揭示隐藏在文本中的语言事实。文本是唯一的数据源,研究者通过语料库检索获取信息,知识在基于信息统计的意义上得到解释。检索和统计是语料库语言学研究的重要技术和手段,且大规模文本是其研究的必然要求,所以计算机和专业软件就成了必不可少的工具。而目前语料库软件相对贫乏,功能单一,且难以扩展升级;同时由于技术开发和理论研究的脱节,使得当前语料库软件很难满足实际研究需求。本文提出一种新的文本处理思路和方法:基于词坐标的文本处理系统,文本处理时进行切词并坐标化,生成词坐标对象,并基于词坐标对象进行检索统计分析及开发高级功能应用等。这在一定程度上解决了目前所遇到的一些困难和问题。概括起来,本文的其创新和贡献有:
1.提供了一套新的文本处理思路和完整的可行方案,并开放源代码。目前语料库软件开发方面的文献资料和代码资源非常匮乏,国内几乎是空白;各软件发行者考虑到商业利益或学术保密,拒绝共享其研发成果。诸此等等,造成了语料库软件开发进展缓慢、重复开发、功能有限等局面。基于词坐标的文本处理系统提供了一套完整的操作方案:文本预处理、切词、统计运算到输出保存、检索定位、索引行显示等,并对其操作流程进行了详细地解释。本文采用面向对象编程语言JAVA,开放源代码供大家参考借鉴。
2.优化算法,解决部分难题,改进前人在软件开发中存在的弊端。在本研究中,不管是算法、数据运算,还是数据储存方面都有了很大程度的优化,提高了程序执行效率。首先本文的设计有三个转换:面向文本→面向单词、字符匹配→数字运算、纯文本→结构化数据,这在很多功能开发上极大地优化了算法,简化了运算。另外语篇信息统计更加全面准确,检索定位更为快捷精确;同时引入XML数据保存格式,加强数据描述,解决多重赋码等问题;吸收倒排索引思想,提高检索效率;并利用词坐标的思想和数据优势,扩展高级功能,在词共现与词相关、词图方面做简要示例分析。
3.开放性设计,为语料库软件横向功能扩展和纵向功能深化提供新的突破口。本文独特的文本处理视角和对象化设计,使得开发设计更加开放;同时词坐标XML文件具有强大的数据优势,预处理过的数据执行效率更高,其描述性和格式化特点更易于管理和程序解读,且有很强的独立性和延展性等特点。
基于词坐标的文本处理系统虽非完美,但至少是可行且有效的文本处理方案,尤其在研究线性文本的结构关系方面,有其独特的优势。在该论文中,我们尽量简化功能处理,并辅以流程图示和代码解释,由浅入深,通俗易懂,从而为语料库软件开发提供一份有价值的参考资料。