基于词坐标的文本处理、数据管理及应用设计——英语语料库软件设计与开发

来源 :河南师范大学 | 被引量 : 0次 | 上传用户：tianzhizui

【摘要】

：

语料库语言学以文本数据作为研究对象，通过计算机检索和统计分析来揭示隐藏在文本中的语言事实。文本是唯一的数据源，研究者通过语料库检索获取信息，知识在基于信息统计的意义上

【作者】

：

汪宏

【机构】

：

河南师范大学

【出处】

：

河南师范大学

【发表日期】

：

2009年期

【关键词】

：

英语语料库软件开发文本处理数据管理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语料库语言学以文本数据作为研究对象，通过计算机检索和统计分析来揭示隐藏在文本中的语言事实。文本是唯一的数据源，研究者通过语料库检索获取信息，知识在基于信息统计的意义上得到解释。检索和统计是语料库语言学研究的重要技术和手段，且大规模文本是其研究的必然要求，所以计算机和专业软件就成了必不可少的工具。而目前语料库软件相对贫乏，功能单一，且难以扩展升级；同时由于技术开发和理论研究的脱节，使得当前语料库软件很难满足实际研究需求。本文提出一种新的文本处理思路和方法：基于词坐标的文本处理系统，文本处理时进行切词并坐标化，生成词坐标对象，并基于词坐标对象进行检索统计分析及开发高级功能应用等。这在一定程度上解决了目前所遇到的一些困难和问题。概括起来，本文的其创新和贡献有： 1.提供了一套新的文本处理思路和完整的可行方案，并开放源代码。目前语料库软件开发方面的文献资料和代码资源非常匮乏，国内几乎是空白；各软件发行者考虑到商业利益或学术保密，拒绝共享其研发成果。诸此等等，造成了语料库软件开发进展缓慢、重复开发、功能有限等局面。基于词坐标的文本处理系统提供了一套完整的操作方案：文本预处理、切词、统计运算到输出保存、检索定位、索引行显示等，并对其操作流程进行了详细地解释。本文采用面向对象编程语言JAVA，开放源代码供大家参考借鉴。 2.优化算法，解决部分难题，改进前人在软件开发中存在的弊端。在本研究中，不管是算法、数据运算，还是数据储存方面都有了很大程度的优化，提高了程序执行效率。首先本文的设计有三个转换：面向文本→面向单词、字符匹配→数字运算、纯文本→结构化数据，这在很多功能开发上极大地优化了算法，简化了运算。另外语篇信息统计更加全面准确，检索定位更为快捷精确；同时引入XML数据保存格式，加强数据描述，解决多重赋码等问题；吸收倒排索引思想，提高检索效率；并利用词坐标的思想和数据优势，扩展高级功能，在词共现与词相关、词图方面做简要示例分析。 3.开放性设计，为语料库软件横向功能扩展和纵向功能深化提供新的突破口。本文独特的文本处理视角和对象化设计，使得开发设计更加开放；同时词坐标XML文件具有强大的数据优势，预处理过的数据执行效率更高，其描述性和格式化特点更易于管理和程序解读，且有很强的独立性和延展性等特点。基于词坐标的文本处理系统虽非完美，但至少是可行且有效的文本处理方案，尤其在研究线性文本的结构关系方面，有其独特的优势。在该论文中，我们尽量简化功能处理，并辅以流程图示和代码解释，由浅入深，通俗易懂，从而为语料库软件开发提供一份有价值的参考资料。

其他文献

喀什地区莎车县温室大棚的现状及对策分析

温室大棚是作为设施农业的一种,是最有效的节水生产和改良土地的方式,是大幅提高农民收入水平的现代化农业成产方式,温室大棚在莎车县地区具有明显的发展优势,发展温室大棚从

期刊

农业发展莎车县收入水平对策分析年平均农业生产扶贫资金对口支援外向型农业农业科技

日本におけるニート現象についての研究

わが国でのこート現象についての研究はまだ始まったばかりの段階にある。本論文を通し、わが国は日本を鏡として、日本のニート問題を研究することにより、自国の問題点を反

学位

青年人失业现象离职率价值观职业能力日本

《青草在歌唱》生态女性主义解读

多丽丝·莱辛，以多变的文学视角和丰富的创作成果享誉世界文坛，2007年荣获诺贝尔文学奖。莱辛的第一部小说《青草在歌唱》一直是学者们关注的焦点。小说故事发生在20世纪中期的

学位

生态女性主义英国文学《青草在歌唱》小说创作文学批评多丽丝·莱辛

基于图式理论视角的中学英语阅读教学的实证研究

阅读是从书面语言中获取信息的一种复杂的智力活动，是非常有用的技能。中学英语阅读教学一直以来受到师生的重视。但是由于高中英语教师缺乏理论的指导，阅读教学成为一项艰难任

学位

中学英语英语教学阅读教学图式理论

大众传媒语篇中的互文性引用

互文性理论是当代西方后现代主义文化思潮中产生的一种文本理论。它最早来源于巴赫金的对话理论，1967年，法国学者克里斯蒂娃在《词语，对话与小说》一文中首次提出“互文性”（иHT

学位

大众传媒互文性引用传媒语篇语言文化学新闻语篇语用功能

福克纳小说《八月之光》的主题解读

《八月之光》是威廉·福克纳“约克纳帕塔法世系”的第五部小说，也是二十世纪美国文学经典作品之一。它讲述了一个乡下女孩到杰弗生镇寻找自己的未婚夫从出发到离开九天之内发

学位

《八月之光》种族主义清教主义威廉·福克纳美国小说创作主题

基于英汉平行语料库的军事外宣翻译特点研究

军事外宣翻译是我军对外宣传的重要环节，由于军事外宣领域的特殊性，军事外宣翻译既有翻译的共性特征，也具有区别普通翻译的自身独特性。　　本文以军事外宣翻译为研究对象，利用语

学位

英汉平行语料库军事外宣翻译中国国防白皮书词性标注语言特征

2013年（第14卷）总目次

期刊

江苏一金店情人节推出黄金玫瑰

情人节前夕,江苏连云港市赣榆县一家金店展示“黄金玫瑰”。这些用千足金打造的“玫瑰”造型逼真,尽管价格昂贵,仍然受到一些顾客的青睐。 On the eve of Valentine’s Day,

期刊

江苏连云港市

世俗的蜕变，生命的涅槃——对约翰·厄普代克作品《巴西》的后殖民女性主义解读

约翰·厄普代克（John Updike，1932-2009），是集美国长篇小说、短篇小说作家、诗人、剧作家、散文家和评论家于一身的美国当代文学大师。“性爱、宗教和艺术”是厄普代克毕生追求的

学位

后殖民女性主义种族歧视性别歧视《巴西》约翰·厄普代克美国文学

基于词坐标的文本处理、数据管理及应用设计——英语语料库软件设计与开发

与本文相关的学术论文