非汉字文化圈学生错别字数据库建设及其网络应用构想

来源 :“文字与信息”学术研讨会 | 被引量 : 0次 | 上传用户:starcui123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文详细介绍了已建成的“非汉字文化圈学生错别字数据库”,该数据库客观反映了外国学生在汉语学习过程中的错别字现象,并为使用者提供了完备的统计检索功能;拟建立的网络应用平台系统将扩大其使用范围及语料和错别字信息收集途径,有利于为对外汉字教学研究构建一个资源丰富的学术平台。
其他文献
选择性集成学习已经成为分析基因表达数据获取生物学信息的有力工具。为了更好地挖掘基因表达数据,利用极限学习机的集成,克服单个ELM用于数据分类时性能欠稳定的缺点,该文提出了一种基于输出不一致测度的ELM相异性集成算法(D-D-ELM)。算法首先以输出不一致测度为标准对多个ELM模型进行相异性判断,其次根据ELM的平均分类精度剔除掉相应的模型,最后对筛选后的分类模型通过多数投票法进行集成。算法运用到B
数据密集型应用中的核心循环消耗了程序的大量执行时间.如何实现核心循环在粗粒度可重构体系结构(CGRA)上的有效映射仍是当前研究领域的难点.为了在CGRA上最大程度开发应用并行性,降低循环访存开销,提高硬件资源利用率,文中提出一种新颖的面向CGRA循环流水映射的数据并行优化方法.通过定义一种新的可重构计算模型TMGC2以实现对循环的多条数据流水线并行加速.为避免并行化执行带来的额外存储体冲突问题影响
获取Web页面中的重要内容如文本和链接,在许多Web研究领域有着重要的应用价值。目前针该问题主要采用Web页面分割和区块识别的方法。但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法割裂了Web页面中本文和链接的内在语义关系,同时降低了页面处理的效率。本文提出了一种Web页面重要内容挖掘的统一框架,该框架主要由三个部分组成:第一,先将Web页面转换为DOM树表示,然后采
本文探讨片上网络在执行真实并行程序时的能耗和性能关系并提出一种能耗/性能优化方法。首先,本文提出了一种精确的性能-能耗模型,(a)首次在性能和能耗模型中同时划分出与频率相关和与频率无关的因素,并分析其对性能和能耗的影响。(b)其次,首次在性能-能耗模型中建立并行开销、片外访存开销与片上网络规模(节点数)、频率之间的关系,同时引入了并行度、通信模型等与应用相关的因素,使该模型能够同时表达软硬件特性。
写字教学,是小学教学的重要组成部分。指导学生写好汉字,是小学阶段的重要任务,所以对小学生汉字书写质量的评判就显得尤为重要。本文提出用于评判汉字书写端正性的23个评判侧面,并根据汉字层次结构和汉字规范结构原则分别对提出的端正性侧面进行分类。同时本文对提出的端正性评判侧面进行了详尽的认知实验,实验结果表明,不同标注人对相同汉字标注的侧面数量差异比较大,这根据个人汉字评判严格程度的不同而有所区别。但是对
本文提出了一种针对重叠书写的中文手写句子实时识别方法.采用切分和识别集成的字符串识别框架,首先用支持向量机判断新输入的笔划是否属于新的笔划块,并对笔划块进行合并得到候选字符,进而用单字分类器对候选字符进行识别得到候选类别,形成一个候选切分-识别网格.每当提笔时间大于设定的阈值时,系统假设字符串输入完毕,并对候选切分-识别网格进行最优路径搜索得到句子识别结果.本文方法充分地利用了笔划块的几何信息,针
本文研究的主要问题是, OCR系统在处理维吾尔文和中文、英文混排文档时会碰到的文种鉴别的问题。我们主要研究在文本图像经过切分处理形成的单字符图像后,如何进行文种判别,来为选择合适的OCR核心提供依据。我们提出的方法是用一组Gabor滤波器来提取特征,并利用支持向量机来分类。我们做了两类实验,首先验证了上述方法在训练和测试样本上的性能,然后又比较了在分别引入PCA和LDA作为降维方法的情况下,两者性
迄今为止国内外对留学生汉字书写行为的研究对象大多为留学生书写的“成品字”,是静态的书写结果。鲜有建立在较大规模动态手写汉字库基础上,对书写者、书写环境、书写结果和书写过程等全面书写行为信息进行研究。建设包含书写结果、书写过程、书写者和书写环境等全面书写信息的留学生动态手写汉字库,并在此基础上进行标注,不仅可以作为对外汉语教师、对外汉语教学科研人员,以及相关领域的研究人员的数据资源,有助于对外汉语教
甲骨文考释在甲骨学研究中是一个重要课题,针对甲骨文的特点,提出了一种基于语义的模糊匹配算法,该方法把语义的理解和模糊模式匹配相结合,从而辅助甲骨文学者进行考释工作。
甲骨文字是有别于现代汉字的一种雕刻在牛骨或龟甲上的象形文字。现代汉字字形的计算机描述方法不能完全应用于甲骨文字形的描述。基于甲骨文字形多变,异体字多等特点,提出了一种基于甲骨文字形描述库的字形特征提取和编码算法,该算法不仅可以实现甲骨文字形的基本的输入输出运算,而且该算法的编码方案不这依赖任何操作系统,便于自动生成多种甲骨文字形。