论文部分内容阅读
作文素材在小学语文作文教学信息化辅助的过程中不可或缺,但当前网络上作文素材数量繁多却缺乏个性化推荐模式,极易引起小学生知识过载现象。同时,作文素材存在的非结构化数据特征,使得计算机对其进行读取存储操作过于繁复,进而对数据的有效组织产生阻碍。文本标签是对文本内容的一组词汇描述,包含了非结构化数据文本向结构化数据文本转换所需的信息。原始小学语文作文素材语料存在的大量冗余信息,会对文本标签的获取产生干扰。针对上述问题,本文研究作文语料的文本自动摘要处理方法来有效去除冗余、提取文本中心内容。本文创新之处是在完善作文标签定义的前提下,提出了一种基于文本自动摘要的小学语文作文标签提取方法。本文主要研究工作如下:(1)前期探索。本文对作文标签抽取过程中涉及到的关键技术进行了概述。最终基于效率及可行性分析,明确了抽取型文本自动摘要技术、基于词典的分词技术以及有监督的命名实体识别方法作为标签抽取过程中的主要技术框架。(2)相似度算法选取。本文选用抽取型文本摘要主流算法TextRank进行原始文本去冗余操作。同时对经典相似度算法、基于编辑距离的相似度算法、基于Word2Vec的相似度算法以及基于BM25的相似度算法进行了实验比较。最终基于ROUGE评分标准及时间效率的综合评价,选取基于BM25的相似度计算方法为TextRank提供权值计算。(3)标签提取。本文给出了一种小学语文作文标签定义方法。该方法由文章分类、核心实体及关键描述组成。同时,依据分类定义了标签抽取的效果评估指标。进而通过对文本进行分词的词性识别及命名实体识别获取相关信息,并对每一分类做出字数、词频上的限制以保障抽取结果的准确性。实验证明,在于传统关键词提取算法的对比中,本文所提小学语文作文标签抽取策略具有显著优势。(4)应用模型分析。本文针对小学语文作文标签的应用场景与应用模型进行了初步探索,建议了一种包含标签的RDF模型方法,在生成结构化数据的同时满足了关联数据构建的需求。