面向英语学习的文本难度判定

被引量 : 0次 | 上传用户:tianwang800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
英文文本难度判定是应用语言学和信息处理领域的重要课题,正广泛应用于教学、出版和搜索引擎等领域。现在的网络资源非常丰富,如何高效准确地为不同水平的英语学习者提供适合自身水平的阅读材料,是文本难度判定面临的最大挑战。本文首先介绍了一种在国际上广泛使用的文本难度判定方法:基于易读性公式判定文本的难度。通常易读性公式使用文本的词汇难度和句法难度来判定文本的难度,词汇难度以词频和词长来衡量,句子的难度以句子的长度来衡量。目前易读性公式已有上百个,本文选择了三个典型的易读性公式傅莱区易读性公式(Flesch Reading Ease)、迷惑指数(Gunning Fog Index)和自动易读性指数(Automated Readability Index)在一定数量的文本上进行了验证。尽管通过易读性公式进行文本难度判定比较容易施行,但是计算值过于集中,无法进行等级划分。本文试图建立一种有广泛应用价值的模型判定文本的难度,向量空间模型是一种典型的文本表示方法,它不考虑词汇之间的顺序,把文本表示为向量空间中的一个向量,文本的相似度可以通过内积或者夹角余弦值来计算,实现起来比较方便。本文基于向量空间模型进行文本难度判定,把文本难度判定问题当成是一个分类问题来解决。这种方法有很多的优点,其中之一就是它的结果不是二元值,而是它的整个训练集上的概率值,第二就是提供额外的信息。本文对几种常用的特征选择方法如文档频率、信息增益、互信息、X 2统计量、期望交叉熵、文本证据权、几率比等进行了分析,并进行了实验验证,结果表明几率比效果最好,互信息效果最差。分析了TF-IDF权重算法的不足,考虑结合TF-IDF与类间、类内分布信息的改进了权重算法,实验结果表明改进的权重算法提高了分类的F1值。最后主要考察了Rocchio’s算法,K-近邻法、朴素贝叶斯法这三种分类算法,通过实验检测了这三种算法的性能,结果表明多项式贝叶斯方法的分类F1值最高,达到了80%以上。
其他文献
古罗马的卡图卢斯确立了欧洲的爱情诗传统。其"莱斯比娅系列"是欧洲文学史上最早以个人经历为原型的爱情组诗。这些作品记录了一段完整的恋爱历程,浓缩了深度的情感体验,反映
芝村龙蚕会存储了诸多民间记忆 ,在跨学科的对话中解读这些记忆 ,是阐释近世以来芝村社群关系的可能途径。在宗教社会学视野中 ,庙会生活的一个独特侧面是其加强、象征和映射
随着我国素质教育的不断发展和完善,义务教育中对小学生创新能力的培养也开始逐渐的重视起来,小学语文作为义务教育课程当中的基本课程之一,对学生创新能力的培养具有十分重
介绍了在不同条件下无烟煤单层滤料除铁、除锰、除浊的试验和生产实践 ,并与锰砂除铁、除锰 ,无烟煤 石英砂双层滤料处理进行了对比试验。结果表明无烟煤单层滤料的除铁、除
世俗政治与宗教政治的此消彼长,是20世纪伊朗历史的突出现象。巴列维时代世俗政治的膨胀无疑是伊朗现代化进程的重要环节,霍梅尼时代现代宗教政治的滥觞则是巴列维时代世俗政
文章讨论了非弹性碰撞的模型 ,提出了精确测定碰撞时间的方法;采用摆动碰撞法 ,具有快速、平稳、精确、无损伤的特点;讨论了碰撞时间测量的应用价值。
随着网络信息技术的不断发展,在生活和教育中网络信息技术得到了越来越广泛的运用。在新课程改革的大背景下,把多媒体技术运用在教育教学中作为辅助工具,以达到充分转变教学
目的 研究肝癌患者接受肝切除手术后早期不同时间采用不同进食方式对肝功能和恢复的影响情况。方法 60例原发性肝癌患者,根据进食方式不同分为观察组和对照组,每组30例。对照
骨骼肌是人体最大的单一器官 ,其质量占整个人体 40 %多 ,参与完成人体所有的物理活动。因而肌肉和肌筋膜极易发生损伤 ,但临床的注意点大多集中在骨骼、关节和肌腱上。对肌
本文综述了核桃营养价值和保健功能,展示了核桃仁、核桃木、核桃叶、核桃青皮、核桃壳的加工技术,阐述了核桃综合利用研究方向,并探索其发展前景。