面向学科的新词汇抽取方法及应用研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:Y13622229444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着学科的蓬勃发展,各个领域的新词汇大量涌现,这些具有专业特点的新词汇充分体现和负载了一个学科领域的核心知识和专业价值,它们的变化在一定程度上反映了一个学科领域的发展变化。专业新词汇的提取对于信息检索、数据挖掘、自动翻译等语言信息处理研究以及了解、把握一个学科领域的发展现状、未来趋向等具有重要的理论和现实意义。在新词发现领域,当前主要倾向于采用基于规则和统计相结合的方法来进行新词发现。研究的困难在于现代汉语构词法的灵活多样,导致很难找到一种通用的方法来发现各个领域的新词汇,并且现有方法的准确率和召回率都不高,性能还有待优化。本文提出一种贪婪的原子词汇构词法,用于教育技术学科新词汇的发现,为发现该领域的新词汇提供了一种新的方法。本文设计了一种面向学科领域的新专业词汇发现方法,该方法的实现部分包括文本预处理、基于贪婪的原子词汇构词法的新词串构建与统计、基于规则库的词串过滤、重复子串筛选、新专业词汇提炼和结果排序。对教育技术学核心学术期刊《电化教育研究》中的100篇论文用此方法进行分析,首先抽取出文中用“”、‘’、()、《》等特殊符号标志的长度不大于10的词串,形成候选新词表1;然后利用通用词典对全文进行分词,并按照词性去除不能构词的词语,再采用原子词汇构词法对文中的候选新词串进行统计,形成候选新词表2;词串过滤部分利用已有的不能构词的前缀词库和不能构词的后缀词库从候选新词表中过滤掉部分垃圾词串;再利用频率相减法对包含有相同内容的重复子串进行筛选,并借助领域词汇库的热点词根来进一步筛选掉部分垃圾词串;最后通过计算每个新词的TF/IDF值来对结果进行排序输出。最后将该方法应用到教育技术学领域,通过统计分析,得到该领域的若干新词汇。经过测试,算法的召回率和准确率都有所提高,说明此方法对于领域新词汇的发现是有效可行的。
其他文献
目的观察针刺配合胞磷胆碱钠片治疗面神经炎的临床疗效。方法80例面神经炎患者随机分为对照组和观察组,每组40例。对照组采用胞磷胆碱钠片联合甲钴胺片、维生素B1治疗,观察组
亨利·芬恩所著《华语对话》1953年出版于耶鲁大学远东语言学院。本书适用于初中级水平,词汇量基础较薄弱,大约500-1000词左右的美国本土学生。主要是成年第二语言学习者。教
目的 探讨临床上产超广谱 β 内酰胺酶 (ESBLs)细菌分离率的增加 ,是否与含 β 内酰胺酶抑制剂的复合β 内 酰胺类抗菌药物使用量有关 ,为抗菌药物的规范合理使用提供依据。
电影《喜福会》讲述了四对母女在迥异于本土文化的异国他乡在思想、文化、观念上的激情碰撞。故事本身的错综复杂带有典型东方思维,而两种带有强烈对比特征的场景——中国社
以汶川8.0级地震灾害中民政部门使用无人机采集数据、评估灾情、监测灾后恢复重建进展情况为例,总结灾害监测无人机技术在灾害救助过程中的积极作用,归纳其技术范围,分析其应
以辽宁省凤城县大梨树生态农业观光旅游景区为例,分析目前乡村旅游景区英文标识语在设置和翻译方面存在的问题,通过音译与直译结合、直译与意译结合、增译和减译三种方式,给
目的 掌握浙江省托幼机构卫生保健现状,规范集居儿童的卫生保健管理,为提高本省托幼机构儿童的卫生保健水平提供科学依据。方法 根据浙江省托幼机构卫生保健年报制度,对2006
从生理角度研究语音一直是语音学的重要手段。随着科技的快速发展,为了更有效地获取发音器官的数据,实验语音学所使用的设备也不断更新换代。现如今,电磁发音仪因其获取数据
地质灾害的产生对人类的生活和安全造成了严重的威胁。工程师们在对现代建筑物注重美观和实用性的同时,也加大了对建筑结构抗震设计的研究。建筑物的抗震设计是指在重视"计算
康熙初年,李复修在知韶州府、广州府事任上二度为澹归今释《徧行堂集》(《前集》《续集》)作序;《徧行堂(续)集》收录的诗文书札反映出他们之间深厚的友谊;考证李复修这位重