论文部分内容阅读
自然语言处理(NLP)被广泛应用于不同的研究领域,包括文本分词、语音识别、文本信息的处理、人工智能等,对文本中名词或短语的处理是NLP研究的重要内容。名词或短语研究的主要目标之一是探讨将传统的关键词和句法方法、语义方法相结合的可能性,以提高信息处理与分析的质量。大规模开放在线课程(MOOC)为大众提供了丰富的学习资源,并且MOOC讨论区成为学生和教师之间进行深入互动的主要交流途径。因此,讨论区中适当长度的学生-助教的讨论对于MOOC讨论区的提问者和观察者来说尤其宝贵。本文利用NLP技术深入挖掘MOOC讨论区中学生-助教问答文本(学生问、助教答)信息,提出了一种挖掘问答文本概念传递特征的自然语言处理方法。本文利用Stanford Word Segmenter对问答文本分词,再用Stanford POS Tagger标注问答文本词性,提取问答文本中的名词(即概念),将文本中提取的概念通过语言知识库HowNet/WordNet得到每个概念对应的上位概念。然后结合网络分析工具UCInet、文本分析工具CRIE/Coh-Metrix,将概念传递过程视为一个有向图建模。选取平均路径长度、语义具体度、出/入(度)、可读性和LSASS1(上下句重叠度)作为分析概念传递特征的五个指标,挖掘问答文本中概念传递的特征。在挖掘问答文本概念传递特征的自然语言处理方法的基础上,为研究MOOC讨论区中学生-助教长/短跟帖讨论的概念传递特征,收集了 MOOC/edX讨论区的学生-助教问答记录。此外,我们收集了不同科学讲座中科学家-听众之间(科学家组)的问答文本和不同新闻发布会中的发言人-记者之间(发言人组)的问答文本作为两个对照组。设计科学家和发言人、学生-助教(长/短)与科学家和发言人、学生-助教(长)和学生-助教(短)三个对比实验,研究学生-助教(长/短)跟帖与科学家和发言人问答文本中的概念传递特征的关系。实验发现MOOC讨论区中的助教要推动讨论区中的讨论,应该使用上下句重复度较低的句子,并应该像新闻发布会上的政治发言人一样保持概念之间的紧密联系,像科学讲座中科学家一样适当地应用较抽象的概念。本文提出了一种挖掘问答文本概念传递特征的自然语言处理方法,可以提取概念和分析概念传递的特征,其实验研究结果可以为MOOC讨论区助教推动讨论区的讨论提供实践指导。