论文部分内容阅读
随着信息技术的高速发展,各种服务和应用软件不断涌现,人们日益普遍地使用计算机来完成日常生活中的任务。然而,缺乏计算机科学方面的专业知识,使得非专业人士难以与系统交互并获得有用的信息。因此,自然语言处理作为一种可以使计算机分析与理解人类语言的方法吸引了来自世界各地研究人员的兴趣。本文以机器学习为核心,在自然语言的处理和传输两个领域开展研究。在自然语言处理中,首先探索了一种通用的生成词向量的技术,即集成词嵌入,通过集成已有词嵌入向量集和语义知识库来生成一种更高质量的词嵌入向量集。进而,探索了两种特定的自然语言处理任务:在线学习中的语法问题检索技术和个性化推荐技术,分别提出基于模糊树匹配的检索方法和基于内容的推荐方法。其中,集成词嵌入均作为辅助技术可以进一步改善检索和推荐结果。在自然语言传输中,探索了基于深度学习的物理层传输技术。具体研究内容包括4个方面:首先,研究了集成不同词嵌入向量集和语义知识库的方法。现有的方法大多根据大型语料库中的词分布信息学习得到词嵌入向量集。这种方法虽然可以得到语料库中包含的语义信息,但忽略了包含在语义知识库中有价值的信息,例如ConceptNet。而且,不同词嵌入向量集在质量和捕获信息特性等方面差异很大。因此,我们提出了一种从多种开源词嵌入向量集和语义知识库中集成学习更高质量的词嵌入向量集的方法。同单个词嵌入学习方法和未融入语义知识库的集成方法相比,所提集成方法在多个自然语言处理的标准评估任务中都展现了更好的结果,例如词相似任务和词类比任务。其次,研究了面向语法问题的检索方法。在给定一个查询语法问题时,找到相似语法知识点的问题。由于语法问题的检索目标和常规信息检索问题不同,现有的统计分析和语法分析方法不适用于语法问题的检索任务。因此,我们提出了一种基于树匹配的方法用于检索语法问题。首先,提出了一种新的parse-key树结构,用来捕获语法问题的语法信息。然后,提出了两个核函数来计算parse-key树之间的相似度,即模糊树核函数和POS排序核函数。此外,我们还提出了词嵌入相似度、词性相似度和文本相似度,用于进一步提高检索准确度。再次,研究了个性化语法资料推荐方法。根据用户的个人选择和语法资料的特征,个性化推荐适用于他的语法资料。由于现有的推荐方法不适用于语法资料的推荐任务,我们提出了一种高效的基于语法特征提取的推荐方法。首先,提出了统计类、词性类、语法关系类和词嵌入类4个类型的语法资料特征。然后,基于所提特征,我们使用标准线性模型完成推荐。就我们所知,我们的工作是第一个提出针对语法问题的推荐方法。实验结果表明,所提推荐方法在准确度和效率上均取得了很好的表现。最后,研究了基于深度学习的自然语言传输方法。传统的块状通信结构在复杂场景下难以求解最优值且计算复杂度高。本文提出了一种端到端的自然语言传输方法。同传统的通信系统单个处理每一个模块不同,本文将整个通信系统当成一个编码器和一个解码器。实验结果表明,所提方法可以由数据驱动来学习未知信道模型的最佳解决方案。