低频词相关论文
中文短文本分类中存在大量低频词,利用好低频词中的信息能有效提高文本分类效果,针对基于词向量的文本分类研究中低频词不能被有效......
在市长公开电话数据中,突发性事件的检测是比较困难的一类问题,它与常规性、季节性问题相比更具有不确定性。突发事件出现时,往往......
词的向量表示是以深度学习方法为主的自然语言处理核心问题。词向量被广泛地应用于多种自然语言处理任务当中,是一种有效的提升下......
本文运用语料库语言学的研究方法,在构建语料库的同时,利用HyConc、UltraEdit等语料处理软件,对《人民日报》中的社论文和评论文在用......
随着2022年北京冬奥会的临近,有必要构建一个与冬奥会相关的垂直领域知识图谱,但目前网络上没有较完整的冬奥会相关术语集,因此,需......
摘 要:双音反义复合词在对外汉语词汇教学中并没有引起足够的重视。究其原因,一是丰富的研究成果未能及时地用于课堂教学,二是在《汉......
利用最大熵模型深入探讨了中文词性标注问题。针对低频词的性能差问题,在原有常用特征的基础上,提出了新颖的低频词特征,实验表明,......
对联是中华传统文化中一种独特的艺术形式,其要求上下联之间长度结构相同、语义相似、对仗工整和平仄和谐,体现了中华语言的美感,......
布茨定律反映了英文文本同频词的分布规律,但布茨定律是否适用于中文文本很少有学者对其进行深入研究。为了探究布茨定律对于中文文......
研究了单词语义相似性计算方法,其中基于知识的方法和基于语料的方法是两种主要方法。这两种方法及其融合方法都把单词看成一个整......
众多自然语言处理(Natural Language Processing,NLP)任务受益于在大规模语料上训练的词向量。由于预训练的词向量具有大语料上的......
确定一定数量的高频词是识别研究热点的基础性工作,但是目前对于如何确定高低词频的分界点还缺乏客观的、行之有效的方法。本研究以......
词向量是词的低维稠密实数向量表示,在自然语言处理的各项任务中都扮演了重要角色。目前词向量大多都是通过构造神经网络模型,在大......
新“汉语水平考试”由国家汉办自2009年推出,至今已历经八年。新“汉语水平考试”在考试等级和试题结构等方面都作出了重大调整,更......
本文旨在利用Visual FoxPro制作的检索工具对英国标准书面语语料库LOB(Part A,Part B)中的自然语言进行词频分布的统计;针对统计结果......
本研究采用基于语料库的研究方法对100万单词的LOB和100万单词的BNCS(抽自1亿单词的BNC)中的自然语言进行比较,旨在发现英国标准书......
【正】 美国哈佛大学语言学教授齐普夫(G.K.Zipf)在本世纪30年代,经对英语文集中单词的出现频率进行统计后发现:尽管作者使用相同......
术语自动抽取是信息处理领域的基础性课题,日益受到研究者的关注。似然比方法能有效抽取低频词汇,但抽取准确率偏低。为了解决这个......
针对电力客服对话文本存在的错误文本较多、口语化程度高和标注数据少等问题,提出了一种基于双向传播框架的电力客服对话文本挖掘......
CHI是文本分类中特征选择的重要方法.本文分析了CHI特征选择的特点,针对该方法的不足之处,提出了一种新的基于最低词频CHI的特征选......
文章从词长、长词及词类分布、类符形符比、词汇层级概貌等方面数据分析了理工科重点院校学生英语书面语词汇复杂度的发展特征。作......
语言的复杂性是考量二语写作质量的参考之一,目前,以词汇复杂性为内容探讨英语写作的研究不在少数,但考察议论文写作语料的研究尚......
本研究讨论了内容依托教学法在高校大学英语基础阶段教学中的应用,着重分析了内容依托式教学对非英语专业大一新生产出性词汇能力......
确定分析语料中的高频词是进行科学计量研究的基础性工作,高频词的数量直接影响研究结果。虽然目前科学计量学在各个学科得到了广......
威廉姆斯综合征儿童对低频词的使用这一词汇的特征引起了语言学家的关注,对于这一现象产生的原因也出现了多种不同的解释。梳理为......
由“惟”“唯”以及另一个“维”作语素构成的词语在现代汉语中形成了一个较庞大的系列异形词族,这些异形词绝大部分是常见词,使用率......
本实验结果发现,词频影响单词的识别,语境的作用随SOA 的长短而变化.当SOA 较短时相关语境对高低频词的识别均有显著的促进作用,无......
通过英语单词联想测试考察了二语心理词汇结构与词频效应的相关性,研究对象为英语专业三年级学生。结果表明,词频效应与二语心理词......