【摘 要】
:
国内当前以语料库为基础的研究,在研究工具方面,多以Ant Conc、Power GREP为主,使用Python语言NLTK包进行数据处理分析的研究较少,限于软件自身设计,不能灵活地对研究方法提
论文部分内容阅读
国内当前以语料库为基础的研究,在研究工具方面,多以Ant Conc、Power GREP为主,使用Python语言NLTK包进行数据处理分析的研究较少,限于软件自身设计,不能灵活地对研究方法提供支持。在研究中使用Python语言的NLTK处理包,使数据有了统一标准,避免了各类文字处理转换的麻烦,同时也弥补了Range等工具在句法分析、图形绘制、正则表达式检索等方面的缺憾。针对语料库研究的中文本分词、词形归并、文本检索统计等主要环节,简要介绍Python语言的NLTK自然语言处理包在语料库研究中的运用,并以古腾堡语料库中的简·奥斯丁小说《艾玛》为例,说明如何运用该自然语言处理包对语料进行加工处理。
其他文献
新股抑价现象一直是各国证券市场常见现象,研究者众多,但国内对新股抑价的研究多集中在2014年以前,但在2014年6月之后,新股发行制度方面有所改变,发行市盈率被限制在23倍以下,首日交易价格也作出了限制,因此本文主要研究2014年6月份新股发行制度改革之后上市新股的抑价现象。在投资者对新股追捧之下,刚上市的新股都会走出连续涨停板的走势,此时用之前的新股首日涨幅已经不能够反映新股的抑价程度。本文使用
目的探讨血清肌钙蛋白T(cT nT)与氨基末端脑钠肽前体(NT-proB NP)联合检测在急性心肌梗死诊断中的应用价值。方法选取福建省肿瘤医院2013年10月至2015年10月接收的31例急性心
<正>面对庞大的市场需求,防晒伞市场的"战火"随着气温的攀升而不断升温又到了"距离烤肉只差一撮孜然"的季节,对于爱美女性、紫外线过敏以及经常外出的人士来说,轻便有效的防
论文以江浙民间传统建筑屋面为研究对象,探讨其营造工艺,屋面提栈,施工、构造地区特色差异等问题。论文以大量一手调研为研究基础,再进行分析归纳及进一步理论升华。对民间屋
结合桂林市“十二五”规划,对桂林市2015、2020年河道外需水量进行了分析计算。结果表明,需水量呈波动上升趋势,2015年末将达到44.42×108 m3,2020年末将达43.73×108 m3
装置艺术始于20世纪60年代,是现代艺术的重要表现形式。艺术家们以日常生活中常见的物质材料为基础,设计并制成独特而多样的装置作品,并通过在特定的环境中放置,形成具有鲜明
无缝定位技术被认为是移动位置服务的支撑技术,讨论了基于无线局域网(WLAN)的城区室内外无缝定位技术,利用室外公众电话亭WLAN和室内普通WLAN信号,基于实际环境建模的简化无线
在智能化为标签的时代,机器人是一个不可缺少的元素。目前,各行各业对实体机器人的应用都表现出了强烈的需求,如通信、电子商务、智能家电等,在金融领域,对智能机器人的技术应用也
目的:探讨臭氧大治血疗法配合颈椎物理疗法对椎动脉型颈椎病的效果。方法:148例椎动脉型颈椎病患随机分为治疗组75例和对照组73例,对照组采用中频、电针、TDP、推拿手法治疗,
1 舆情综述$$6月9日,农历五月初五,是我国传统节日端午节。作为中华优秀传统文化的重要组成部分,端午节蕴含着华夏民族独特而丰富的精神内涵和文化特质。而在新的时代背景下,面对