基于领域文本大数据的快速分词系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:slb135
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词是汉语言成分中可以独立存在的有意义的最小单位,英文的单词通过空格可以明确划分,但中文的词之间没有什么分隔符,词本身也没有明确的形态标记。因此,中文词的划分不能像西方语系一样通过单词间的空格来实现。中文信息处理的特有问题就是如何将汉语的字符串分割为合理的词语序列,也就是中文分词技术。但在有共同主题的某一领域的文本大数据中,数据量在不断增加,比如一些社交媒体和网站评论,在这些领域内常常会出现一些新的词语,难以被发现和及时收录进词典。新词和领域专用词不断涌现,运用传统的基于词典的汉语词语切分技术,难以解决新词不能被识别以及实时分词慢的问题。这也是中文分词技术研究的一大难点。本文研究的问题就是如何在大规模数据领域内运用大数据技术和新的切分算法快速切分分词。本文设计的分词系统采用了一种面向领域的文本大数据快速分词技术,是基于统计的分词方法的一种,涉及大数据和自然语言处理领域。主要包括两个过程,第一,运用大数据技术对语料中的邻接字建立频次模型,即建立映射表。其次,运用新的切分算法,查找合适的位置将待分词句子切分为若干词语片段。本系统主要由构建映射表、分词服务和结果显示三个模块组成。映射表由Spark集群负责构造,前端显示采用Vue和HTML+CSS设计,后端分词由Flask服务器完成。本系统所采用的快速分词方法和效果有如下特点:(1)基于统计,不需要预先建立词典,和其他人工干预;(2)在专用领域的语料上有较强的新词发现能力;(3)分词时间复杂度为O(n),在特定场景下,分词时间快于其他基于词典的分词工具,如jieba分词和thulac分词
其他文献
光功能材料受到环境变化刺激时,会发生荧光性质的改变,从而传递出周边环境中存在的特定信息。其中,有机发光分子是光功能材料方向的研究热点。本论文对新型光功能有机共轭分子的结构设计及其性质进行了研究探索,具体工作包括:新型吲哚啉衍生物分子的合成及其性质的研究、萘酰亚胺-苯胺类荧光探针分子的合成及其性质的研究以及新型吲哚啉螺吡喃光致变色化合物的合成及性能研究等,并取得了如下创新性的研究成果:1.通过缩合反
图像去噪是图像处理的基础问题,也是信号处理领域的热点问题。只有尽可能地去除图像中的噪声,才能满足人们对图像清晰度和信息准确度的要求,才能进行图像的更高层次的处理与分析。随着去噪技术的发展,全变分去噪方法以它强大的数学支撑和优秀的图像边缘保持能力成为了图像去噪的重要方法。现有的全变分去噪模型大多只考虑水平与垂直两个方向图像梯度,在光滑区域存在阶梯效应;现有的求解算法存在着迭代次数过多,耗时过长的问题
微生物次级代谢产物与人类健康息息相关。自发现青霉素和链霉素以来,微生物来源的天然产物一直被认为是重要的药源分子资源库。慢性炎症可以引起气喘、动脉粥样硬化,甚至是癌症等多种重大疾病。因此深入发掘和筛选具抗炎活性的天然产物已成为天然药物化学的研究重点。本课题组在前期工作中从传统中药红花青藤中分离得到一株内生真菌Phomopsis sp.S12,并从其发酵浸膏中分离得到具抗炎活性的天然产物。本文以S12
随着我国经济的飞速发展和经济全球化程度的加深,跨国企业之间的合作日益突出,在利益驱动下衍生出利用无形资产成本分摊协议避税的情况,而我国税务机关想要更好地处理此问题,就必须对无形资产成本分摊协议反避税问题进行深入、全面的研究。因此,国际反避税成为如今的重要课题。无形资产转让定价是跨国公司国际避税的惯用手法,而成本分摊协议在无形资产合作研发中的运用使无形资产转让定价问题更加复杂,由此也出现了独立交易原
环氧沥青(EA)是一种性能优异的反应性聚合物改性沥青(PMA),目前已被广泛用于特殊路面的铺装。苯乙烯-丁二烯-苯乙烯三嵌段共聚物(SBS)作为一种重要的热塑性材料,在世界范围内被广泛地用于沥青的改性。本论文采用SBS和功能化SBS对自主研发的环氧沥青进行改性,分别研究不同苯乙烯(S)/丁二烯(B)结构的SBS对环氧沥青的微观形貌和性能的影响,以及溴化SBS(BrSBS)对环氧沥青在微观形貌以及阻
恶意软件的行为探测一直以来都是恶意软件检测的最核心的内容。通过检测恶意软件所有的行为模式,可以了解其工作流程,从而洞察恶意软件的内在逻辑。通常,发布的软件都会经过代码混淆,不容易直接通过静态分析探测出所有的行为逻辑。因此,对恶意软件进行动态分析就显得尤为重要。恶意软件动态分析系统的主要特点是方便快捷,且能够真实还原恶意软件在种种实际场景下的行为。在进行恶意软件动态分析之前,让恶意软件能够顺利地执行
雪冰孢粉作为一种直接、可靠的代用指标,能够反映不同时间尺度古气候和古环境变化信息。雪冰孢粉研究以雪冰中的植物花粉和孢子为研究对象,结合雪冰研究的特性以及孢粉研究的优势,为气候重建提供了一种新的手段。国外研究中,北极地区有区域性的雪冰孢粉研究工作,但是时间分辨率较低,孢粉鉴定种属也相对较少;山地地区雪冰孢粉现代过程研究较为深入,并且在孢粉辅助冰芯定年方面取得了较大进展。国内研究主要集中在青藏高原,关
随着人口老龄化和家庭少子化现象的加剧,独居老人的规模也在快速增长,独居老人群体晚年的生活质量普遍不高,生活满意度普遍较低等也成为了当前独居老人亟待解决的问题。独居老人晚年独自生活,并且通常伴有慢性疾病,在无人陪伴的情况下,独居老人们与外界的联系变少,长期的独自生活使得独居老人产生心理孤寂,情绪低落,拒绝与外界交流沟通等问题,长期以往对独居老人的生活质量造成了无法避免的降低。因此,如何帮助独居老人积
深度学习模型近年来在图像识别、自然语言处理等方面上取得了很好的应用效果。伴随着性能的提升,深度学习模型的结构日趋复杂,对存储和计算消耗的需求越来越大。为了降低模型的复杂度,研究者们主要进行了三个方向的研究:模型参数的量化(Quantization),模型参数、结构的剪枝(Pruning)和轻量化模型的设计(如SqueezeNet等)。目前的深度学习量化算法通常将CNN卷积核中的参数替换为量化目标值
随着天然产物化学研究工作的不断开展,从传统的动植物当中寻找新的药源分子变得愈发局限,动植物共生菌与海洋等来源的特境微生物成为研究热点。通过大批量地,对这些来源于动植物以及海洋的微生物进行筛选,从菌种类型、菌落形态、产物特征吸收、产物分子量及分子式等角度出发,挑选出具有较高研究价值的菌株,对其代谢产物进行分离纯化,结构鉴定和活性测试,以期获得具有潜在成药价值的次级代谢产物。在本文中,从大量的菌株里,