学术资源中英文分词和分布式存储系统的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:bigsoul
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网学术资源的规模在快速增长,对这些学术资源信息的处理、分析和存储成了当前亟待解决的问题。其中,中英文词语分析是中英文信息处理的基础与关键。通过分词,可以将连续的字序列按照一定的规范重新组合成词序列,为进一步处理信息提供了基础。基于字符标注的条件随机场(conditional random fields,CRF)等统计机器学习方法是中文分词的主流研究方法。目前效果最好的英文分词方法是基于规则的Stemmer等方法。学术资源中英文分词模块是课题组开发的学术资源推荐系统进行数据处理和分析的基础,对整个系统搜索、推荐等功能起到了重要的作用。学术资源数据需要使用分布式存储系统,以便更好地实现学术资源推荐系统的数据存储、检索和容灾服务。本论文从学术资源的中英文分词和分布式存储两方面展开研究和系统设计实现,具体研究内容和成果如下:(1)设计并实现了基于斯坦福分词器的学术资源中文分词系统。通过中文分词技术的研究、中文标注语料的获取、模型训练以及中文分词模块的封装,对比分析了基于CRF++的分词系统与斯坦福分词器的分词性能,实验结果表明斯坦福分词器对于学术资源信息分词准确率高、稳定性强且可扩展性较好。(2)设计并实现了基于Lucene的学术资源英文分词系统。分析了 Lucene源码,重写分词接口,实现英文分词的小写化、规则化,完成英文分词模块的封装,然后基于中英分词模块实现了学术资源多线程中英文分词模块的设计与开发。(3)设计并实现了基于HBase的学术资源分布式存储系统。通过对HBase存储、检索技术的研究,设计了学术资源存储方案,并完成系统实现。经线上运行测试,该系统支持海量数据存储,并且具有安全性高、检索速度快等特点。
其他文献
目的:通过观察通腑泻肺方治疗呼吸机相关性肺炎(VAP)肺胃热盛证的临床疗效及相关炎症指标,初步探讨该方的临床疗效和作用机制,为呼吸机相关性肺炎的治疗提供新方法和思路。方法:运用随机数字表法将符合纳入标准的60例患者分为试验组和对照组,每组各30例。对照组给予常规西药治疗,试验组在常规西药治疗的基础上加用中药通腑泻肺方水煎剂,鼻饲。观察两组治疗前后的临床疗效及血清相关炎症指标水平变化。结果:1.治疗
在大规模野外环境监测应用中,由于实地环境复杂多变和基础通信设施不完善,使用单一通信手段通常不能满足感知数据的传输需要。因此,如何构建具有多种无线通信方式和自组织网
推荐系统有效解决了信息过载问题,但推荐过程中用户隐私泄露已经引起大量的关注。为了提供高质量的推荐服务,用户的隐私往往被不信任的推荐系统所获取。同时,恶意的攻击也常
随着全球气候变化和能源需求不断上升,核能发电技术因其成熟性、经济性和可持续性等优势在众多清洁能源中日益突出,核电的安全性问题也受到广泛关注。汽轮机是核电常规岛的重要组成部分,其超速保护系统是防止汽轮机超速引发严重事故的首道屏障,也是机组安全稳定运行的重要保障。因此在汽轮机超速时,超速保护系统的可靠动作十分重要。本文以某核电厂再热机组超速保护系统为例,将传统可靠性分析方法与机器学习技术相结合,对系统
随着光网络规模的不断扩大和容量的不断提升,网络的生存性问题变得更加频繁和复杂。面对网络中越发常见的多故障问题,传统的线保护、面保护方式已无法满足需求,对保护结构和
目的视神经脊髓炎谱系疾病(neuromyelitis optica spectrum disorder,NMOSD)是一类自身免疫介导的中枢神经系统严重的致残性脱髓鞘疾病。β-干扰素是广泛应用于多发性硬化的疾病修饰药物,被证实能够降低疾病年复发率,但却会加重NMOSD病人的病情,增加疾病年复发率;近来有病例报道提示α-干扰素可能会诱发NMO,但其病理机制尚不清楚。本研究旨在探索Ⅰ型干扰素通路在NM
当今世界经济发展迅速,煤炭、石油等化石能源储藏日益减少,而且环境破坏日趋严重,在此背景下对新能源技术的要求愈来愈高。作为电能转换的关键设备,双向DC-DC变换器的研究受到国内外专家学者的广泛重视。双向DC-DC变换器作为电力电子技术的重要组成部分,能够根据需求调节电压大小,实现功率的双向流动等功能。但传统双向DC-DC变换器还存在一定的缺陷,比如升压能力不足、存在死区时间、输入电流断续等,严重制约
当今设备集成电路产品得到了广泛应用,物理气相沉积装备是集成电路生产线上主要设备的组成部分之一。物理气相沉积设备的性能指标主要为:靶材利用率和薄膜均匀性。影响这两项
偏振探测技术已成为遥感探测的热点,在反演大气精细粒子、云与气溶胶微物理特性等方面展现出广泛的应用前景和价值,进行高精度的偏振定标则是定量化偏振数值反演的保障。为验
特征选择是模式识别和机器学习领域中一种常用的数据预处理技术。近年来,科学技术的快速发展导致数据维度急剧增加,不相关和冗余特征的存在使特征选择在效率和性能上受到前所