基于SolrCloud的分布式科技项目查重系统

来源 :科技管理研究 | 被引量 : 0次 | 上传用户:bartech
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从海量科技项目文件库检测出与待检测科技项目的相似文本,设计能够支持实时响应的可扩展的科技项目查重系统。首先采用分布式计算对科技项目文件进行预处理,建立全文倒排索引;然后在分布式SolrCloud系统上执行相似性计算,采用标题段落语句模型(TPSM)计算待检测科技项目文本与全库科技项目文本的相似度。搜狗实验室约10万篇规模文本集上的测试结果表明:所提出的标题段落语句模型(TPSM)调和平均值比全文向量空间模型(FVSM)高出约15%,比段落空间模型(PVSM)高出8%左右;在检测性能上,一篇1 000字左右的待检测论文检测时间约为10 s,达到实时检测需求。实验结果同时表明,基于SolrCloud的分布式系统的扩展性、容错性均能满足实际需求。
其他文献
实现嵌入式软件仿真测试平台 (ESSTP ,embeddedsoftwaresimulationtestingplatform)软件复用性的关键是获得ESSTP软件体系结构。给出了ESSTP的软件体系结构 ,并针对ESSTP各部
研究了阿维菌素长期暴露下鲤鱼肝脏和肌肉超氧化物歧化酶(SOD)活性的动态变化.结果表明:阿维菌素对SOD活性具有较大影响.低浓度组(3.2μg·L-1)SOD活性随暴露时间无显著变化(
目的:比较单用西酞普兰与西酞普兰结合心理疗法治疗产后抑郁的临床疗效。方法:将58例符合CCMD-3抑郁症诊断标准的产后抑郁患者随机分成两组,分别给予单用西酞普兰20mg/日与西
美麗湘女
期刊
对于世界各国常用的能源来说,石油天然气占到了其中的六成左右,是非常重要的能源。石油企业作为高污染行业之一,在石油天然气资源开采的过程中产生大量的废水、废气,会对当地
2017年9月16日,中国文联副主席、中国音乐家协会主席、中央音乐学院副院长、教授叶小钢在呼和浩特举行的第31届中国电影金鸡奖颁奖典礼上,以电影音乐《开罗宣言》再次荣获“
<正>传染病是严重危害人类健康的重大疾病,在与传染病的长期斗争中,历代中医积累了丰富的经验,创立了独具特色和优势的理论和疗法。近年来,中医药积极参与传染病的防治,并取
<正>电视连续报道和系列报道的一个基本的也是重要的共同新闻属性,就是都是属于深度报道。同长消息、短消息相比,虽然在方便、及时、快捷上,它是弱项,但它的时间长跨度、播出
<正>[慧眼关注]一位乞丐不久将获得来自海外一笔巨额遗产。记者问乞丐:"得到遗产后,您首先要做什么事?"乞丐说:"我要买一个金饭碗,还要再配一根更结实的打狗棍……"乞丐的悲
<正>~~
期刊