MONK项目及其对我国人文领域文本挖掘的借鉴

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:a7343022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对美国和加拿大等高校共同承担的大型跨学科人文文本挖掘项目MONK,详细介绍其文本挖掘流程及相应的工具、技术和算法,并具体探讨利用MONK提供的工具进行文学文本挖掘研究的应用实例。最后总结人文领域文本挖掘方法的几类应用,提出该项目对我国人文领域应用文本挖掘的启示。
其他文献
首先归纳Molinari等人对H指数在科研机构评价中局限性的研究;在此基础上,研究Hm指数的原理及计算方法,指出机构Hm指数的特点及其在科研机构评价中的优势;最后以“艾滋病病毒
原创性(originality)指数是美国经济发展局(NBER)提出的一项新专利指标。基于美国经济发展局建立的专利引文数据库,以美国专利商标局(USPTO)专利分类系统为标准,可测算出每项专利的原
随着科学技术的迅速发展,网络已经覆盖人们生活的各个方面,网络零售商店的崛起,更是在很大程度上方便了用户的生活。网络书店由于其图书价格优惠、品种繁多、选书方便省时的特点
从用户需求的角度出发,考量科技信息资源的自身特点,在文献研究、要素分析和专家访谈的基础上设计评价量表。经量表预试与项目分析,根据统计数据与专家商议结果对量表进行修
为考察专利情报和学术论文中的合作现象的发展历程、影响因素及未来方向,采用专利计量学与文献计量学方法,对专利情报和学术论文中合作情况进行时间趋势分析,并对两者进行对
指出微博信息生态链的构成要素包括信息内容、信息人和传播路径。认为信息人分为信息生产者、信息传播者、信息组织者、信息消费者和信息分解者。信息人角色在微博信息生态链
以农村信息资源作为研究对象,以数据包络分析(DEA)为方法,从投入和产出的角度对农村信息资源配置的效率进行评价。首先借鉴现有的信息化指标体系设计出DEA指标体系,然后利用主成分
对专利组合理论进行介绍,构建基于技术生命周期的专利组合判别模型,并以抗HBV制药企业为实证研究对象,利用Logistic模型生成S曲线进行技术生命周期判断。在此基础上,绘制技术生命
《永昌府文征》是20世纪40年代初,云南省腾冲藉辛亥革命元老,杰出的政治家、军事家、教育家和文史学家李根源先生为光大民族文化之精华,聚众多学者之力编纂而成的一部永昌地方文
指出了由于SSD(Hard Disk Driver,HDD)的不对称I/O特性和价格因素,在分布式系统Hadoop中,由SSD和HDD组成混合存储系统是一种有效的解决方案.HDFS是针对同构集群设计的,对存储