【摘 要】
:
通过对随机采集的1 800篇涉及经济、心理、文学、教育4个学科类别的网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题
【机 构】
:
南京农业大学信息管理系,南京大学信息管理系,南京信息工程大学图书馆
论文部分内容阅读
通过对随机采集的1 800篇涉及经济、心理、文学、教育4个学科类别的网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、首段、尾段以及HTML标记等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值.在我们的Web文本挖掘系统中,进行加权的对比实验表明,此权重方案优于前人的方案.
其他文献
本文以信息资源的开发利用最大化为目标,构建了一个信息资源公共获取的模式选择模型。该模型从信息生产和消费两个角度,将信息资源的公共获取分为四种模式;同时根据信息的公共属
OAI-PMH框架作为一种简单的、低障碍的互操作解决方案而得到广泛应用,目前OAI-PMH应用系统由于采用集中检索模式,在实现大规模数字图书馆互操作时,存在着中心服务器负载过重
子曰:“学而不思则罔,思而不学则殆。”(《论语·为政》)这里的“学”,在我看来就是对经典的解读、诠释与参照。所谓“学者”,在很大程度上是指经典的研习者。因此,经典的研
1临床资料我科门诊传染性软疣患者1291(男593,女698)例,年龄2mo~68岁,平均34.1岁.病程15d~24mo,平均12.2mo.其中婴儿25例,幼儿338例,儿童418例,青春期155例,成人355例.夫妻同患6例,母女同患35例
本课例将投掷教材作为发展学生体能的载体,在加强学情研究的基础上,围绕体能发展的敏感期、投掷方式的多样化展开研究。在体能拓展的系统化、动作组合的多样化、评价标准的多
一个不可否认的事实:中国的软件产业正在滑向价格战的泥潭.人们担心,这个曾被寄予厚望的行业会重演中国家电业价格战的惨烈命运.