【摘 要】
:
互联网上的各个信息源是相互独立的.如果一个系统能够把关于某个主题的来自各个信息源的信息集成到一个完全的信息源中,用户就能方便地获得这个主题他(她)所需的最想要的或者全部的信息.该系统中最重要的一个部分就是从网页中提取指定的信息.本文以网上书店为例详细介绍了web页面信息提取的实现.网页中一些信息可以采用基于正则表达式的规则提取,然而也有一类信息很难用规则提取,例如书名.对这些信息,我们采用了基于字
【机 构】
:
富士通研究开发中心有限公司 复旦大学计算机系
论文部分内容阅读
互联网上的各个信息源是相互独立的.如果一个系统能够把关于某个主题的来自各个信息源的信息集成到一个完全的信息源中,用户就能方便地获得这个主题他(她)所需的最想要的或者全部的信息.该系统中最重要的一个部分就是从网页中提取指定的信息.本文以网上书店为例详细介绍了web页面信息提取的实现.网页中一些信息可以采用基于正则表达式的规则提取,然而也有一类信息很难用规则提取,例如书名.对这些信息,我们采用了基于字体、距离等非语言启发信息的非规则方法提取,试验获得了比较好的结果.以网上书店为例,采用非规则的方法使书名提取的F值提高了31个百分点.
其他文献
在D-T聚变脉冲γ时间谱测量场合,由于本底低能γ强度大,因此要求探测器对高能聚变γ灵敏度远大于低能本底γ灵敏度。在理论分析计算的基础上,提出了基于康普顿效应的散射吸收探测方法,该方法能实现高低能γ灵敏度比值达10~10,且对高能聚变γ灵敏度为10~10C·cm,其性能指标在一定程度上优于目前使用的基于磁分析器与Cherenkov探测器的聚变γ探测方法。
制备了掺杂有机染料芪420的铅锡氟磷酸盐杂化闪烁玻璃(Lead Tin Fluorophosphates, PTFP),测量其玻璃转变温度在75℃,染料在玻璃中的荧光发射峰位为446nm。测量了闪烁玻璃在Co源1.25MeV伽马射线激发下的发光,并和同样厚度的有机闪烁体ST401的发光进行比较,约为ST401发光的1%-2%.
介绍了2005年度CTBT气溶胶样品国际比对的分析过程.通过对样品谱的详尽分析,识别到5个样品谱中添加的全部13种核素,且其活度计算值在不确定度范围内与参考值一致。
介绍了北斗卫星导航系统的基本特点。分析了北斗卫星用于核爆探测信息传输的可行性,设计和实现了基于北斗导航系统的核爆探测信息传输系统。
低水平Y核素测量是通过降低本底计数的手段,达到降低探测系统的探测下限。本工作利用核素Co的Y-Y级联发射来开展符合测量,实现有效降低分析Co活度的探测限。同时,分析了在低水平Co活度情况下,常规单晶体测量和符合测量各自的优势及劣势。
结合参加国家环保总局组织土壤样品中γ,核素测量比对计划,同时参加中国合格评定国家认可委员会组织的"CNAST0319土壤中放射性比活度检测能力验证"活动的过程中遇到的问题,介绍γ核素分析的误差来源和分析数据质量控制。在实验条件严格控制下,来自不同计量单位标准源的使用是造成各实验室分析结果不一致的原因之一,反映了标准溯源不一致问题。本实验室编号为No.21。
连续辐射测量对于掌握区域内辐射的动态水平及其变化,积累研究数据等有着重要作用。为了在辐射测量中扩展测量区域并实现数据共享,需要实现数据的无线传输及通过网络实时发布。阐述了如何利用无线模块对辐射测量装置的数据传输机制进行改进,建立测量结果数据库及使用JSP/Servlet技术开发具有数据实时显示、检索、绘图等功能的网站。本文所做的工作为类似的项目开发提供了参考。
汉语篇章语境知识的表示和获取有助于汉英机器翻译译文质量的提高.本文首先提出了一种汉语篇章语境知识的表示结构——概念关联层次网络(HRNC);然后给出了HRNC的构造算法,它是在汉语篇章分析的过程中动态建立和更新的;最后讨论了应用HRNC来解决汉英机器翻译中的几个实际问题.
不同语言的语义解释模型会是不同的.汉语动词“是”与英语to be相当,它们在句法功能上有很多相拟之处,但本质上有各自的语义解释模型.忽略这一点,“是”字句的逻辑语义表示就不正确,甚至刻划不出来.本文给出动词“是”的内涵逻辑语义解释,旨在完整、正确地解释“是”字句的逻辑语义.由此支持“中国文法没有系词”的说法.
本文通过一种规则匹配的方法,对真实语料中的动词语法搭配模板进行自动识别.该种方法在词界块边界预测信息的基础上,以最长名词短语的识别为切入点,通过规则匹配的方法,在大规模真实文本上完成了“动词+名词短语”“动词+动词短语”、“动词+名词短语+动词短语”、“动词+名词短语+动词短语”4类动词语法搭配模板的自动识别.初步实验结果显示这种方法对“动词+名词短语”模板的识别具有较好的效果,4类模板的总体识别