信息获取与融合:提炼有用信息是问题 <BR><BR>信息网格就是对广域网上的异构海量信息源进行集成与融合,为用户提供透明方便的信息服务。信息网格研究的中心问题有:如何描述信息、存储信息、发布信息和查找信息;如何充分利用现有网络技术,如HTTP、XML、WSDL、UDDI、SOAP等,构成一个完整的服务链;信息的语义表示,即如何赋予信息以内涵,以及如何避免信息的二义性;如何对信息加密,防止信息泄露等。 <BR><BR>目前这方面技术还不成熟,在广域网上海量异构信息的有效集成与访问还没有更好的方法。特别是如何在海量的信息中提炼出用户所需要的有用信息值得研究。 <BR><BR>由斯坦福大学和圣地亚哥超级计算中心领导的“生物信息学大规模分析系统”项目集成了分布的分子结构数据,如PDB(Protein Data Bank),实现了分布异构数据的处理、分析以及可视化等,其目标是为相关领域的研究人员提供一种有效的数据/信息发现环境。目前,该系统集成的数据包括PDB(Protein Data Bank)、GenBank和分子动力学轨道数据,实现了统一的数据访问及授权机制。该系统还利用分布的网格资源实现了分子扫描和比较算法、生物发育演化算法等,研究人员可以利用该体系感知人类基因,判断不同的基因表示的蛋白质序列,进而分析蛋白质如何控制细胞的运动以及器官的生长。 <BR><BR>由宾夕法利亚大学领导的NDMA(National Digital Mammography Archive)项目对分布的乳腺X射线图像、病历信息以及相关的初步诊断结果提供了统一的传统访问模式。在实现了数据统一访问机制的基础上,NDMA利用分布的海量信息实现计算机辅助诊断,支持相关的教育培训项目以及相关的科学研究。 <BR><BR>美国军方的全球信息网格GIG(Global Information Grid)则主要针对其指挥信息系统的不足。例如战斗机飞行员的攻击任务是在起飞之前数小时制定的,无法在攻击过程中随机应变。美国国防部设想,依靠GIG的帮助,到2010年,卫星、预警机、雷达、情报人员等采集到的所有相关信息经过处理后,将实时反馈到驾驶舱,不仅让飞行员对它的周遭情况了如指掌,还让机群和地面部队、海面舰船的配合天衣无缝。同时,可以将误伤友军或平民目标的情形减少到最低限度。 <BR><BR>GIG的设想最早是以备忘录形式确立,由美国国防部首席信息办公室制定,时间是1999年9月22日。由于GIG要同时支持战争、战斗和日常业务,并同时支持现有平台、未来平台乃至正在发展的平台,因此要想建立一个完善的GIG体系结构非常困难。为了将设计层次化,GIG从两个角度对这个体系结构进行了剖分,一种是把它分成三种互相关联的子体系:联合运作体系、战斗支持/业务区域体系以及通信和计算系统体系;另一种是面向任务将它划分为逻辑关联的三种体系透视图:运作视图、系统视图和技术视图。GIG是一个长远目标,估计美国国防部将为之投入数百亿美元,耗时将长达十年以上。这也从侧面反映出信息集成系统的重要性。 <BR><BR>Peer to Peer应用:21世纪的另一大热点 <BR><BR>Peer to Peer(P2P)被许多人视为21世纪的技术热点之一,它通过系统间的直接交换达成计算机资源与信息的共享,包括信息交换、处理器时钟、缓存磁盘空间等。P2P环境下的资源及任务管理与分配,具有挑战性。 <BR><BR>Napster是一个MP3格式的音乐文件交互系统,它提供了一个集中式的信息服务器,负责用户注册、共享文件信息收集、用户查询的工作,而用户传输文件则在两个Peer所在的机器之间直接进行;Freenet是阿伯丁大学开发的一个P2P系统,系统中每个用户位置均等,既充当服务器又充当客户机,没有中央服务器。每个Peer都知道其邻居的存在,所有的查询都通过向邻居转发进行深度优先搜索;JXTA是Sun Microsystems开发的一个栈结构的P2P规范与API,目的是让开发人员在这些规范与API的基础上,按自己的目的开发P2P系统,从这个意义上说,JXTA是一个通用的P2P生成平台。 <BR><BR>加州伯克利分校的太空科学实验室组织开发的SETI@home项目是第一个通过大规模并行计算完成来自其他宇宙文明社会电波信号的灵敏搜索。检测来自外人类的电波信号看起来好象是一个简单的信号处理任务,但实际上需要巨大的超级计算机才能完成,主要问题在于首先外来信号的参数是不可知的,其次对宇宙智能搜索的灵敏度极大地依赖于可用的处理能力。对外太空智能的研究存在一个假设前提:外太空人类希望通过向太空广播容易检测与容易区别的信号,从而与其他人类建立联系。一种达到这种目标的方法是发送窄频带的信号,通过在一个很窄的频段集中信号能量,从而使得这种信号能从自然界宽频段的噪声源中区分开来。因而,SETI@home主要集中在检测窄频段信号。 <BR><BR>电波频谱每一个极小部分执行计算需要比现在最大的超级计算机还多的计算能力。不过,通过无线电波望远镜获取的信号数据流是一个容易分解的分布式任务,我们能够根据频段对数据进行分块,这些分块在本质上是相互独立的。另外,对太空一个位置的观察得到的结果和另外一个位置得到的结果是相互独立的。这就使得我们把很大的数据集分成大量的小块,每台计算机能够比较快地分析出其中的一块,从而可以把工作分配到自愿贡献空闲CPU周期的机器处理。 <BR><BR>SETI@home项目通过望远镜观察了大部分的可见太空部分,系统需要存储总共39Tb级的大量数据,需要1100盘磁带,每盘磁带存储15.5个小时数据。它当前能对47种不同CPU和操作系统分发客户端软件,客户可以从SETI@home的网站下载客户端软件。对于Windows和Macintosh平台,客户端软件安装后是作为一个屏保程序运行的,只有当该屏保程序是激活的情况下,才能处理数据。对于其他平台,客户端是运行在文本方式下,这些平台的用户基本上是在后台运行该客户端程序。 <BR>