随着治水矛盾发生深刻变化、治水思路的相应调整,智慧水利建设面临着新的形势和新的挑战。在加强以数字化、网络化、智能化为主线,以数字化场景、智慧化模拟、精准化决策为路径,加快构建具有预报、预警、预演、预案功能的智慧水利体系的新要求下,迫切需要全面推进算据、算法、算力建设,提升数据处理能力。随着我国信息化建设不断推进,信息技术应用越来越广泛。遥感影像的四高(高时间分辨率、高空间分辨率、高辐射分辨率和高光谱分辨率)化和五多(多区域、多角度、多时间、多传感器和多平台)化发展,使得利用光学、热红外和微波等不同技术形成的空天地一体化对地观测系统获取的不同区域的多种遥感数据堆积成观测地球空间的海量数据“金字塔”[1]。遥感数据已成为地理国情监测和分析的主要数据来源,其含有大量资源环境信息,可结合水土保持学、水文学和灾害学等多学科交叉进行综合分析。在具体应用中,水土保持监测、水资源管理、水环境监测、水利工程监测、防洪抗旱和水土保持碳汇等情境中所体现出的遥感数据的时效性特点对处理所需精度和速度提出了更高的要求。相对于海量遥感影像的存储、处理和共享等流程的庞大计算量,运用串行处理方式的普通计算机和价格高昂的专用计算机系统远不足匹配当下实时高效的遥感数据处理应用需求[2],而目前大力发展的高性能并行计算技术在数据处理的实时性、算法的自动化程度、具体应用的规模化求解方面都得到了极大的提升。本研究按照“需求牵引、应用至上、数字赋能、提升能力”的要求,从推进算据、算法、算力建设的角度详细阐述了遥感大数据的特征和并行处理研究现状,梳理了目前先进处理平台的理论、方法、技术和最新进展,讨论了当前阶段所面临的问题,并提出了一种网格和云计算平台相结合的遥感大数据处理平台设计框架,旨在为推进智慧水利建设中急需解决的遥感数据处理问题提出解决方案,为推进智慧水利建设提供支撑。
1遥感大数据
现代社会生产生活中80%的信息包含地理空间信息。作为地理空间信息的主要来源,遥感大数据的处理和分析直接关系到“国家大数据战略”“智慧水利建设”的实施成效。根据中国信息通信院2020年12月发布的《大数据白皮书》,预测到2035年全球数据生产总量将高达2142ZB。遥感数据量正呈指数级增长,日益成为政府、企业和科研机构直接快速提取信息的重要途径[3]。遥感大数据的特点有:①容量大。全球各个系列的航空航天平台已经积累超大容量的遥感数据,且以每天几百TB的速度不断增长。②类型多。遥感数据的来源丰富、获取手段多样,除了全球分布的观测网络实时接收的大量遥感数据,还有航拍所得的遥感数据,以及民众用户通过互联网和带有地理信息的手持终端设备提供的个性化信息。③效率高。遥感大数据处理并得到结果的速度越快,效率就越高。遥感大数据本身高效性的体现仍取决于数据处理环节。目前的数据处理速度远跟不上数据获取速度,在实际应用如应急救灾、实时监测等对数据要求较高的领域,数据处理技术面临着极大的挑战。④稳定性差。运用卫星、无人机等获取遥感数据的过程中,受地物环境、传感器和大气环境等因素的干扰,获取的遥感数据稳定性存在较大差异。特别是受模型近似度影响,遥感数据的稳定性规律难以把握。⑤差异性大。目前收集到的遥感数据有光学卫星遥感数据、模拟航片、数字航片和雷达卫星遥感数据等,不同种类遥感数据的数据格式、组织单元、元数据格式、波段组合、元数据编码方式各异。⑥价值高。各种遥感数据能反映地物的不同属性,从中能提取出环境、水文、气象、森林、农作物产量、城市格局、军事目标和交通信息等多种信息,这些信息对政府决策、科学研究等具有极高的价值。
2遥感大数据的并行处理
目前遥感大数据的研究工作正处于蓬勃发展阶段,但是采集获取与有效处理间的巨大落差是限制其潜力充分挖掘的关键。数据向知识的极低转换效率会导致数据不停堆积,这种存储和使用间的不对称关系所引发的后果对数据本身来说也是灾难性的。
2.1并行处理
遥感图像数据存储具有的关联性、规律性特点和遥感图像数据处理具有的顺序性、一致性特点为遥感图像数据的并行计算创造了条件。遥感数据的并行处理算法的设计宗旨是在有限的时间和空间内处理更多的遥感图像数据。并行处理算法是基于多节点协助处理开展的,把处理任务分解为多个并行部分,各个并行部分由所接节点单独计算完成,具体可以分为任务并行和数据并行,并行处理流程见图1。目前针对集群环境图像并行处理流程的任务分配和调度策略方面的研究成果相对较少,研究成果主要集中在对多核并行的研究,特别是对一种任务多种数据并行机制的研究。开展并行计算是提升传统串行计算效率和跨越性能门槛的发展趋势,与串行计算相比,并行计算可分割为多流程、同时间、多空间、多处理器并行完成,极大提升了有限资源的运用效能[4]。在进行串行运算时,海量遥感数据处理算法所具有的系统性会对计算机的运行内存做出最低程度的限定,这种系统性特征也导致了基础数据并行化计算模型不能对遥感数据的系统信息进行有效获取,从而无法收获科学有效的分析结果。以常见的遥感影像分割为例,分割算法决定了遥感数据处理与分析能否科学有效,只有建立在科学分割结果的基础上,才能深入进行信息提取与目标识别,收获理想效果。因此,开展高性能、低投入、具有可持续生产力的“面向全局的局部运算”算法研究就显得尤为重要。
2.2分布式并行遥感文件系统
对于海量遥感数据的存储,通常由多模块硬盘搭建的磁盘阵列来完成。为了实现项目组或实验室等范围内部的数据共享,一般采取存储局域网等方式[5]。局域网间由光纤相互连接,但这种方式的运转依然受硬盘读写速度的限制。为充分发挥多块硬盘的读写能力,以GPFS、Lustre、PVFS等为代表的分布式文件系统被引入到遥感数据的存储中。最初的分布式文件系统不会区分数据和元数据,系统会将数据与元数据设置相同的物理存储地址。随着客户端的剧增,目前通用的遥感影像分布式处理系统GFS、Lustre采取把数据和元数据分别放置的模式,将其置于不同服务器上,数据由应用服务器存取,元数据由元数据服务器存取,解决了受磁盘吞吐量决定的服务器处理能力问题,大大增强了文件读取的效率。GFS作为Google云计算的主要基础架构组成,分管遥感影像数据的存储。GoogleEarth即采用GFS存储遥感影像数据和地理空间文件,为广大用户提供浏览和应用服务。
3高性能遥感大数据处理平台
传统遥感处理系统存在不支持并行处理、可扩展性差、数据吞吐量较低等问题,无法满足当前形势下的遥感大数据处理需求。随着计算机结构由单核向多核化架构的转变,高性能数据处理系统在遥感数据处理中的应用越来越多,包括集群高性能处理系统、网格计算处理系统、云计算处理系统,以及具有超强处理能力的云格数据处理系统等。高性能遥感数据处理平台的应用极大缓解了遥感数据处理中的大数据量、大计算量、大并发访问量等问题[6]。
3.1基于超级计算机集群的遥感大数据处理平台
超级计算机由数以万计的处理器、独立设计的内存系统及I/O系统组成。计算机集群是一种由多类分散的计算机软硬件构成的超大规模计算集群系统。实际应用中为应对使用超级计算机的高昂代价,研究人员提出了一种新的解决思路,即通过高速网络把使用COTS的计算机设备组成一个集群的概念,以低成本提供高计算能力。这种策略经常被称为Beowulf类型集群计算。在这种策略的指导下越来越多的成本低廉的计算机集群系统被广泛地运用于遥感数据处理领域[7]。在国内,中国科学院已购置多套机架式和刀片式集群用于遥感数据的处理实验,有效驱动了基于GPU集群的计算模型和多核GPU集群系统的混合编程等研究课题的发展。遥感数据处理的特点是庞大的数据量和复杂的处理算法,同时它们的独特性在于遥感影像自身的相似性。根据这一特点我们可将其切割成块独立运行,再将运行结果合并得到最终成果,这样就可极大地提高集群的处理能力,满足快速化、高效化、规模化的处理需求,其原理如图2所示。通常处理遥感数据的集群规模组成从几个到数万个节点不等,根据节点的数量可进行分类,具有较多节点的集群环境亦可称之为超级计算机。建立这种处理遥感数据的集群环境的构架必须符合以下三大条件:集群环境必须具有两个或两个以上能够进行数据流通的互通互联的计算节点;集群本质上是一种呈分布式的内存结构,必须能够完成并行化的遥感数据处理过程,即用集群环境处理的遥感数据可以进行拆分且能够并行化执行;集群环境必须具有并行编译的环境,如编译器、消息传递接口等。在对计算机性能要求较高的高分辨率影像提取和高光谱影像处理等领域实验发现,随着集群环境节点数量的增加,完成计算任务的效能在一定程度上得到了提升,但两者间并非呈正比关系[8],只有当计算节点数量和计算量适当均衡时,系统的性能才会显示出最大的效率。目前基于集群思想和当前硬件结构条件,研究人员已经开发出一批高效的遥感数据处理系统,具有代表性的有武汉大学研发的数字摄影测量网格软件、法国的像素工厂软件等。
3.2基于网格计算的遥感大数据处理平台
网格计算通过对分布式资源———计算机、传感器、仪器、存储设备、软件和数据等的合理调配,实现在非集中控制的环境下完成大数据量和大计算量的遥感数据处理任务。网格中间件作为网格计算处理的核心,这种分布式异构环境中的标准服务接口为数据和算法提供了一个无缝整合的环境,为分布于各地的用户提供协同式的服务,实现在整个广域网范围内的计算资源共享。长远来看,网格计算需要在网格通信协议、计算资源分配、网格安全认证等关键技术方面实现突破。基于网格计算的遥感大数据处理平台,不仅实现了基础层面上的资源优化共享,而且能利用各类数据资源为具体的应用服务,解决遥感大数据的存储、共享和计算问题。但目前技术领域仍存在一些问题,比如:并不是所有的遥感处理算法都适合网格计算平台上的并行化处理;当前的算法技术仍未达到对海量遥感数据的大吞吐量处理要求,需要对目前可适用但并不成熟的处理算法进行优化改进;网格计算平台设施本身的可靠性、系统的稳定性和数据存储与共享的安全性等方面仍有待完善。
3.3基于云计算的遥感大数据处理平台
云计算是对分布式计算的进一步发展,是一种由虚拟化的计算资源构成的并行的、分布式的系统,能够根据服务提供者拥有的资源和用户的需求将共享的软硬件资源以事先约定好的服务等级协议进行分配。云计算一般包含基础设施层、平台层和应用层三层,能够提供基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)和遥感数据即服务(RdaS)等至少4种形式的服务,解决了当前遥感大数据处理时出现的数据密集型、计算密集型和瞬时访问密集型等诸多问题。(1)基础设施层。基础设施即服务(IaaS)处于最低层级,用户可以通过互联网从基础设施获得服务,包括硬件、海量存储和数据库等具体形式。基础设施即服务可依据具体的科学计算优化资源,使计算单元、存储单元和并行单元等与其所需任务相匹配。(2)平台层。平台即服务(PaaS)处于中间层,它可以针对遥感影像的数据挖掘算法、相关参数提取、现象动态模拟等具体处理对开发环境进行抽象的封装,也就是说将服务器平台和开发环境作为一个整体服务提供给用户。(3)应用层。应用层处于云计算体系结构的顶端,包含软件即服务(SaaS)和遥感数据即服务(RdaS)两种模式。针对遥感大数据海量、多维度、分布各异的特点,遥感数据即服务模式提供的数据浏览和使用服务可进行多位置软件引用,用户无需额外购买软件即可通过遥感数据即服务模式享受云计算体系内的软件服务,这一点优于软件即服务模式。一个基于云计算平台的遥感数据处理系统应该包含数据存储模块、数据管理模块、数据分析与处理模块、GIS应用模块和云计算环境模块等。根据这种系统架构可以模拟出一种云计算体系结构下的遥感大数据处理平台,如图3所示。该平台主要由4个子系统、1个服务器群及1个数据库群组成,它利用云计算服务模式将系统内所存遥感数据开放共享,整体上优化了遥感大数据处理,并且这种开放式的系统可以及时王隽雄等:推进智慧水利建设急需解决的遥感数据处理问题研究·76·完成自我维护和资源更新,从而提高遥感数据处理与分析效率。
3.4基于云格的遥感大数据处理平台
网格计算着重于提供任务分解后的并行计算,而云计算在此基础上实现了抽象资源的平台化服务,如果能将两种技术结合应用实现互补,则将实现遥感大数据的处理技术质的飞跃。李德仁等[9]对遥感大数据自动分析和数据挖掘进行了理论层面的研究。曾志等[10]提出利用云计算增强网格基础设施的机制实现云计算和网格的集成,达到资源虚拟化管理,并提出了基于网格计算和云计算环境下的资源与服务一体化的异构资源统一建模方法。在此背景下,基于云格的遥感大数据处理平台应运而生。在云格平台中,云可以是数据服务云、软件服务云、硬件环境服务云,亦或是两种或多种组合服务云,也包含私有云(由第三方提供的付费服务)、公有云(一个单位内部共享的数据服务)和混合云(包含公有云和私有云两种)。由于云计算平台和网格计算平台的联合应用研究仍处于实验和研究阶段,因此目前并没有一个成熟的应用范例。将网格平台和云平台优化整合实现云格平台架构的方法和机制灵活多样,在云格平台中,以网格平台为基础在计算和存储等基础设施方面提供保障,再通过统一的标准规范将云计算平台和网格平台提供的服务进行整合,两种平台间亦可以实现数据的传输和共享,共同实现高效率的数据处理。基于以上思路,本研究提出可以将多种云计算平台和网络计算平台按照统一的标准规范利用聚合工具构建出一个统一开放的云格服务平台。在这个开放的云格服务平台中,云计算平台和网格计算平台两种系统共存且互不影响,两种系统都以各自的方式整合资源,这样不仅能充分发挥出网格计算平台的超强计算与存储潜力,而且能集成云计算平台的云存储、云处理、云组装和云服务优势,设置一个统一的管理中心用以实现两种资源与其他资源间的传输与调配,整个系统始终以一种开放的状态不断进行着自我完善和更新,用户可以通过统一的账户入口快速访问相关资源和链接所需服务。
4结语
随着推进智慧水利建设新形势的要求和信息技术在广度和深度层面的不断突破,遥感大数据“质”的进步和“量”的积累带来了一场新的机遇和挑战。如何实现“数据向知识,知识向决策”的迅速转化是目前急需解决的问题,而开展遥感大数据的高效处理研究提供了新的思路和方法。在以地理空间信息服务为主的大数据时代,面向“智慧水利建设”的新要求,数据资源已成为关键生产要素,是“数字化场景、智慧化模拟、精准化决策”的“新能源”,而推进遥感大数据算据、算法、算力建设必然会在水土流失防治、水资源管理、水环境监测、水利工程监测、防洪抗旱和水土保持碳汇研究等具体领域发挥巨大作用。
《推进智慧水利建设急需解决的遥感数据处理问题研究》来源:《中国水土保持》,作者:王隽雄 李阳 王宇菲