农业既是国民经济的基础,也是国家自立、社会安定的基础。然而农业灾害往往造成农作物大面积受灾和人畜财产损失。现在的设施农业有高投入高产出的特点,一旦发生自然灾害则会遭受更大的经济损失[1],而农业保险则能够减轻农业灾害损失、稳定农产品的市场供应,从而起到分散或转移农业风险、稳定农户收入的作用。但农业保险普遍存在风险高、赔付高,保费低的现象,这导致保险公司在此业务上长期亏损[2]。因此,为农业保险公司提供科学的决策支持,不仅能够提高农民的抗险能力,也有利于农业保险的成功运作和健康发展。
农业保险决策支持系统是以空间数据为研究对象的空间决策支持系统(Spatial Decision Support System,SDSS),它综合了GIS数据处理和DSS(Decision Support System)模型分析的优势,对空间问题提供决策支持[3]。但空间决策支持系统的研究内容复杂,其研究尚处于起步阶段,因而在理论、方法和技术诸方面都需要进一步完善[4]。
1 空间决策支持在农业保险中的应用研究
空间决策支持方法中的核心是作为数据挖掘方法的支持向量机,具体的工作流程为:数据准备、数据选择、数据预处理、数据压缩、确定空间数据挖掘目标、确定知识发现算法、数据挖掘、模式解释和知识评价。而数据准备、数据选择、空间数据挖掘目标的确定、模式解释和知识评价这些工作要在确定数据集的情况下才能确定。因此,先介绍可以事先确定的数据预处理、数据压缩以及数据挖掘的方法。其中,数据的预处理包括的空间数据的预处理和非空间属性的预处理,数据压缩方法采用基于F-score的属性选择,而数据挖掘的核心—参数选择采用网格搜索方法。
1.1 空间数据的预处理 对数据进行预处理,其目的是将数据转换为支持向量机能够处理的数值型数据,并且使数据更能够反映问题的特征。该文用于决策的农业保险业务数据全都是数值型的,而空间数据中虽然有属性数据,却是不能直接被支持向量机使用。因此,主要的空间数据预处理工作是提取出空间数据的数值属性。空间数据可以分为矢量数据和栅格数据。现有的矢量数据为保险区域数据、河流与湖泊数据,它们都是多边形类型的矢量数据,使用的栅格数据类型有DEM以及气象局所提供的干旱脆弱度、抗旱能力、天气指数和NDVI等数据。该文结合ArcGIS Model Builder和Python脚本语言作为空间数据预处理的手段,提取保险区域内栅格数据的均值和均方差作为栅格数据的特征。如表1所示。对于河流和湖泊这类矢量数据,该文使用ArcGIS中的Near工具提取行政区和河流、湖泊的距离作为特征之一,其中在区域内有河流、湖泊的保险区域距离为0。另外,将保险区域内河流和湖泊的面积也作为一个特征,首先通过Intersect得到保险区域内河流和湖泊的面积,然后使用Calculate Areas得到其面积,最后保存到数据库中,得到表2中的字段。
1.2 属性选择 该文采用F-score作为属性选择标准。F-score是用于衡量两组实数区别的技术。对于分类问题,给定的向量 ,如果类别是1的样本和类别为-1的样本个数分别是 和 ,则第 个属性的F-score定义为:
式(1)中, 分别是第i个属性所有值的平均值、所有类别为1的样本第i个属性的平均值以及所有类别为-1的样本第i个属性的平均值,而 则是第k个类别为1的样本的第i个属性, 是第k个类别为-1的样本的第i个属性。
以2010年7月内涝灾害分类属性为例,如表3和表4所示。
1.3 模型参数及模型评价 该文使用网格搜索法和5-折交叉验证对参数进行选择,5-折交叉验证法将数据集大致平均地分成5组,将每个组中的数据轮流作为验证集,其余的4组数据作为训练集。这样能够得到5个模型,最后平均这5个模型的误差率,同样能够得到综合误差率。若5-折交叉验证中使用了分层技术,则称为分层5-折交叉验证。
以2010年7月内涝灾害分类模型为例,如表5所示。
2.1 系统架构 农业保险决策支持系统(图1)建立在农业保险系统基础平台之上,以信息查询、信息管理、统计分析、监测预测等功能为基础,能够采用不同的灾害模型进行分析。首先,它能够根据不同地理区域内各灾种的活动规律及不同区域内特定标的抗灾性能,对不同的特定标的进行区域划分。其次,能根据以往不同灾种所造成的损失情况,编制不同灾种的损失率分布图。在获得有关地域空间和自然灾害的信息后,分析不同地理区域以及不同灾种的历史分布情况,编制风险分布图。