时空大数据技术在电网企业中的应用

项目简介
此项目鉴于60年间广州市电网各类数据,以路网为划分格网,可监测抢修效率、变压器的时空方向分布特征进、供电能力、停电事件故障风险,以此为广州市未来电网规划奠定参考基础。
项目类型
科研项目
开始时间
2019
结束时间
2019
参与成员
陈友杰
于航
杨舒涵
卢宾宾
目前,时空大数据当前正快速发展,被广泛研究于时空统计、人工智能学科发展及电网时空数据分析等方面,其中时空大数据可视化涉及基础数据、空间数据及时空数据等等方面,由于目前时空大数据的飞速发展,各类时空统计方法作为时空大数据的研究基础,也被广泛的应用,此项目鉴于60年间广州市电网各类数据,以路网为划分格网,可监测抢修效率空间插值及空间自相关的分析,对变压器的时空方向分布特征进行探究发现其迁移趋势,广州市供电能力与各类POI的相关性强弱呈现,对停电事件的故障风险进行时空及热点分析等等,以此为广州市未来电网规划奠定参考基础。

## 抢修效率时空分析

广州市位于东经112°57’ 至 114°3’,北纬22°26’至23°56’之间,市域总面积7434.4平方公里。目前广州市辖11个市辖区:越秀区、荔湾区、海珠区、天河区、白云区、黄埔区、番禺区、花都区、南沙区、增城区、从化区。广州市各个辖区均分布有电力抢修驻点,现共计抢修驻点57处,抢修驻点的位置信息如图所示。

![qiangxiuzhudian.png](/media/0258ea93-6fa6-40e6-a895-c0c0d0c20ddd_qiangxiuzhudian.png)

> 广州市抢修驻点位置分布图

研究使用的数据来自广州供电局电力大数据中心,时间跨度从2016年到2018年。抢修订单数据中每条数据记录一次抢修任务的情况,包括抢修订单ID,电力故障的内容,抢修人员个人信息,抢修人员到达故障现场时间,故障修复电力恢复时间,抢修订单类型等。报障订单数据中每条数据包含报障订单ID,客户报障内容,客户信息,报障地址,抢修任务派发抢修驻点ID等信息。

### 抢修效率空间插值

基于抢修效率(电力故障抢修用时)属性,分年份进行普通克里金插值操作,得到效果如下图所示。

![rescue-time-kriging.png](/media/ef211f2e-d757-45e5-8d43-635a7e5021e6_rescue-time-kriging.png)

> 2016-2018年抢修用时克里金插值结果

黄埔区和南沙区在2016年表现出明显的橘色及红色,代表在这两个区内,电力故障抢修用时多集中在60-120分钟内,即1到2小时完成电力故障抢修并复电。在2017年的插值结果显示中,黄埔区和南沙区大部分地区转换为浅绿色,少部分区域显示为橙色,表明抢修时间大部分地区缩减到60分钟以内,相比2016年有明显的抢修时间缩短,效率提升。至2018年,南沙区表现出大部分绿色,极少部分黄色的样式,表达南沙区抢修时间缩短在20分钟以内,相比2016年有明显抢修时间缩短、抢修效率提升。由克里金插值结果宏观方面可以看出,整体颜色由红色系转换为绿色系,表明2016年到2018年广州市各地的抢修时间普遍降低,抢修效率明显提高,到2018年只有少部分地区表现为抢修时间较长在30-60分钟,大部分地区抢修用时在20分钟以内。

### 抢修效率空间自相关

计算广州市2016-2018三年抢修效率的全局莫兰指数和Geary系数,发现并没有显著的空间自相关性,计算结果更倾向于反应效率的属性在空间上是随机分布的。结果可以反应现实中发生电力故障后,从抢修人员到达现场,到修复故障完成复电这个抢修用时与故障发生地点没有显著关系。这表明从全局分析,广州市不同地区的抢修用时与位置没有较强相关性。


| 年份 | Moran’I   | Geary C   | P value |
| ------ | ------------ | ----------- | --------- |
| 2016 | 0.02029087 | 0.9721743 | 2.2e-16 |
| 2017 | 0.03838702 | 0.9564441 | 2.2e-16 |
| 2018 | 0.01946272 | 0.9678356 | 2.2e-16 |

在本研究中,通过解算局部莫兰值,正值表示要素具有同样高或同样低的属性值的邻近要素;该要素是聚类的一部分。负值表示要素具有包含不同值的邻近要素;该要素是异常值。利用莫兰值进行聚类,并将其结果进行可视化。聚类结果包含具有统计显著性的高值(HH)聚类、低值(LL)聚类、高值主要由低值围绕的异常值(HL)以及低值主要由高值围绕的异常值(LH)。

![rescue-local-Moran.png](/media/1fc442bf-2da0-4d88-af1e-de22515abbaf_rescue-local-Moran.png)

> 2016-2018年抢修效率局部莫兰指数聚类可视化图

可看出虽然抢修效率属性在全局空间上并没有显著的空间自相关性,但是通过计算局部莫兰指数,并将其聚类结果可视化,在小范围局部空间内观察抢修效率可以发现抢修效率存在较为显著的相关性。以南沙区为例,2016年存在较多的高高聚集情况,表示在部分区域发生电力故障后的抢修用时比较长,抢修效率不高;2017年对比上年的出现高高聚集的地区部分转变为低高聚集,表示发生转变地区的电力故障抢修用时有所减少,抢修效率有所提高;2018年南沙区基本不存在高高聚集的情况,取而代之的是低低聚集,表示对于电力故障的抢修时间普遍减少,大部分地区的抢修效率得到了明显的提升。

### 空间回归分析

在统计学中,回归分析技术是变量间关系定量分析的核心技术之一,也是多元数据分析的基础技术。在本次研究中,定量分析故障类型、影响用户数量和抢修驻点、故障电压等级作为自变量,对抢修效率产生的影响。

利用R中线性回归函数,对模型计算,得到各变量的系数及其显著性。电力故障类型变量中,故障类型编号为QT(其他停电)和GZTD(故障停电)的两种故障大类对抢修效率产生较大影响;用户数量作为变量并未对抢修效率产生较明显影响;电压等级为voltagelev1(中等电压级别)的设备故障类型对抢修效率有较明显影响。

## 变压器时空分布分析

以广州市为研究区域,时间跨度为1960年6月到2019年5月,数据内容为变压器基本信息表。对现有数据进行初步清理和筛选,确定以十年为单位的基本时间序列,以近六十年中心的分布变化,从而探测变压器时空分布特征。下图为广州市1960年至2000年变压器数据分布情况,由于1960年至2000年数据量较少,变化并不明显,因此将2000年之前的变压器数据归为一类来进行研究。

![bianyaqi-distribution.png](/media/fc36e1cc-30b9-42af-a879-f576012de6dd_bianyaqi-distribution.png)

> 不同时段内变压器分布图

可看出,近十年的时间段里,广州市变压器增量在成倍数的增长,在此变化中,如何判断变压器增量是否具有方向性,可以采用标椎差椭圆的解算方法判断,下图为1960至2019年间广州市变压器空间格局变化。红色的背景点表示广州市目前为止投运的变压器的空间位置,绿色的圆心及椭圆表示2000年以前变压器分布情况,橙色的圆心及椭圆表示2001年至2010年的变压器分布情况,蓝色的圆心及椭圆表示2011年至2019年的变压器分布情况,椭圆代表变压器数据的分布方向,椭圆的大小反映变压器空间格局总体要素的集中程度,偏角(长半轴)反映格局的主导方向,中心点表示了整个数据的中心位置,生成的椭圆面积表示范围,扁率表示他的方向明确性和向心力的程度。

![bianyaqi-eclipse.png](/media/5ba76b60-a22f-454f-be6a-d575da9eb613_bianyaqi-eclipse.png)

> 不同时段内变压器空间分布标准差椭圆

从计算的结果来看,变压器分布中心(变压器分布最为密集的点)CenterX的值由113.375281增加到113.40442682,,CenterY的值有23.14743134增加到23.18003386,值虽然有所增加,但变化不大,一直归属于广州市天河区附近,虽然空间位置相对于此前渐渐向东北方向偏移,但整体并无太大变化,变压器分布情况由东北轴向发展为南北轴向,XstdDist的值由0.27184585变为0.24253906,在逐年减少,但YStdDist的值却由0.22417238变为0.296524,有所增加,同时椭圆面积变化不大,说明扁率随着时间迁移方向性变得明显,即变压器投运数量在逐年呈南北向偏移的趋势。

## 供电能力相关分析

配电网的供电能力分析密切关系着未来配电网的发展,合理的供电理论分析是一种研究发掘未来配电网最高效率的基础,数据源为广州市1960年6月到2019年5月的供电变压器的供电情况表,获取了高德地图中广州市10类的POI数据,广州市2014年建成区分布数据,广州市2015年人口数据。

### 地理加权汇总统计分析

对广州市各区域供电能力进行空间异质性分析,选择核函数及带宽,采用交叉验证的方法选择最优带宽,建立权重矩阵与地理加权回归模型,最终对所得的统计数据和结果进行可视化展示,并对其可视化进行进一步的解释说明。

![gongdiannengli-gwss.png](/media/72a3c659-9265-48eb-b93b-e6fc95f6d5a7_gongdiannengli-gwss.png)

> 供电能力地理加权汇总统计分析

地理加权平均数的大小可以反映出变量在局部区域内的平均水平,此处仅选择与空间位置直接相关的供电强度进行解释说明。颜色的深浅代表着所在区域的相应供电强度值的平均大小,颜色越深,说明该 供电能力的平均值越大。 供电强度的地理加权平均数结果中,反映了局部区域供电强度的平均大小。从该图可以看出,广州市的供电能力强度在中部高亮地区最强,向南北方呈减弱趋势,东西部地区有明显的差异,广州市的荔湾区、越秀区、天河区供电能力较强。而北部的从化区、增城区及南部的番禺区、南沙区供电能力相对较小,白云区南部附近虽然颜色较深,供电能力较强,但其平均供电强度却并不大。

地理加权标准差与地理加权方差类似,都是可以反映出在带宽范围内,区域之间波动程度的大小,此处仅选择与空间位置与供电能力空间异质性进行分析,对供电强度的空间异质性分布解释说明。其中,颜色越深代表着空间异质性越强。 地理加权标准差的结果,由带宽范围内的地理加权标准差波动性可分析出,空间异质性较大的地区为增城区、从化区及黄埔区的交界区域、番禺区西北部、荔湾区、天河区等中部地区,其值位于250000至350000之间,从化区南部、花都区西部及南沙区北部异质性较小,其值位于0至50000之间。图4.3.5地理加权方差的结果,由带宽范围内的地理加权方差波动性可分析出,空间异质性较大的地区扔为增城区、从化区及黄埔区的交界区域、番禺区西北部、荔湾区、天河区等中部地区,其值位于50至100之间,增城区南部与花都区中南部波动较小,其值位于10至40之间,其余地区供电能力变化波动非常小。

地理加权偏度可以反映出在局部区域内广州市供电能力的值偏离正态分布的程度,其中,颜色越深,就表示该区域偏离程度越大,反之,偏离程度越小。 由上图可看出,整个广州市偏度值很小,只有广州市增城区西北部一处小区域偏度较高,其值位于10至12之间,从化区北部、增城区南部及东部地区稍高,其值位于4至8之间。广州市整体来看偏度值趋于平稳,并未太大变化。

地理加权相关系数可以反映出在局部区域内两两变量之间相关程度的平均大小,此处仅选择与空间位置与供电能力自相关分析,对供电强度的相关性进行解释说明。其中,颜色越深代表着关联越强。图4.3.7反映了局部区域供电能力的自相关性。可看出广州市从化区北部及增城区西部相关性较强,其相关系数在2.5至3.0之间。而在南沙区北部、白云区、黄埔区、天河区、荔湾区、白云区及海珠区相关系数较小,其值位于0至1之间。花都区南部的值位于2.0至3.0之间,表明相关系数较高。

### 皮尔逊相关系数分析

将餐饮、政府机关、医疗机构、学校、企事业单位、工业园区6类因素作为自变量,将供电能力作为协变量,进行皮尔逊相关系数分析。整体来看此6类因素都与供电强度关系密切,广州北部、中部相关较强,南部较弱。且绝大多数区域呈正相关。

将邮电通信、休闲娱乐场所、商店超市、金融机构4类因素作为自变量,将供电能力作为协变量,进行皮尔逊相关系数分析。整体来看此4类因素都与供电强度关系一般,绝大多数区域依旧呈正相关,图4.3.9为各类POI次正相关呈现结果。

将2015年人口、2014年建成区作为自变量,将供电能力作为协变量,进行皮尔逊相关系数分析。整体来看此2类与供电强度关联受地理位置影响较大,广州市区域正负相关均有出现。上图为2015年人口及2014年建成区呈现结果。

## 停电故障风险分析

### 时空统计分析

2019上半年一月和二月发生的停电事件低于10%,一月发生的停电事件数量最少。三月、五月和六月是停电事件的高发期,季节差异并不明显。

停电事件在24小时的分布中极不均匀,夜间停电事件发生较少,主要集中在白天九点到十点以及下午14点到16点,这两个时间段可认为是广义的停电高发时段,而这两个时间段正是一般行业工作和商业活动的高峰期,大量的用电可能对故障停电多发有一定影响。

此外,以停电事件的地理空间坐标为时空立方体的底面,以时间为纵坐标,表示该位置随着时间的推移停电事件的变化。本节数据为6个月的停电事件数据,根据数据时间跨度和街区面积,设置时空立方体的时间步长为15天,距离间隔为5公里,生成故障停电时空立方体,俯视图如下图所示。根据时空立方体的时间定义方法,俯视图所看到的是最后一个时间步长(即6月15日至6月30日)在各区域故障停电事件次数的可视化结果。可以看出,虽然整体上6月的故障停电次数占总体次数比重较大,但并非所有区域在6月都发生大量停电事件,因此分区域调查故障停电次数的变化是有必要的。

![st-cube.png](/media/ffb96ed9-24d2-494d-8239-8402e29ca98e_st-cube.png)

> 停电故障风险时空立方体

根据时空立方体可以直观地观察停电事件时空分布情况及每月变化趋势。以海珠区及其周边区域为例,进一步观察故障停电事件时空立方体,如图4.4.6所示。可以看出海珠区在研究时间范围内各月发生的故障停电事件均较少,而靠近越秀区的区域在1月底和5、6月各发生了至少5起故障停电事件,白云区靠近荔湾区的区域故障停电随时间变化的趋势与之相近。如左侧箭头所指,越秀区北部在5月开始发生较多停电事件,天河区中部区域的停电事件变化趋势与之相似,而右箭头所指条柱的颜色则表明在统计时间范围内,天河区西部仅部分时间发生1-2次停电。

### LISA

对各月停电数据进行LISA分析并成图,如图4.4.7所示。可以看出,除二月外,广州东北区域一直是停电事件高高聚集的区域,相较其他区域而言,从化区和增城区的停电事故总体数量高于其他区域;增城区在高高聚集和非显著聚集间波动,说明相较从化区等周围区域而言,增城区的停电事件数量波动较大。番禺区4月故障停电事件低于周边区域,而其他月份则高于周边区域,符合番禺区的实际故障停电事件数量变化;荔湾区有三个月、海珠区有两个月的停电事件低于周边区域,在其他时间则没有表现出显著的特点,说明整体停电数量处于较低且稳定的状态。其他区域体现出不显著的局部分布格局,说明停电事件数量较为相近。

![lisa.png](/media/ae9805c9-c58a-4895-becc-34838fdb3ed4_lisa.png)


### 停电热点分析

通过对停电数据进行热点分析,得到停电事件冷热点的分布图如下。根据 Getis-Ord Gi*统计得出案发位置对应的z得分和p值,根据p值得到三种典型的置信度。图4.4.8表示广州地区的停电事件出现了较不均匀的空间分布特征。

越秀区、荔湾区、天河区和海珠区经过Getis-Ord Gi*统计得到的Z得分较高,对应的置信水平越高,表明p值越小,则停电事件是随机发生的概率就越低,可以拒绝零假设。根据前文所描述的,z得分表示停电事件的聚集程度,正的 z 得分越高,高值聚类程度就越大,这些地区逐渐成为停电的热点地区,即该地区停电发生的概率越大,相邻区域的停电现象有所增加。白云区靠近以上几个区的部分也呈现出一定的高值聚类。

黄埔区和增城区在区界附近出现z得分逐渐减小的趋势,负的z得分越小,低值聚类越紧密,这些地区逐渐成为停电事件的冷点,即该地区停电数量有所减少。其余区则呈现出冷点热点不显著的特点。 综上所述,停电事件并不是随机产生的,具有空间聚集性,零假设不成立。

![st-hotspot.png](/media/b3946296-c80d-4ba3-8b0d-ae6a3023960c_st-hotspot.png)

> 各月停电数据进行LISA分析结果

### 时空趋势分析

本节的时空热点分析以上文创建的停电事件时空立方体作为输入数据。首先对时空立方体运行时空热点分析,每个时空条柱都将得到对应的z得分和p值,对每个位置上条柱的 z得分进行统计分析,可视化表达结果如图4.4.9所示。可以将停电事件以冷热点的可视化方式显示在地图上,表达其时空变化趋势。

从图中可以看出,时空热点主要分布在广州西部各区,没有显著的时空冷点。西部各区出现的分散性和连续性热点与空间热点基本一致,表明这些地区相较其他地区而言,更易发生停电。越秀区表现出加强的停电模式(至少 90% 的时间步长间隔具有统计显著性的热点,并逐渐加强),表明该地区停电事件一直发生且有逐渐加剧的趋势。

黄埔区、增城区和从化区出现较多的新增热点(此位置是最后时间步长的具有统计显著性的热点,并且以前从来都不是具有统计显著性的热点),表明在6月这些地区相较之前出现了较多停电事件,应对停电故障进行排查,避免其发展成连续或分散的停电热点区域。

![st-tendency.png](/media/4b24d321-7f5d-4093-b8db-4ad5e955500b_st-tendency.png)

> 广州地区停电事件的空间分布