2016年末,我经常被有关雾霾的各种相互矛盾的新闻刷屏。一会儿新闻说,由于雾霾首都机场飞往全国各地的航班都取消,所以想逃离北上广都逃不了。一会儿新闻说环保部公布数据显示“2016年北京PM2.5浓度比2015年下降9.9%”,似乎又略有好转。
我应该相信谁?
老实说,当我看到朋友圈那些云深不知处的照片和各种航班延误的消息,第一反应是:这真魔幻啊!想到还居住在成都和北京的父母和亲人们,内心就开始有些恐慌。
我应该如何去面对雾霾?
▲2016年12月16日下午15时左右,北京朝阳区中国尊。当天雾霾由南向北笼罩全城。 王飞 / 新京报
恰巧看到张弢发布的文章《用数据说话:从美大使馆PM2.5数据看大城市雾霾变化情况,是什么让我们焦虑》,里面附上了美国大使馆数据的网址。作为数据科学家,我看到数据集立刻两眼放光!不如亲自动手分析,独立做出自己的结论。
用数据说话,用数据说话,用数据说话。
▌张弢说:以全年来看,雾霾在好转,蓝天数量在增加。
我的结论是一致的,用数据看图说话:图1表明,4个城市从有足够多记录的年份历史来看,确实雾霾天的数量都在逐年减少。其中北京、成都和沈阳相差较小,北京最严重,上海相对最好。广州由于数据太好,被排除在下面的分析之外。
▲图1: 4个城市的年度雾霾天百分比 (= 一年中有记录雾霾天数/全年有记录天数)。雾霾天指的是一天中PM2.5最大值≥100的日子,相对的,蓝天指的是那些一天中PM2.5最大值<100的日子。为公平比较,去掉了所有城市只有后半年记录的第一年,使用了各个城市2015年12月的数据来填充2016年12月的缺失数据。
平均起来,上海每年要比其他3个城市多100天蓝天。
听起来差别挺大的,有没有可能是由于我们对于蓝天的定义太过于一刀切?PM2.5值99算是蓝天,101就不算蓝天了吗?确实有这个问题。但我看每天PM2.5最大值的密度图还是比较连续的。另外,从24小时PM2.5平均曲线来看,上海确实遥遥领先于其他三个城市。所以,我们可以对“100天”这个数字稍微谨慎,但这并不改变上海比其他3个城市要好很多的结论。
▌张弢说:(北京的)人们感觉雾霾情况变得严重可能是由于冬天的情况恶化。
我的结论要更大胆一些,北京可能仅仅是12月的情况显著恶化了。为此,我对比了北京自2009年以来11月到次年2月的情况。2015年12月确实更差了:不但有更多天的PM2.5值严重污染(见图2a),非常集中,而且这些天的PM2.5持续超过300的时间很长(见图2b)。
▲图2a: 北京2009-2016年冬季PM2.5日最大值的分组计天数图。按照PM2.5日最大值的范围500+,300-500,100-300和0-100分别对应红、橙、黄、蓝四种颜色预警制度。
▲图2b: 北京2009-2016年冬季PM2.5日超过300的小时数分范围计数图。
让人意外惊喜的是,其他3个月PM2.5其实都自2013年开始逐年好转。严重污染的天数少了,严重污染的时候持续时间也短了,虽然并不那么显著。考虑到在2014年有一次“APEC蓝”的情况下,这样的改善真的能给人信心。
当然,让我们恐慌可能还有其他气象原因,污染物也不只是PM2.5一种。例如漫天的大雾,如果没有测量,我们很难搞清是雾还是霾,究竟有多严重。
下面我探讨几个新的问题——
▌如果我要去这几个城市旅游,最好是几月份去可以避免雾霾高峰?月初或者月末有差别吗?
结论都是夏天去最好。如果以不超过25%的雾霾天为基准,北京(8月),成都(6月-9月),上海(3月-11月),沈阳(5-9月)。另外的探索显示,并没有发现月初和月末有明显不同。
来看看每月雾霾天百分比的月份规律(图3)
1. 2015年以前北京雾霾没有四季的差别,2015和2016的夏季明显好转;
2. 其他三个城市有明显的U型;夏天最好,冬天明显差;
▲图3:4个城市每月雾霾天百分比 (= 一个月中有记录雾霾天数/全月有记录天数)。
▌平均来说,每天几点出门可以避免雾霾高峰?早上跑步还是傍晚跑步可以少吸霾?
答案是:如果你在上海,差别不大。如果你在成都、沈阳或者北京,最好的出门时间都是下午3-4点;傍晚跑步会比晨跑少吸霾;特别提醒在北京的朋友,在严重雾霾天常见的秋、冬两季,半夜12点左右是PM2.5的高峰,请做好防护工作。
来看看每小时PM2.5均值的日夜规律(图4)
1. 成都和沈阳早上8-9点峰值,下午3-4点低谷;日内变化可能与温度和气象条件有关;
2. 北京半夜峰值,下午3-4点低谷,是另外一种模式;
3. 上海日内变化较小,除了2013年;
▲图4:4个城市按年度的24小时PM2.5中心化后的均值(每小时的数值减去当天的平均值),单位:μg/m3。
有没有可能有异常值,取平均值完全被某天的数据给带偏了呢?于是,我又看了某一年按月平均的曲线(图5)和取50%, 75%, 90% quantile的曲线,形状是和采用平均值一样的。采用均值可以有一个比较直接的解释:长期居住在某个美国大使馆附近的人们平均下来受到的雾霾总量。
▌北京霾是一种怎样逆天的存在?
看图5,北京3-9月份雾霾天不多,很多都是变化比较小的曲线,勉强可以认为上午峰值和下午低谷,和其他两个城市差不多。但是10月到次年2月有一个明显的U型曲线,在半夜达到峰值,冬天的大北京果然是有一种洪荒之力能改变自然规律啊。我还看了2015年12月北京的每日曲线,结论也是雾霾天尤其是严重雾霾天都是在半夜峰值。
▲图5:北京历史所有月份的每天24小时PM2.5中心化后的均值(每小时的数值减去当天的平均值),单位μg/m3,每个小图代表一个月份。
另外我试图研究一下平均说来周中和周末,月初和月末,有没有差别,结论都是没有明显pattern。
最后,如果你只想知道我的结论:
为严谨起见,我想强调出所有数据都只是基于每个城市的1个观测点即美国大使/领事馆,每个城市的其他区域根据各自的地理位置会有差别。请读者以下所有结论都务必在每个“城市”后面补充“美国大使/领事馆”的限定词。
北京、上海、沈阳和成都4个城市的蓝天在逐年变多,但北京12月份雾霾也变得更严重;
成都和沈阳没比北京好很多,上海相对好,广州最好;
普遍规律:早上别晨跑(尤其是成都和沈阳,PM2.5值都在早上8-9点到达一天的峰值),下午3-4点外出最好;
北京秋、冬两季可能真的具有洪荒之力,严重到可以把雾霾天的PM2.5峰值从蓝天的早上8-9点移动到半夜12-1点; 半夜请尽量做好防护措施(出门在外的话注意戴好口罩,家里空气净化器开足马力);
想去成都吃美食和看美女的,建议6-9月去。
最后的最后,我还有些话:
其实不光是关于雾霾,各种媒体上有太多似是而非、道听途说和一知半解的消息。这些消息里面的未知和不确定是让人恐慌的根源。但恐慌没有用,只有勇敢地面对问题,才可能理解问题,从而找到最好的解决办法。
我并不相信于丹老师的办法:“凭自己的精神防护,不让雾霾进到心里”。我相信的是用数据说话,直面问题,消解不确定性。有了准确和完备的数据,我们和雾霾的战斗就有了最好的指南针。
环保部部长陈吉宁在新闻发布会上承认,近几年中国冬季污染的问题确实没有很好解决。他说:“虽然2016年北京PM2.5浓度比2015年下降9.9%,优良天数比例比2015年上升3.1个百分点,但最大的问题是,冬季改善的幅度非常小,甚至没有多少改善。”
我觉得这样的诚恳值得点赞。
我想,面对雾霾的最好方式就是用数据说话。不要恐慌,数据为王。
Han Han,数据科学家,美国芝加哥大学统计系博士
评论