资源描述
中国个体经营户研究系列报告之 一 : 中国 个体经营户 总量 测算 与 新冠疫情 冲击 评估 兼论金融科技 “稳 经济 ” 的价值 北京大学数字金融研究中心 联合课题组 蚂蚁金融服务集团研究院 课题组顾问: 黄益平 北京大学数字金融研究中心主任 李振华 蚂蚁 金融服务集团 研究院执行院长 课题组成员 : 王靖一、郭峰、 李勇国 2020 年 2 月 28 日 课题组成员:王靖一( 中央财经大学金融学院 讲师 、 北京大学数字金融研究中心 特约研究员 )、郭峰( 上海财经大学公共经济与管理学院 副教授 、 北京大学数字金融研究中心 特约高级研究员 )、李勇国(蚂蚁金融服务集团研究院 数据科学家 )。报告在撰写过程中得到了北京大学数字金融研究中心、蚂蚁金服集团相关部门,特别是程志云、王芳、舒眉 、 张瑜等同事的支持和帮助,同时也获得了国家社会科学基金重大项目“数字普惠金融的创新、风险与监管研究”(课题号: 18ZDA091)的资助 。 感谢徐洋为本文提供的相关帮助。特此致谢,文责自负。 1 一、 内容 提要 2020 年年初 , 起源于 湖北省 武汉市的新型冠状病毒肺炎疫情,迅速蔓延至全国所有省份, 截至 2 月 27 日已致 全国 7.8 万余人感染,病亡 2700 余人 。 这次新冠肺炎疫情,是新中国成立以来在我国发生的传播速度最快、感染范围最广、防控难度最大的一次重大突发公共卫生事件 。疫情不仅 严重 危害国民的身心健康,还因为 突然性的 “封城 ”、“ 闭户” ,在短时期内 对国民经济运行造成 一定的 冲击。特别是广大个体经营者,持续性的 闭门休市,已经给千百万以此为生的家庭造成了严重影响。 当前, 疫情 蔓延势头得到初步遏制,防控工作取得阶段性成效 ,全国 大多数地区在加强疫情防控的 同时 ,也在 有序 推动 复工复产 。 但是,与积极推动规模以上大企业和大型商超复工复产相比,各地地方政府对推动个体经营 户 恢复营业的积极性明显不高。然而, 遍布城乡各地的沿街商铺和流动商贩等 个体经营户 ,不仅是 很多 家庭赖以维生的重要经济来源,也是市场经济运行的微观基础和 国民经济发展的毛细血管 , 对宏观经济的健康发展和稳定 运行 具有非常重要的意义 。 2 月 23 日召开的从中央到省、地市和县各地政府主要负责人均参加的“ 统筹推进新冠肺炎疫情防控和经济社会发展工作部署会议 ”上,习近平总书记专门强调要“解决个体工商户尽快恢复营业的问题”。 2019 年 12 月 30 日 、 2020 年 2月 18 日的两次 国务院常务会议上,李克强总理 也都 肯定了 个体工商户、 “小店经济”对经济可持续发展和实现包容性就业的重要价值 。 不 过, 个体 经营 户 的重要价值 虽然 已经得到各界的广泛认可, 但无论是政策界 还是 学术界,对 个体经营户 的 具体 经营情况 却甚少讨论,对全国和各地区的 个体经营户 的总量、 营业额、 结构等 ,也 缺乏更详细的统计数据,因而难以更深入地研判分析 。 疫情对 个体经营户 的经营 到底 产生了多大冲击,也缺乏量化的 评估分析。 究其原因, 就 是因为作为一种非正式或半正式 的商业活动,沿街商铺和流动商贩等 个体经营户 的相关统计比较困难 , 因此 在统计上会或多或少地被遗漏 。在上述背景下,本报告利用支付宝旗下的 数亿级 的“码商”数据和机器学习分析方法,估算了中国 个体经营户的实有 规模, 然后 在此基础上定量评估了疫情对 个体经营户 产生的冲击,并特别考察 了 金融科技起到 的 缓解疫情冲击 的作用 。 上述研究成为可能,完全是因为 数字经济 和数字金融 的 深入 发展 和广泛渗透。在数字经济时代,电子支付越来越成为中国人 购物 消费时的首选。根据 中国人民2 银行金融消费权益保护局 的调研数据, 2018 年, 全国 使用电子支付 的 成年人比例为 82.39%;农村地区使用电子支付 的 成年人比例 也达到 72.15%。 在 此大 环境下 , 不仅各种互联网线上的商业交易是通过互联网支付等线上支付手段进行的,甚至 各类 沿街 商铺和流动商贩等 个体经营户 也是 通过支付宝、微信、银联支付等机构提供的 二维码 支付 等 电子 支付 手段来 进行收款 的 ,这就为这些 个体经营户 留下了 重要的 数据记录 。 而 这些数据信息在这些收单机构内的积累形成的大数据,就可以 产生 单个数据点所无法产生的价值。例如根据这些收单流水 等 信息,收单机构就可以自己或联合其他 放贷机构 ,向这些 被传统金融机构完全忽略的小店小铺 发放贷款,从而大大 扩展 了传统金融机构放贷的边界,有 力 地促进这些国民经济毛细血管的成长。而另一方面,这些数据形成一定的积累后, 还 可以用来帮助我们从较为宏观的层面分析 这些非正式和半正式 商业活动 的规模及其 在促进 国民经济发展、 稳定 就业等 方面 的 价值。 本报告就是这方面的一个 大胆 尝试。 具体而言, 在本报告中,课题组基于 支付宝 数亿 量级的 二维码收单工具 “码商” 的数据 ,利用机器学习等分析方法,估算了中国 个体经营户 的总量。就分析的 具体思路而言,课题组的 一个核心 假定是杭州 作为支付宝的总部所在地,支付宝的码商已经对杭州市的 个体经营户 基本实现了全覆盖,即杭州的码商数量与 个体经营户 数量基本等 同 。 基于这一假定,课题组对杭州市 的 经济、人口、地理、气象等特征与码商 数量 之间的关系进行机器学习建模,并进而将杭州市 训练得到的参数“ 泛化 ” 到其他城市,根据其他城市 的 上述 经济人口等特征 和上述参数 , 估算该 地区的 个体经营户 的总量。 在上述建模中,为了更好地解决 微观数据聚合 尺度的问题,课题组 还 将 全国 划分为 26.7 万 个不规则的多边形 泰森多边 形 。 根据我们的估算,全国 2018 年 个体经营户总数量约 为 9776.4 万 户 , 比第四次全国经济普查得到的官方口径高出 54.8%,按该次普查得到的个体经营户带动劳动力的平均系数推算,全国个体经营户实际贡献的就业 量 约 2.3 亿人,平均每天 产生约 2.3 亿笔交易,全年营业额 达 13.1 万 亿 元 ,约占到全国社会消费品零售总额的三分之一 。 在估算出全国和各地区的 个体经营户 规模 之后,我们进一步定量评估 了 本次疫情对 个体经营户 产生的冲击。评估的基本逻辑是根据 2019 年同期以及 2020 年1 月 20 日前两周的 码商 数据用机器学习算法来“预测”如果没有疫情发生,在3 2020 年 1 月 31 日(正月初七) -2 月 14 日 (正月 廿一 日) 两周时间 内, 码商 的总量、交易额等“反事实结果” , 然后 与 2020 年这 两周时间内实际 发生的商户量、交易 额 等进行比较,两者相差就是疫情这个突发的外生冲击的真正影响。具体而言,根据我们的估算, 在 重点疫区湖北省, 码商 活跃商户量和交易 额 分别下降 59.3%和 69.7%;而在全国其他地区,活跃商户量和交易 额 则 分别下降约 40%和 50%。而在金融科技 缓解疫情冲击、稳定经济和就业作用 的分析中,我们基于 我们课题组编制的“ 北京大学数字普惠金融指数 ” 的 底层指标 与不同地区码商数据的匹配和回归,发现一个地区金融科技的发展, 可以 显著缓解疫情 对 该地区 个体经营户的冲击。 具体而言, 基于数字技术精准发放的贷款 每增长 1%,疫情带来的影响平均 就 减弱 2.57%。 如果一个地区 基于数字技术精准发放的贷款 ,能从全国的均值发展到杭州的水平,会使得疫情的负面冲击下降 约 51%。 基于上述研究结论,课题组提出以下几个政策 建议: 第一,划分疫情风险等级, 精准施策 ,逐步支持个体经营户有序复业。在疫情爆发初期,各地采取一刀切的防范措施,可以理解。但随着对疫情认识的逐渐深入,特别是疫情得到初步遏制的新形势下,各地应该尽快按照中央部署,根据风险等级,做出响应级别的相应调整。各地政府应该在充分防范疫情风险的前提下,为个体经营户有序复业创造有利条件。第二,采取各种措施,切实降低个体经营户的经营成本。政府应该在不放松疫情防范措施的前提下,保证全国物流的畅通。鼓励沿街商铺、批发市场、农贸市场等的物业公司、房地产企业、商场等机构对微型商户减免疫情期间的摊位费、房租、管理费等费用。而 税务部门则可允许这些机构将减免的租金、摊位费等进行税前抵扣。对于商业用水、用电价格进行适度调整。第三,将资金直接推送到离个体经营 户 最近的金融机构,同时充分发挥数字金融的作用。一些数字金融机构利用移动支付等数字技术,解决了获客难与风控难的问题,服务了大量的线上、线下个体经营户。但数字金融机构往往缺乏资金,因此,政府应该通过央行再贷款、专项债及资产证券化等工具把资金推送到直接服务个体经营户的网络银行与其它金融机构,同时鼓励它们通过贷款 展期 、 息费 减免等手段帮助个体经营户维持经营,共度难关。 二 、 中国 个体经营户 总量测算 4 正式估算之前,需要对个体经营户的概念进行说明,特别是其与个体工商户之间 的区别和联系。粗略来讲,所谓个体工商户,是指按照相关法律法规在工商部门注册登记过的 个体经营户 ;而个体经营户则不仅包含工商注册的,还包括没有注册过,但实际上在从事个体经营行为的 商户 。此外,从严格定义而言,除线下的沿街商铺和流动商贩等之外,个体经营户还应该包括在各个网络平台上开展小额交易的 微型 商户,但在本报告中,我们仅考虑线下的个体经营户 ,这个范围与我们的日常用语相吻合。 而 “码商”之所以能为本研究提供基础性数据, 首先 是因为“码商”的定位和服务对象与 个体经营户 高度重合。 例如,“码商”基本上都是用个人的名义注册, 这与 个体经营户 不区分经营实体与经营人的特点高度契合,这样就排除了那些大型商超、连锁店等大型商业机构,这些大型商业机构往往以公司名义注册和收款 ,这部分业务由支付宝中不同于码商的其他部门负责 。而统计也显示,码商的营业额也普遍不高, 99%的码商 通过支付宝收款的 年营业额在 40 万元之下,也与我们理解的 个体经营户 的 规模 高度一致。 其次, 个体经营户 也有很强的积极性去注册、使用码商,这也是一个非常重要的前提。 实际上, 开 通 码商非常 方便,只 需要通过 手机简单申请即可 即时生成;而且这个商户也有很强的激励开通码商,因为 使用收钱码而不是平常的收款二维码,可以减免提现手续费 。最后, 我们删去了那些交易不活跃、 无法确定 经营区域范围 的 码商 , 这样就 保证 了 纳入研究样本 码商后面确实是一个日常性经营的商户,而不是一种偶尔 尝鲜的个人用户 。 2.1 测算方法 为对 个体经营户 的规模 进行 科学 估算,我们必须对其基本特征进行 一番 考察:首先 , 线下与微型两个基本特征决定其服务对象往往是其经营场所附近的人群,因此 他们的商业特征也与其所在地在 的 周围 环境密切 相关。 其次, 由于数据限制,我们 目前 只能 基于 支付宝 这一家机构的支付工具积累的 数据 进行估算,而支付宝在全国不同城市的推广程度不同:在其总部所在地杭州市,覆盖率已经非常高。假定码商在杭州已经实现了对 个体经营户 的全覆盖,是我们开展估算 工作 的一个基本假定。 此外,为了解决数据聚合中的尺度问题,我们以 全国银行网点为中心点,构造了一种被称为“泰森多边形”的不规则 形状。 最终, 课题组一共获得 中国内地5 266793 个 银行 网点 (距离过近的 银行 网点有所合并) ,并基于此构建 泰森多边形 ,将 内地 31 省 (直辖市、自治区,以下简称“省”) 进行了网格化分割 。 图 1 展示了杭州市西湖区经 过网格化处理后的结果,每一个红点就是一个 银行 网点,细线便 代表 泰森多边形的边界。杭州市西湖区是一个很好的可视化样例,因为一方面它的东北区域是密集的城市商业区, 银行网点密集; 另一方面南部东部存在面积广大的风景区,只有山坳中的小镇 ,从而银行网点 就 稀疏 一些 。这一密一疏恰恰展现了基于 银行 网点的泰森多边形 对 不同商业 活跃环境 的自调节能力 ,从而 达到了我们预期中的效果。 图 1: 基于网点的泰森多边形:以杭州市西湖区为例 注 :中图为研究者自绘,蓝点代表餐馆,位置信息来抓取自高德;左右图截取自谷歌地图。二者形状上的差距系不同投影方式造成。 2.2 数据 说明 确定好度量尺度后,我们需要将相关数据在这一层面进行汇总聚合。首先,为了尽可能地做到精确的估计,蚂蚁金服研究院 的数据科学家 提取了 2018 年 脱敏 清理后的 “ 码商 ” 数据, 在 前述泰森多边形 层面 进行聚合, 从而 获得了 26.7 万个多边形 *12 个月的面板数据。 主要数据包括商户量、交易额、服务人数、交易次数、以及按照码商注册人信息划分的一些分属性子样本数据,如年龄 24 岁以下码商、年龄 55 岁以上码商、女性码商,外省人码商,等等。上述数据通过蚂蚁金服开发的 研究开放 平台 “ 数巢实验室 ” 与课题组获取的其他外部数据进行匹配,从而 在 保护数据安全的前提下,使得相关学术研究成为可能。 同时, 为了 更好地刻画泰森多边形内的码商与该多边形的人口、经济、地理6 等特征之间的关系,课题组 尽可能 多 地获取了 很多 外部数据 : 首先,我们通过 API 从高德 地图中 获取了约 3500 万个兴趣点的数据。兴趣点是一个 地理信息系统的概念,简单 而言 ,一切可以在高德 地图检索 到的商店、饭店、学校等实体,都 可以称为一个 兴趣点 。 我们 共 获取了与 本 研究相关的 18个一级分类(如商店、饭店)、 224 个二级分类(如饭店可以分为中 餐馆 、西餐店 )、 554 个三级分类(如中餐馆可以分为北京菜、鲁菜) 兴趣点 。 与码商数据的聚合方式一样,我们 将这些兴趣点 在泰森 多边形 层面上 进行聚合。 其次,为了获得与 泰森 多边形粒度 尽量 相匹配的 宏观 数据,我们使用了 500米精度的夜晚灯光亮度数据 , 1 公里级别的 人口 栅格 数据,以及 30 米精度的高程(可简单认为是海拔)数据。夜晚灯光数据来自美国国家大气与海洋 局公布的VIIRS 数据,使用的是 2018 年的年度数据。 由于这一代卫星的过境时间是凌晨1:30,更多的是衡量城市建设和 24 小时运转的重工业。 人口数据来自哥伦比亚大学 提供的,结合了卫星遥感和普查数据推算 ,原始数据的颗粒度为 1 公里 栅格,为进行匹配,我们进行了简单平均的超分辨率 处理, 时间为 2015 年,这已经是能够找到的最新年份人口数据 。 高程数据则主要用来生成一些衡量该区域地理崎岖程度的变量,这显然也是一个影响个体经营户服务周边人群便利程度的重要指标。 再次,由于 个体经营户 对于天气情况极为敏感,特别是夜间经济受到气温的影响尤其明显,故而我们使用了来自 欧洲中期天气预报中心 的气象数据,主要包含气温、风力 、湿度 与降水量,数据精度为 约 25 公里的栅格 。 此外,空气质量也可能 对线下 商户活跃程度有所影响,故而我们获取了中国大陆 境内 1400 余 个空气监测点数据,包括 空气质量指数( AQI)以及 PM2.5、 PM10、 SO2、 CO、 NO2、O3等 单项 污染物 浓度数据 。 最后,为了衡量金融科技环境对于 个体经营户 的影响,我们提取了 我们课题组 2019 年编制的“ 北京大学数字金融普惠指数 ” 的底层指标(取自然对数后进行标准化) 。这些底层数据 相较于指数化后的结果,可以 更加 清晰地衡量每个分项 指标 的影响力,同时也可以对影响的尺度进行清晰的量化解释。 2.3 机器学习算法 本小节介绍我们利用码商数据,估算 个体经营户 总规模的基本假设和机器学7 习算法。 首先 需要解决的一个矛盾是,如何 使用 我们可以 获取 的支付宝码商数据(记作 Y),估算 个体经营户 的 总规模 (记作 Z)。 为了建立 特征 变量( X) ,即灯光、人口、地理、气象、空气质量等变量,与 不可观测的 Z 变量之间的 对应关系,我们 首先 需要找到 Y 与 Z 之间的联系。 在 很多地方 , 个体经营户 的数量与规模与码商的数量与规模显然存在一定的差异 。 但是 作为蚂蚁金服与阿里巴巴的总部所在地,同时拥有较高互联网渗透率的杭州 市 ,却为我们提供了一个理想的样本。 在杭州 市 , 码商对 个体经营户 的渗透率已经非常高, 绝大多数 个体经营户 都使用支付宝作为支付方式 ,即在杭州市,码商数量 已经约等于 个体经营户 的数量 。 因此,通过下述 算法 逻辑就可以通过全国各地码商的规模来估算 个体经营户 的规模:以杭州 市 3075 个泰森多 边形为训练集,训练出特征变量 X 与 个体经营户 ( Z,在杭州同时就是 Y)之间的统计关系,进而泛化到其他城市 :利用 其他城市各个多边形的特征变量 X 和训练得到的参数,估算出该城市各个多边形对应的 个体经营户 Z 等指标。 关于 机器学习算法,我们 最终选取的是 梯度下降树 ( Gradient Boosting Decision Tree, GBDT) 回归。 对于具体的 训练过程,我们 首先将训练集 数据 进行9: 1 的划分, 预留 10%样本作为 最后的测试 集 , 然后对于 90%的 训练 数据 ,进一步拆分为 4: 1 的训练 集和 验证 集。 以交叉验证的方式寻找最优的超参数组合,获取最优参数 后,在最终 10%的 测试集样本中 进行最终的准确度 测试 ,以抑制过拟合的问题 。 根据上述方法构建的机器学习算法,训练后的 模型预测能力 的 R2 可以达到 0.9 以上 。 最后, 以 训练得到的 最优的、在测试集达到准确度要求的超参数组合,在杭州 全部的 3075 个多边形 样本上 进行重新拟合 , 然后得到的参数即 为我们最后模型泛化时 使用 的 参数 。 2.4 基本 估算结果 图 2 中给出了 根据 上述方法 测算 的中国 个体经营户 的几个关键数值。具体而言, 中国 个体经营户 总 量 约为 9776.5 万 户,比 第四次全国经济普查统计到的 2018年全国 个体经营户 6295.9 万户,多出 54.8%。 而 同样 根据第四次全国经济普查 的数据 , 每个 个体经营户 平均对应 2.37 个从业人员, 因此 一个相对粗糙的估算结果是, 全国 个体经营户 牵扯着约 2.3 亿人的就业问题。 根据中国统计年鉴, 2018年全国劳动力人口共计 8.06 亿 人,因此, 个体经营户 从业人员就占到了全国劳8 动力人口的 28.8%。 此外,全国 个体经营户 2018 年 全年 营业额约为 13.1 万亿 元,与之相对应的一个数值是 社会消费品零售总额 , 2018年全国社会消费品零售总额的 规模为 38.1万亿元人民币 ,因此 个体经营户 商户 与社会消费品零售总额之比约为 34.4%。 不过,这里需要强调的是, 虽然这些 个体经营户 在统计上会被或多或少地遗漏, 但它们 毕竟也是 整个市场经济中的活跃参与者 和 重要环节,它们上下游的货物、服务均与其他商业形态发生关系,而这些商业形态则 会更有可能 被纳入正规 的 统计。故而,我们进行的核算结果,并不能说是对于原有统计数字的 全新 补充 。上述营业额统计,究竟有多少已在统计部门正式统计当中,有多少 被正式统计所遗漏,限于 官方 公开的 统计数据细节 缺失 ,此一 问题暂时无法严谨探究。 最后,全国 个体经营户 全年产生的总交易笔数约为 839 亿笔 , 即平均每天 2.3亿笔。 一个 形象化的理解便是 : 平均每天每六个中国人里便有一个 人 和 个体经营户 发生 过 交易 ,这大体也符合我们的生活 常识 。 图 2:中国 个体经营户 关键数据 通过上述对中国 个体经营户 规模的的估算, 我们 可以 得到 以下几点 重要结论:首先, 个体经营户 规模庞大, 支撑着 近亿个家庭, 数亿 人口的生计 , 承载着 人们对 美好生活向往的 物质基础 。其次, 单个 个体经营户 规模虽然 微小,但是总量巨大,是我国 商业体系和市场 经济的重要组成部分 , 个体经营户 的健康运行,对上游工厂和批发商意义重大 。最后, 个体经营户 在以 极高 的频率与 广大民众 发生着非常 密切的关联, 构成了 国民经济 运行的 毛细血管,为 千家万户提供服务,为 社会注入活力。 总而言之, 规模庞大的 个体经营户 上关国民经济的健康运行, 下涉9 千家万户的柴米油盐,具有非常重要战略意义。 更多 关于 个体经营户 分布 特点与影响因素 的分析 ,限于篇幅与主题,在本篇报告 就 不 再详细 展开 了 ,有兴趣的读者可以关注 我们课题组对中国 个体经营户 的后续系列化的 研究报告 。 三 、新冠疫情 对个体经营户冲击的定量评估 3.1 估算方法 在经济学 中, 进行 外生冲击或某一个 政策 的效果的 评估中,一个 根本性的 问题是,如何进行反事实构建 。 具体而言, 我们只能够观测到受新冠疫情影响的实际数据, 而不知道如果疫情没有发生,经济数据将会是什么样 子 。 为了进行疫情冲击 评估 ,最理想的方式是我们构建一个没有新冠疫情的 2020 年 个体经营户 经营 状况 的 “反事实 结果 ”,那么疫情带来的冲击便是 商户 2020 实际经营规模 与 反事实构造出的 2020 经营规模之 差。 因此, 现在的核心问题便是如何计算一个合理的没有疫情 发生的 2020 的“反事实结果” 。 机器学习方法为此提供了一种思路。具体而言,使用机器学习算法,利用疫情之前的数据,来“预测”一个 2020 年春节后的数据,由于只使用了疫情前的数据,因 此 相当于 构造出了一个如果没有疫情发生的“反事实结果”。使用机器学习算法构造反事实结果,进而 进行 因果推断的思路,已经成为经济学实证研究的最新趋势 。 具体而言,机器学习算法的 构建策略与前文对 个体经营户 总规模的 测算 非常类似 。 2020 年 1 月 20 日可以视为疫情的一个重要转折点,该日后,全国各地逐步进入了被肺炎疫情影响的状态:确诊人数增加 , 更严格的管理政策随 之 到来,个体经营户经营受到严重影响 。而在 1 月 20 日(农历廿六)之前,包含线下商业活动在内的经济活力并没有受到明显的影响,可以视为一个典型的春节节前状态。而线下商业活动往往在春节前后呈现明显的周期性特征,如果我们能拿 2019年春节前后同期的数据建立一个映射关系,那么,在控制足够外部变量的前提下,若不存在疫情, 2020 年春节前后的映射关系应当维持一致。 这就是我们利用 2019 年同期(按农历算)数据和 2020 春节前数据,构造2020 年春节后 如果没有疫情发生的 “反事实结果”的基本思路。 模型的训练样本为 2019 年的数据, 具体而言, 2019 年 1 月 18 日到 1 月 31 日( 农历廿六)的 码商 数据, 以及 上述 外部 获取的经济、人口、地理等 数据 , 为特征变量; 2019 年 2
展开阅读全文