资源描述
行业及产业 行业研究/行业深度 证券研究报告 采掘 / 煤炭开采 2018 年 07 月 27 日 基于机器学习方法的动力煤价格预测 看好 煤炭行业智能研究深度报告 相关研究 “ 全国高温持续,动力煤需求继续反弹 - 煤 炭 行 业 周 报( 2018.07.142018.07.20) “ 2018年 7 月 23 日 “ 避险情绪浓厚,优选煤炭龙头绩优股 - 煤炭行业 2018 年中报前瞻 “ 2018 年 7月 20 日 证券分析师 孟祥文 A0230517050002 mengxwswsresearch 刘晓宁 A0230511120002 liuxnswsresearch 联系人 于光希 (8621)23297818转 yugxswsresearch 本期投资提示: 在煤炭行业的重点关注指标中,价格是最根本的盈利驱动因素, 因此对煤炭价格的预测在煤炭股估值中具有重要意义。 本文结合机器学习算法 ,对秦皇岛港动力煤 Q5500 平仓价进行预测。 选取两大类解释变量,宏观经济指标和煤炭行业指标。 宏观经济指标包括 货币供给、主要价格指数和长短期利率指标。行业指标的选取主要从煤炭库存、运输成本、供求关系以及国际市场等方面分析确定,分别选取秦皇岛港煤炭库存、 东南沿海六大电厂 库存、秦皇岛港锚地船舶数、海运费均 值、六大电厂日耗煤量、 东南沿海主要城市平均气温、 动力煤产量 、 纽卡斯尔 NEWC 动力煤现货价和 布伦特 DTD 原油现货价 。 监督学习 是机器学习中一个重要分类。 将数据分为训练集和测试集两部分, 训练集起到“老师”的作用,训练机器学习 输入量和输出量之间 的内在逻辑关系,测试集起到验证的作用 。本文 探讨 了 两种 监督学习算法(有参数模型和无参数模型)在动力煤价格预测中的应用。 LASSO 在解释变量较多(宏观与行业指标)的情况下 将 15 个解释变量缩减为 12 个解释变量 ,更好地进行指标选取。 在普通最小二乘法目标函数的基础上,通过构造一个 L1 范数的惩罚项,从而可以将一些 绝对值较小的 系数直接压缩为 0, 得到一个较为稳定的模型。 经济数据之间的相互关联往往是非线性的,高斯回归在处理 非线性 、高维数据等问题上 有很好的适应性。 其特点是将贝叶斯思想引入到高斯过程中,跳过传统的线性回归模型,直接拟合形式为多维高斯分布的后验分布,并通过核函数建立输入量与输出量之间的逻辑关系 。 研究结论: 相对于多元线性回归模型,两种机器学习算法表现较好,大大提高了预测精度。高斯回归的误差均值为 3.07%, 5%以内误差比例和涨跌幅命中率均为 85%,表现略优于LASSO。 LASSO 的误差均值为 3.49%, 5%以内误差比例和涨跌幅命中率均为 80%。 对于 8 月份的动力煤价格,两种算法给出的预测结果均为下跌( 7 月目前均价 664 元 /吨),与我们之前的判断相一致, 分析认为主因当前过高的港口和电厂库存压力所致。 其中, 高斯回归的预测值为 636.46 元 /吨 。此外,我们也尝试对三季度的均价进行了预测。在历史数据的基础上,对 8 月份解释变量的相关数据进行预测,最终得出三季度动力煤均价的预测值为 639.88 元 /吨。今后每月 25 号左右,我们会发布下一月度动力煤均价的预测,并在月度价格的基础上对季度价格进行修正。 请务必仔细阅读正文 之后的各项信息披露与声明 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 2 页 共 17 页 简单金融 成就梦想 投资案件 结论和投资建议 相对于多元线性回归模型,两种机器学习算法 ( LASSO 和高斯回归) 表现较好,大大提高了预测精度。高斯回归的误差均值为 3.07%, 5%以内误差比例和涨跌幅命中率均为 85%,表现略优于 LASSO。 LASSO 的误差均值为 3.49%, 5%以内误差比例和涨跌幅命中率均为 80%。 投资建议: 对于 8 月份的动力煤价格,两种算法给出的预测结果均为下跌( 7 月目前均价 664 元 /吨),与我们之前的判断相一致,分析认为主因当前过高的港口和电厂库存压力所致。 其中,高斯回归的预测值为 636.46 元 /吨。 原因及逻辑 相对于传统的多元线性回归,两种机器学习算法有各自的优势。 LASSO 在解释变量较多(宏观与行业指标)的情况下将 15 个解释变量缩减为12 个解释变量,更好地进行指标选取。 在普通最小二乘法目标函数的基础上,通过构造一个 L1 范数的惩罚项,从而可以将一些 绝对值较小的 系数直接压缩为 0, 得到一个较为稳定的模型 高斯回归在处理非线性、高维数据等问题上有很好的适应性 ,而 经 济数据之间的相互关联往往是非线性的 。其特点是将贝叶斯思想引入到高斯过程中,跳过传统的线性回归模型,直接拟合形式为多维高斯分布的后验分布,并通过核函数建立输入量与输出量之间的逻辑关系 。 有别于大众的认识 目前市场上对动力煤价格的预判方法 多为基于供需关系的主观判断 。 我们认为,单独的主观判断是不足以预 判煤价的,因此结合了机器学习算法,选取相关宏观经济和行业指标,用数量化的方法对 动力煤价格进行预判。 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 3 页 共 17 页 简单金融 成就梦想 1. 从宏观和行业两个维度选取指标 . 5 1.1 宏观经济指标 . 5 1.2 煤炭行业指标 . 6 2. 中心化消除数据单位影响 . 7 2.1 数据区间 . 7 2.2 数据预处理 . 7 3. 建立多元线性回归模型 . 8 3.1 回归模型构建方程 . 8 3.2 回归模型优化,消除多重共线性 . 8 4. 结合机器学习算法的两种改进方法 . 10 4.1 机器学习主要分类 . 10 4.2 一种有偏估计方法 LASSO . 11 4.3 交叉验证确定拟合系数 . 12 5. 从有参到无参 高斯过程回归模型的建立 . 12 5.1 参数模型的缺点 . 12 5.2 高斯过程与贝叶斯理论 . 12 6基于金融数据的实证检验 . 13 6.1 滚动窗口法 一种动态预测方法 . 13 6.2 三种方法的预测效果对比 . 14 7不足与展望 . 16 目录 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 4 页 共 17 页 简单金融 成就梦想 图表目录 图 1:秦皇岛港动力煤价格走势(元 /吨) . 5 图 2:货币供给及价格指数 . 6 图 3:利率指标( %) . 6 图 4:秦皇岛港、六大发电集团煤炭库存 (万吨) . 7 图 5:秦皇岛港锚地船舶数、海运价格指数 . 7 图 6:六大发电集团日耗煤量、东南沿海平均气温 . 7 图 7:纽卡斯尔动力煤现货价、布伦特原油现货价 . 7 图 8:机器学习主要分类 . 11 图 9:高斯回归逻辑图 . 13 图 10:预测值与实际值环比变化情况对比 . 15 图 11:三种模型预测效果对比 . 16 表 1:指标选取与数据处理方法 . 8 表 2:回归结果和 VIF 值 . 9 表 3:解释变量相关系数表 . 9 表 4:优化模型回归系数和 VIF 值 . 10 表 5:测试集预测结果 . 14 表 6:三种方法预测效果对比 . 15 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 5 页 共 17 页 简单金融 成就梦想 1. 从宏观和行业 两个 维度 选取指标 在煤炭行业的重点关注指标中,价格是最 根本的盈利驱动因素,因此对煤炭价格的预测在煤炭股估值 中具有重要意义。 秦皇岛港 是环渤海地区的 重要港口,也是动力煤的主要运输港口和结算地, 2017 年完成煤炭吞吐量 2.14 亿吨,秦皇岛港的港口 煤炭 成交价格 在煤炭 行业中 具有风向标的作用。 因此本文 结合 机器学习算法 ,对 秦皇岛港动力煤 Q5500 平仓价 进行预测 。 从宏观和行业两个维度确定解释变量 。 除煤炭行业相关指标外, 煤炭作为一个周期性行业,其 价格 波动 也 受到宏观经济的影响 。因此 在指标的选取上,本文分为宏观经济指标和行业指标两大部分。宏观经济指标包括 货币供给、价格指数和 利率指标,行业指标的选取主要从煤炭库存、运输成本、供需关系 以及国际市场等方面分析。 图 1:秦皇岛港动力煤价格走势 (元 /吨) 资料来源: 中国煤炭市场网 、 申万宏源研究 1.1 宏观经济指标 周期性行业的表现与 宏观经济的 波动息息相关,市场中的 流动性体现在货币供给指标上。 M1 指 狭义货币供应量,包含流通中的现金和企事业单位活期存款。 M2 指 广义货币供给量,其 与 M1 的差值主要是企事业单位定期存款和居民储蓄存款, M2 与 M1 之间的差值反映了市场的 流动性以及对未来经济的预期。 价格指数方面, 本文选取工业品出厂价格指数 (PPI)和采购经理指数 (PMI)。由于 国内生产总值 (GDP)只有季度数据,我们用工业增加值来代替。其中, PPI 和工业增加值一般在下个月的上旬发布,存在着一个月的滞后性。 利率指标方面,本文选取 10 年期国债到期收益率作为无风险利率, 1 个月国债到期收益率作为短期利率。 01002003004005006007008009002008-122009-042009-082009-122010-042010-082010-122011-042011-082011-122012-042012-082012-122013-042013-082013-122014-042014-082014-122015-042015-082015-122016-042016-082016-122017-042017-082017-122018-04秦皇岛港 :平仓价 :动力末煤 (Q5500):山西产 :月行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 6 页 共 17 页 简单金融 成就梦想 图 2: 货币供给及 价格指数 图 3:利率指标 ( %) 资料来源: 中国人民银行、 国家统计局 、申万宏源研究 资料来源: 中国债券信息网 、 申万宏源研究 1.2 煤炭 行业指标 行业指标的选取主要从煤炭 库存、运输成本、供需关系以及国际市场等方面分析 。 煤炭库存 是反映供求关系的最 直接 指标,又分为港口库存和电厂库存。 秦皇岛港煤炭库存 具有代表性地 反映了 国内沿海煤炭市场 动力煤 的 供给 情况, 东南沿海 六大电厂 (浙电、上电、广电、国电、大唐、华能) 煤炭 库存反映了 下 游电厂的 采购意愿和煤炭消耗 。 煤炭海运市场 是 沿海煤炭市场 煤炭 下水南运过程中的重要环节 。 秦皇岛港锚地船舶数是港口 煤炭 市场交易活跃程度的指标之一, 海运费均值( 由秦皇岛港出发到 张家港、上海、宁波、南京 等多地 )可以反映 煤炭 运输成本的变化情况。 日耗煤量是下游 电厂 需求的直接体现 ,其 与 当地 气温存在着密切的关系。 因此选取东南沿海六大电厂日耗煤量和东南沿海主要城市(上海、南京、苏州、无锡、常州、扬州、南通、宁波)日最高气温的平均值作为需求端的两项指标。在供给端,月度的产能数据通常难以获得,选取更直接的指标动力煤产量加入回归模型。 国内动力煤价格的波动也受到国际市场的影响,因此选取纽卡斯尔 NEWC 动力煤现货价和布伦特 DTD 原油现货价作为国际市场的指标。 010203040506070(20)(10)0102030402005-012005-092006-052007-012007-092008-052009-012009-092010-052011-012011-092012-052013-012013-092014-052015-012015-092016-052017-012017-092018-05M2-M1:同比 PPI:当月同比工业增加值 :当月同比 PMI( 右轴)01234562002-012003-012004-012005-012006-012007-012008-012009-012010-012011-012012-012013-012014-012015-012016-012017-012018-01中债国债到期收益率 :1个月 :月中债国债到期收益率 :10年 :月行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 7 页 共 17 页 简单金融 成就梦想 图 4:秦皇岛港、六大发电集团煤炭库存 (万吨) 图 5:秦皇岛港锚地船舶数、海运价格指数 资料来源: 中国煤炭市场网 、 申万宏源研究 资料来源: 中国煤炭市场网 、 申万宏源研究 图 6: 六大发电集团日耗煤量、东南沿海平均气温 图 7:纽卡斯尔动力煤现货价、布伦特原油 现货 价 资料来源: 中国煤炭市场网、 Wind、 申万宏源研究 资料来源: Wind、 申万宏源研究 2. 中心化消除数据单位影响 2.1 数据区间 本文所用的数据均来自于 国家统计局、中国人民银行以及 中国煤炭市场网等行业网站 ,始于 2011 年 1 月,终于 2018 年 7 月,共 91 个 样本数据。为了更好地验证模型效果,我们将数据分为训练集和测试集。 其中 2011 年 1 月至 2016 年 11 月的数据作为训练集拟合模型,共 71 个样本; 2016 年 12 月至 2018 年 7 月的数据作为测试集,用于拟合模型的实证检验,共 20 个样本。 2.2 数据 预 处理 对原始数据进行中心化处理。 由于各个指标的频率不同,使用变频方法统一为月度数据。纽卡斯尔 NEWC 动力煤现货价和布伦特 DTD 原油现货价使用当月最后一个交易日价格作为当月数据,其余数据使用当月均值作为月度数据。此外,由于各解释变量的单位不同,会影响模型的拟合效果,通过标准化消除单位的影响。标准化公式为 0200400600800100012001400160018002009-102010-052010-122011-072012-022012-092013-042013-112014-062015-012015-082016-032016-102017-052017-12煤炭库存 :秦皇岛港 煤炭库存 :6大发电集团 :合计010203040506070800204060801001201401602011-112012-052012-112013-052013-112014-052014-112015-052015-112016-052016-112017-052017-112018-05锚地船舶数(艘) OCFI煤炭运价指数(右轴)05101520253035400204060801002011-012011-072012-012012-072013-012013-072014-012014-072015-012015-072016-012016-072017-012017-072018-016大发电集团耗煤量(万吨 /天)东南沿海主要城市平均气温(右轴)0204060801001201400204060801001201402008-102009-062010-022010-102011-062012-022012-102013-062014-022014-102015-062016-022016-102017-062018-02纽卡斯尔 NEWC动力煤现货价(美元 /吨)现货价 :原油 :英国布伦特 Dtd( 右轴)行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 8 页 共 17 页 简单金融 成就梦想 = 其中 为样本数据均值, 为样本数据标准差。 表 1:指标选取与数据处理方法 指标名称 频率 处理方法 秦皇岛港动力煤价格 (Q5500) 日 月平均、标准化 宏观经济指标 M2-M1 月 标准化 PPI 当月同比 月 标准化 工业增加值当月同比 月 标准化 PMI 月 标准化 1 月国债到期收益率 日 月平均、标准化 10 年国债到期收益率 日 月平均、标准化 行业指标 煤炭库存秦皇岛港 日 月平均、标准化 6 大发电集团煤炭库存 日 月平均、标准化 秦皇岛港海运煤炭运价指数 OCFI 日 月平均、标准化 秦皇岛港锚地船舶数 日 月平均、标准化 6 大发电集团耗煤量 日 月平均、标准化 东南沿海平均气温 日 月平均、标准化 动力煤产量 月 标准化 纽卡斯尔 NEWC 动力煤现货价 日 当月最后一个交易日价格、标准化 布伦特 DTD 原油现货价 日 当月最后一个交易日价格、标准化 资料来源:申万宏源研究 3. 建立 多元线性回归模型 3.1 回归模型构建 方程 多元线性回归模型是计量经济学中一个广泛应用的模型,根据公式拟合模型 + = + ,=+ 其中, +为 + 时刻动力煤价格 , 为截距项, ,为 时刻各解释变量的值, 是均值为 0、方差为 1 的噪声项。之所以采用滞后一期的解释变量来进行模型拟合,是因为这样拟合出的回归模型可以让我们使用最后一期解释变量来对未来一期动力煤价格作出预测,而不必预测未来一期解释变量的值。 3.2 回归模型 优化,消除多重共线性 首先,我们将所有指标加入回归模型,然后用训练集的数据进行回归。结果表明,回归模型 检验统计量的 值接近于 0,表明该模型在 99.9%的置信区间下显著。 但是 回归模型整体显著性通过检验的同时,相关指标的 检验统计量并不显著,表明模型有可能存在多重共线性的问题,需要进一步优化。 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 9 页 共 17 页 简单金融 成就梦想 多重共线性是多元线性 回归模型中较为普遍的一个问题,即解释变量 ,之间存在或近似存在线性相关关系,一个解释变量可以由其他解释变量的线性组合表示。多重共线性出现的一个原因是各经济变量之间存在共同的趋势,由于我们所选取的解释变量都是煤炭行业的相关指标,所以多重共线性的存在是正常的。 多重共线性的存在会增大解释变量最小二乘估计的方差,使得解释变量的 检验统计量变小,降低回归系数估计的准确性,从而影响解释变量的显著性检验结果。同时,也有可能导致回归系数正负号与现实相悖,回归模型的应用价值大大下降。解决多重共线性的一个方法是增加样本容量,但在既有数据的情况下,我们只能尝试其他方法解决多重共线性的问题。 因此引入方差膨胀因子( Variance Inflation Factor, VIF)进行多重共线性的判断,其公式为 = ,其中, ,为的解释变量 、 的相关系数。 当 VIF 大于 10 时, 存在较强的多重共线性 ;当 VIF 大于 100 时 ,存在严重多重共线性 。同时,我们结合解释变量间的相关系数进行取舍。 表 3:解释变量相关系数表 表 2:回归结果和 VIF 值 解释变量 回归系数 标准差 t 统计量 p 值 显著性 VIF 值 截距项 598.94 9.43 118.92 0.00 99.9%显著 M2-M1 -27.10 9.45 -2.87 0.01 99%显著 8.84 PPI 60.98 16.87 3.61 0.00 99.9%显著 9.26 工业增加值 0.33 5.62 0.06 0.95 2.51 PMI -1.65 4.36 -0.38 0.71 2.33 1 月国债 6.17 4.79 1.29 0.20 2.74 10 年国债 -28.74 7.88 -3.65 0.00 99.9%显著 6.04 秦港库存 -19.05 4.97 -3.83 0.00 99.9%显著 2.31 电厂库存 21.78 4.90 4.45 0.00 99.9%显著 2.72 秦港运价 6.44 9.69 0.67 0.51 5.34 锚地船舶数 21.12 7.76 2.72 0.01 99%显著 6.75 电厂日耗 6.58 4.72 1.39 0.17 2.21 平均气温 -1.97 3.92 -0.50 0.62 1.49 动力煤产量 3.77 3.95 0.95 0.34 2.00 NEWC 89.38 13.94 6.41 0.00 99.9%显著 10.06 DTD -5.73 3.51 -1.63 0.11 8.93 噪声 -5.99 3.51 -1.71 0.09 90%显著 资料来源:申万宏源研究 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 10 页 共 17 页 简单金融 成就梦想 资料来源:申万宏源研究 在经过取舍去除一些检验结果不显著的变量之后,还可以通过合并 变量 的方法,比如将新变量利率差定义为长期利率与短期利率的差值进一步优化, 最终选取的变量和 优化后的 回归模型如下。 经过人工优化后的模型仍然是多元线性回归模型,可以作为基准来对比下 文中机器学习算法模型 的 优化效果。 表 4:优化模型回归系数和 VIF 值 解释变量 回归系数 标准差 t 统计量 p 值 显著性 VIF 值 截距项 584.58 4.58 127.63 0.00 99.9%显著 PPI 30.76 6.21 4.95 0.00 99.9%显著 3.97 利率差 -5.94 3.33 -1.78 0.08 90%显著 1.14 秦港库存 -14.62 3.75 -3.90 0.00 99%显著 1.43 电厂库存 21.51 4.27 5.03 0.00 99%显著 1.87 船舶数 34.94 5.26 6.64 0.00 95%显著 2.78 NEWC 96.26 7.65 12.58 0.00 99%显著 5.80 噪声 -4.70 3.57 -1.32 0.19 资料来源:申万宏源研究 4. 结合机器学习算法 的 两种 改进方法 4.1 机器学习 主要分类 近年来,随着人工智能的发展,机器学习 (machine learning)引领的“金融科技”浪潮掀起了一场新的革命。机器学习是一门交叉学科,其目的在于研究计算机如何模拟人类的学习行为,并以新获取的行为模式来不断改善、提高自身的性能。 机器学习的概念由来已久,随着机器学习理论不断丰富完善,人们开始探讨其在图像识别、数据挖掘以及金融等领域中的应用,这也是本轮机器学习浪潮的由来。
展开阅读全文