光大证券多因子系列报告之一:因子测试框架.pdf

返回 相关 举报
光大证券多因子系列报告之一:因子测试框架.pdf_第1页
第1页 / 共22页
光大证券多因子系列报告之一:因子测试框架.pdf_第2页
第2页 / 共22页
光大证券多因子系列报告之一:因子测试框架.pdf_第3页
第3页 / 共22页
光大证券多因子系列报告之一:因子测试框架.pdf_第4页
第4页 / 共22页
光大证券多因子系列报告之一:因子测试框架.pdf_第5页
第5页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
敬请参阅最后一页特别声明 -1- 证券研究报告 2017 年 4 月 10 日 金融工程 多因子系列报告之一:因子测试框架 金融工程 深度 光大金工因子测试框架 构建 : 作为 量化选股 多因子 模型构建环节中最重要 的一部分,如何寻找具有逻辑支撑且能有效区分和预测股票收益的因子 是我们本篇报告首先探讨的主要内容。 分期 截面回归代替全体样本回归 : 相比全体样本 面板 回归的方法,分期截面回归更有利于 提高模型 对因子变化趋势的捕捉。 RLM 稳健 回归法 因子测试 : 最小二乘法 OLS 在独立同分布正态误差的线性模型中是有效无偏估计。然而当误差 服从 非正态分布时, OLS 就 较 易给异常值 outliers 赋予较高的权重,从而导致模型结果失真。 RLM 中常用的 M-estimator 方法则是采用迭代加权最小二乘估计回归系数,根据回归残差的大小确定各点的权重 ,以达到 参数估计结果较为 稳健的目的。 多重指标判断因子有效性 : 首先通过分期截面 RLM 回归计算因子收益,再计算因子暴露 与 下期收益率的相关度 IC 值, 同时 结合分层回测法检验因子单调性,构建 较为综合全面的 因子测试体系。 因子测试关注的指标 包括 因子收益序列 t 值,因子累计收益率, 因子 测试 t 值, IC, IR,多空组合收益率、最大回撤、换手率 等等 指标 更全面的 因子库 : 估值因子( Value) , 规模因子( Size) , 成长因子( Growth) , 质 量因子( Quality) , 杠杆因子( Leverage) , 动量因子( Momentum) , 波动因子( Volatility) , 技术因子( Technical) , 流动性因子 ( Liquidation) ,分析师因子( Analyst) 和 其他因子 共 11 大类 108 个细分因子。 分析师 刘均伟 (执业证书编号: S0930517040001) 021-22169151 liujunweiebscn 联系人 周萧潇 021-22167060 zhouxiaoxiaoebscn 万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -2- 证券研究报告 目 录 1、 多因子模型理论背景 . 4 1.1、 从 CAPM 到 APT . 4 1.2、 基于 APT 理论的多因子模型( MFM) . 5 2、 多因子模型构建流程 . 6 3、 单因子测试具体步骤 . 6 3.1、 样本筛选 . 6 3.2、 数据清洗 . 7 3.3、 因子标准化 . 7 3.4、 因子测试模型 . 7 3.4.1、 单因子回归模型 . 8 3.4.2、 回归模型选择 . 8 3.5、 单因子有效性检验 . 11 3.5.1、 单因子测试举例 . 12 3.6、 从因子测试到多因子模型 . 17 4、 因子库示例: . 18 万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -3- 证券研究报告 图 目录 图 1:多因子模型 MFM 源自 APT 理论 . 5 图 2:光大金工多因子模型构建流程图 . 6 图 3: 2009.5 BP_LR 因子与下期收益率的 RLM 和 OLS 对比 . 10 图 4: BP_LR 因子收益时间序列 . 13 图 5: BP_LR 因子收益分布直方图 . 13 图 6: BP_LR RLM 回归因子收益 t 值绝对值 . 13 图 7: BP_LR 因子 IC 值序列 . 13 图 8: TURNOVER_1M 因子收益时间序列 . 13 图 9: TURNOVER_1M 因子收益分布直方图 . 13 图 10: TURNOVER_1M RLM 回归因子收益 t 值绝对值 . 14 图 11: TURNOVER_1M 因子 IC 值序列 . 14 图 12: BP_LYR 分组回溯累计收益率曲线(市值加权) . 14 图 13: TURNOVER_1M 分组回溯累计超额收益率曲线(市值加权) . 15 图 14: BP_LR 分组回溯累计超额收益率曲线(市值加权) . 15 图 15: TURNOVER_1M 分组回溯累计超额收益率曲线(市值加权) . 16 表 目录 表 1: RLM 与 OLS 回归效果对比 . 11 表 2: BP_LR&TURNOVER_1M 因子测试结果示例 . 12 表 3: BP_LR 分组回溯结果 . 16 表 4: TURNOVER_1M 分组回溯结果 . 16 表 5:因子库分类及因子明细表 . 18 万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -4- 证券研究报告 1、 多因子 模型 理论背景 根据 现代 金融理论的定义,投资组合获取的收益均可以分为两个部分,一部分是来自市场的收益也就是 ,另一部分则是超出市场的收益也就是我们常说的 。如何准确的定义和寻找股票市场中的 一直是学术界和业界不断探索的问题,已有的模型包括资本资产定价模型 CAPM 和Fama-French 三因素模型等,而多因子模型正是基于 套利定价理论( APT)而建立 的更为完善的定价模型。 从模型的构建目标上看,我们可以将多因子模型分为 模型和风险模型。以 Barra 为代表的 风险模型 更 多 的 用于投资组合的业绩归因, 而在这篇报告中 我们将首先讨论的是用于预测股票未来收益的 模型,并将对 模型中最关键 的 因子测试部分做详细介绍。 1.1、 从 CAPM 到 APT 资本资产定价模型( CAPM)由威廉夏普等人于 1964 年提出, CAPM 模型是在资产组合理论的基础上发展起来的: () = + ( ) 其中, 代表资产 p 的收益率, 代表无风险收益率, 代表市场基准收益率。 在 CAPM 模型的定义下,资产的收益率只与 有关,这里的 则定义为: = (,)(),即资产收益率与市场组合收益率之间的协方差除以市场组合收益率方差。因此我们可以将 CAPM 模型看作以市场组合为因子的单因子模型。 但随 着 业界 对股票市场研究的深入, CAPM 这样的单一因子模型已经无法很好的解释 资产 收益的来源。 例如, Fama/French1在 1992 年提出 PB 和市值因子对股票的收益率有十分显著的影响 ,并且基于这个发现建立了Fama-French 三因素模型 。 套利定价理论( APT) 则为多因子模型提供了理论基础。 APT 模型用多个因子来解释资产收益,并且根据无套利原则,得到风险资产均衡收益与多个因子之间存在近似线性关系,从而将影响资产收益的因子从 CAPM 的单因子 或Fama-French 的三因子 拓展到多个因子,也就为多因子模型的发展奠定了基础。 1 Fama, E. F.; French, K. R. (1992) The Cross-Section of Expected Stock Returns The Journal of Finance 万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -5- 证券研究报告 图 1: 多因子模型 MFM 源自 APT 理论 资料来源: 光大证券研究所 1.2、 基于 APT 理论的 多因子模型 ( MFM) 股票二级市场的多因子模型也同样可以理解为将 N只股票的收益率分解为 M个因子的线性组合与未被因子解释的残差项 。影响股票收益率的因素主要来自某一只股票相对于某一个因子的敏感度或 因子 暴露( factor loading),这里的因子暴露即相当于 CAPM 中的 。 我们将多因子模型( MFM) 做如下的表示: = 1 1 + 2 2 + 3 3 + 4 4 + + + 即: = =1+ 也 可以用向量形式表示: = + 其中, 表示股票 i 在因子 j 上的因子暴露( factor loading) 表示因子收益 表示 股票 i 的残差收益 要使上式成立,需要满足的条件包括:( 1) 之间两两相互独立,也就是说不同股票之间收益率的相关性完全取决于式中的 M 个因子 。这样的假设也使得相关矩阵 的计算更加简便。( 2)残差收益率 与各个因子 间 均不存在相关性。 相比较 CAPM 和 Fama-French 等模型,多因子 模型的优势在于它可以 提供更为完整的风险 暴露 分析 ,并且 分离出 每 个因子的影响 ,从而为投资决策提供更为局部 和细致 的分析 。 MFM多因子模型AP TCAPM万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -6- 证券研究报告 2、 多因子模型构建流程 多因子模型是个较为复杂的体系,模型的构建流程往往包括以下几个方面: 首先是样本的选取,为了使得模型测试的结果更加符合实际的投资情况,我们需要对 ST, PT 股票以及停牌等无法买入的股票做剔除; 其次是数据的清洗,数据清洗的过程很容易被轻视或忽略,但异常值和缺失值对模型的影响往往是很显著的 ,在数据清洗的步骤我们需要格外的小心。 图 2:光大金工多因子模型 构建流程图 资料来源: 光大证券研究所 作为多因子模型的构建中最为重要的一个步骤,单因子 的挖掘和测试的框架将在下面的章节中给出详细定义 。 3、 单因子测试具体步骤 3.1、 样本筛选 测试样本范围:全体 A 股 测试样本期: 2006-01-01 至 2017-03-01 为了使测试结果更符合投资逻辑, 我们设定了三条 样本 筛选规则: ( 1) 剔除选股日的 ST/PT 股票; 模型构建流程样本筛选 剔除 ST 、 PT ,次新股,停牌数据清洗 异常值、缺失值、特殊值因子 测试有效性( IC , T 值)单调性,稳定性多因子模型因子共线性分析多元线性回归收益协方差、残差风险预测最优化组合权重万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -7- 证券研究报告 ( 2) 剔除上市不满一年的股票; ( 3) 剔除选股日由于停牌等原因而无法买入的股票。 3.2、 数据清洗 数据清洗的目的是避免可能的数据错误和极端数据对测试结果产生影响,使用标准化后的数据保证最终得到的模型的稳健性。数据清洗的内容主要包括两部分,即异常值和缺失值的处理。 由于常见的 3去极值法是基于样本服从正态分布这个假设的,但往往我们发现大部分因子值的分布都并不服从正态分布,厚尾分布的情况较为普遍。因此我们采用更加稳健的 MAD( Median Absolute Deviation 绝对中位数法) 首先计算因子值的中位数 ,并定义绝对中位值为: = (| |) 采取与 3法等价的方法,我们将大于 +3 1.4826 的值或小于 31.4826 的值定义为异常值。在对异常值做处理时,需要根据因子的具体情况来决定是直接剔除异常值,还是将异常值设为上下限的数值,常用的方法是后者。 类似的, 对缺失值的处理方式要依据缺失值的来源和逻辑解释,选取不同的操作,包括剔除或者 以 行业 中位数 替代。 在单因子测试时,我们对缺失率小于 20%的因子数据用中信一级行业的中位 数代替,当缺失率大于 20%时则做剔除处理。 3.3、 因子标准化 常见的因子标准化方法包括: Z 值标准化 ( Z-Score) , Rank 标准化,风格标准化等等。 由于 Rank 标准化后的数据会丢失 原始 样本的一些重要信息,这里我们仍然选择 Z 值标准化来处理因子数据。 3.4、 因子测试 模型 有效的单因子首先应该具有一定的逻辑支撑,其次则是与股票收益率的相关性较为显著。多因子模型构建流程中很重要的一部分就是因子的挖掘和单因子的测试, 我们的因子测试体系则是 基于回归法 和分层回溯法来建立 的 。 万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -8- 证券研究报告 3.4.1、 单因子 回归模型 截面回归 ( Cross-Section Regression)是目前业界较常用于因子测试的方法。相比全 样本 面板 回归 ( Panel Data Regression) 的方法,截面回归更有利于对因子变化趋势的捕捉。同时,由于全样本 面板 回归时样本数量往往很大,从而容易导致回归模型更容易通过显著性检验;由于我们选取的样本为全体 A 股,因此在单期截面回归时样本数量均可保持在 1000 个以上,在不影响模型的有效性同时更有利于我们判断因子各项指标的优劣程度。 我们选择 每期 针对全体样本做一次回归,回归时因子暴露为已知变量,回归得到每期的一个 因子收益值 ,在通过多期回归后我们就可以得到因子值 的序列,也就是因子收益率序列,同时可以得到 t 值序列,也就是因子值与股票收益率相关性的 t检验得到的 t值。 t值序列将有助于我们挑选有效因子,后文中会详细解释 t 值的使用方法。 进行 截面回归判断每个单因子的收益情况和显著性时,需要特别关注 A 股市场中一些显著影响个股收益率的因素,例如 行业因素和市值因素 。市值因子在过去的很长一段时间内都是 A股市场上影响股票收益显著性极高的一个因子,为了能够在单因子测试时得到因子真正收益情况,我们在回归测试时对市值因子也做 了剔除。 加入行业因子和市值因子后,单因子测试的回归方程如下所示: = 1111 1 1 + 其中: 代表股票 i 在所测试因子上的因子暴露; 代表股票 i 的行业因子暴露( 为 哑变量( Dummy variable),即股票属于某个行业则该股票在该行业的因子暴露等于 1,在其他行业的因子暴露等于 0)。此处我们将选用中信一级行业分类作为行业分类标准。 代表股票 i 的市值因子暴露。 3.4.2、 回归模型选择 ( 1) 最小二乘法 OLS OLS 是最常用和最简单的方法,但该方法的缺点是 OLS 需要假设回归方程的残差均具有相同的方差,但由于股票收益率常常存在异常值,同时不同股票之间的收益率波动性也不尽相同。使用 OLS 时,异常值会对回归结果和回归测试的显著性检验带来较明显的偏差。 ( 2) WLS (Weighted Least Square) 万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -9- 证券研究报告 一些研究和经验表明股票价格的波动率(也就是方差)与股 票的市值成负相关关系。 因此以 Barra 为代表的一些研究在测试时假设股票的残差收益与股票市值的平方根成反比,从而通过 WLS 将市值平方根作为残差项的回归权重。 ( 3) RLM (Robust Linear Model) Robust Regression 稳健回归同样常见于单因子回归测试, RLM 通过迭代的赋权回归可以有效的减小异常值( outliers)对 参数估计结果有效性和稳定性的影响。 在独立同分布正态误差的线性模型中, OLS 是有效无偏估计。然而当误差 服从 非正态分布时, OLS 就很容易给异常值 outliers 赋予较高 的权重,从而导致模型结果失真。 RLM 中常用的 M-estimator 方法则是采用迭代加权最小二乘估计回归系数,根据回归残差的大小确定各点的权重 wi,以达到稳健的目的。为减少 “异常 值 ”作用, RLM 可以对不同的样本点赋予不同的权重,即对残差小的点给予较大的权重,而对残差较大的点给予较小的权重,根据残差大小确定权重,并据此建立加权的最小二乘估计,反复迭代以改进权重系数,直至权重系数的改变小于一定的允许误差 (tolerance)内。 RLM 中常用的 M-estimator 方法具体步骤如下所示: 多元 回归的一般 表达式 为: = +11 +22 + + = + 当给定 的估计 值为 b 时, 拟合 的模型为: = +11 +22 + + = + 此时残差为: = M-estimation 中 b 的估计由最小化特定的目标函数 p 决定 : (=1) = (=1 ) 其中, p 对于 每一个残差给定一个 目标 函数。 P 的性质为: ( 1) 非负; ( 2) p(0)=0; ( 3) 对称性, p(e)=p(-e); ( 4) () ()时, | | 令 = 为 p 的 偏 导, 为影响曲线。目标函数 对 系数 b 进行 偏 导, 并 令其等于 0, 可以 得到关于系数的( k+1) 个等式: (=1 ) = 0 定义权重函数为: () = (e)/e,并且令 () = () 于是, 系数 估计的等式 可 改写为: 万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -10- 证券研究报告 (=1 ) = 0 由于权重 的大小取决于残 差 的大小, 残差 的大小取决于估计的系数, 而 系数又取决于 权重 , 因此 我们需要一个迭代算法( iteratively reweighted least-squares, IRLS) 。 ( 1) 选择初始 的估计 值 (0) ,如最小二乘法得到的系数估计; ( 2) 对于 第 t 个迭代,根据第( t-1) 次的迭代计算残差 (1)和对应的权重 (1) = (1); ( 3) 计算 新 的最优 系数 估计: () = ()() 其中, 为 变量 矩阵 。 (1) = (1)是 当前迭代的权重矩阵。 重复( 2)( 3) 步 直至参数估计值收敛。 b 的渐近协方差矩阵为: () = (2)()2()1 用 ()2去估计 (2), ()/2去估计 ()2, 从而 得到渐近 的协方 差 矩阵: () 下面我们通过一个简单的例子来解释 RLM 相比 OLS 的优势所在: 图 3: 2009.5 BP_LR 因子与下 期收益率的 RLM 和 OLS 对比 资料来源: 光大证券研究所 , Wind 尽管从图形上看两种回归方法得到的直线斜率差异并不明显,但是从下表的数据中可以看出, RLM 稳健回归所得 fj明显大于 OLS 得到的 fj,且 RLM 方法得到的 fj显著的小于零( |t|2) 万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -11- 证券研究报告 表 1: RLM 与 OLS 回归效果对比 斜率(因子收益 f) BSE T 值 OLS 0.008 0.004 1.997 RLM 0.011 0.003 3.140 资料来源: 光大证券研究所 由这个简单的例子可见 RLM 方法可以更好的处理异常值的影响,从而提高回归分析的有效性。因此我们在单因子测试时将采取这种更为稳健的回归方法。 3.5、 单因子有效性检验 采用多期截面 RLM 回归 后 我们可以得到因子收益序列 ,以及每一期回归 假设检验 t 检验的 t 值 序列, 针对这两个序列我们将通过以下几个指标来判断该因子 的 有效 性 以及稳定性 : ( 1) 因子收益序列 的假设检验 t 值 ( 2) 因子收益序列 大于 0 的概率 ( 3) t 值绝对值的均值 ( 4) t 值绝对值大于等于 2 的概率 IC 值 (信息系数) 是指个股第 t 期在因子 i 上的因子暴露 (剔除行业与市值后) 与 t + 1 期的收益率的相关系数 。 通过 计算 IC 值 可以有效的观察到某个因子收益率预测的稳定性和动量特征,以便在优化组合时用作筛选的指标。常见的 计算 IC 值 方法 有两种: 相关系数( Pearson Correlation) 和 秩相关系数( Spearman Rank Correlation) 。 由于 Pearson 相关系数计算时假设变量具有相等间隔以及服从正态分布,而这一假设往往与因子值和股票收益率的分布情况相左。因此我们将采用Spearman 的方法计算因子暴露与下期收益率的 秩 相关性 IC 值。 类似回归法的因子测试流程,我们在计算 IC 时同样考虑剔除了行业因素与市值因素。 同样我们会得到一个 IC 值序列,类似的,我们将关注以下几个与 IC 值相关的指标来判断因子的有效性和 预测能力 : ( 1) IC 值的均值 ( 2) IC 值的标准差 ( 3) IC 大于 0 的比例 ( 4) IC 绝对值 大于 0.02 的比例 ( 5) IR ( IR = IC 均值 /IC 标准差) 万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -12- 证券研究报告 由于单因子回归法所得到的因子收益值序列并不能直观的反应因子在各期的历史收益情况以及单调性,为了同时能够展示所检验因子的单调性,我们将通过分层打分回溯的方法作为补充。 在进行分层 回溯 法时,我们在各期期末将全市场 A 股按照因子值得大小分成5 等分,在分组时同样 做行业中性处理,即在中信一级行业内做 5 等分组。同时为了使回溯结果具有可比性,我们在回溯测试每组的历史收益情况时采取了市值加权的方法 。 3.5.1、 单因子测试举例 我们以 BP_LR 和 TURNOVER_1M 因子为例,来展示本节提到的单因子测试流程: ( 1) RLM 回归测试 表 2: BP_LR&TURNOVER_1M 因子测试结果 示例 指标名称 BP_LR TURNOVER_1M 因子收益序列 t 值 4.37 -6.65 因子收益均值 0.53% -0.80% t0 比例 63% 27% abs(t) 均值 4.37 4.84 IC 均值 5.20% -7.67% IC 标准差 11.3% 11.40% IC0 比例 65% 23.9% Abs(IC)0.02 比例 60% 78% IR 0.46 -0.67 资料来源: 光大证券研究所 , Wind 由上表可知, BP_LYR 因子收益序列显著的大于 0,因子收益情况较好,同时 IC值高达 5.20%, IR值达到 0.46。与之相反,换手率因子 TURNOVER_1M是一个负面因子, IC 值为 -7.67%,并且显著性比 BP 因子更高,也就代表着换手率越高的股票,下期的收益率越低。 万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -13- 证券研究报告 图 4: BP_LR 因子收益时间序列 图 5: BP_LR 因子收益分布直方图 资料来源: 光大证券研究所 , Wind 资料来源: 光大证券研究所 , Wind 图 6: BP_LR RLM 回归因子收益 t 值绝对值 图 7: BP_LR 因子 IC 值序列 资料来源: 光大证券研究所 , Wind 资料来源: 光大证券研究所 , Wind 图 8: TURNOVER_1M 因子收益时间序列 图 9: TURNOVER_1M 因子收益分布直方图 资料来源: 光大证券研究所 , Wind 资料来源: 光大证券研究所 , Wind 万得资讯2017-04-10 金融工程 敬请参阅最后一页特别声明 -14- 证券研究报告 图 10: TURNOVER_1M RLM 回归因子收益 t值绝对值 图 11: TURNOVER_1M 因子 IC 值序列 资料来源: 光大证券研究所 , Wind 资料来源: 光大证券研究所 , Wind 然而, 通过回归测试我们可以得到的仅 是因子在各期的因子收益和 因子预测能力 的 历史表现和 变化情况, 如果我们希望观察 因子的单调性 则唯有通过分层回溯的方法来完成 。 ( 2)
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642