摘要
传统量化多因子模型往往在全市场范围内对股票统一进行打分,而很少考虑个股之间的基本面情况差异和因子在不同风格股票池内的适用性差异。基于情景分析法(Contextual Modeling Strategy)的多因子模型则可以弥补传统多因子模型的不足。
多因子模型中的情景分析法
基于非线性假设的情景分析方法。传统的因子检验方法无论是回归法还是相关系数检验法,均含有默认的假设即因子对股票收益的影响是线性的。然而实际投资过程中我们会发现不同板块、不同风格的股票往往存在不同的投资逻辑,也就是说因子对于股票收益的预测能力是非线性的。
情景特征(Contextual Feature)的定义。区分不同情景分析模型的核心在于情景特征的定义。情景特征的定义方式包括:风格因子特征、板块特征、企业生命周期特征和统计聚类特征等。
情景分析因子模型的构建流程
情景分析模型的构建可以主要分为三个步骤:选定Alpha因子、选定情景特征、确定因子加权方式。其中情景特征的筛选和检验是模型的关键。
情景特征因子的检验框架。合适的情景特征因子应该具有逻辑清晰、稳定性好、 覆盖度高、区分度高的特点。而为了检验所选特征是否显著影响因子的预测能力,可以通过双样本T检验、组合收益测试和Fama-MacBeth回归检验来进行测试。
A股情景特征:规模、流动性和估值特征有效性较高
Fama-MacBeth回归测试表明规模特征、盈利特征和估值特征具有较高的显著性,双样本T检验的结果显示规模特征和盈利特征在分股票池内的IC具有显著的差异。组合收益测试中则是规模特征、估值特征和流动性特征较为有效,整体上看,规模、流动性和估值特征是A股市场有效性和显著性较高的特征因子。
基于情景分析因子模型的选股组合:收益稳定性提升
全市场多头组合:收益能力较好,稳定性显著提升。基于流动性特征的全市场组合的收益能力较强,除了可以长期稳定的战胜沪深300和中证500这两大宽基指数以外,组合相对于市场上的主动权益基金经理的表现也是有较明显优势的。
中证500增强组合:年化收益提高2.5个百分点。与原始的最优化IR组合相比,基于流动性特征的情景因子中证500增强组合在2017、2018和2020年有比较明显的收益提升。组合的年化超额收益由原先15.84%提升至18.38%,提升2.5个百分点,信息比也由2.73提升至3.02。
正文
多因子模型中的情景分析法(Contextual Modeling Strategy)
因子的最优组合方式一直是量化多因子模型中最主要的研究内容之一。传统多因子模型往往是在全市场范围内对所有股票一视同仁地进行打分,而很少考虑个股之间的基本面情况差异和因子在不同风格股票池里的适用性差异。基于情景分析法的多因子模型(Contextual Modeling Strategy)则可以一定程度上弥补传统多因子模型的不足。
为什么要采用情景分析因子模型?
情景分析因子模型的概念最初来自于Sloan[2001]等人的学术研究,情景分析法(Contextual Modeling Strategy)可以理解为针对不同的股票池内因子的有效性差异的研究方法。
对于因子进行情景分析其实包含了一个重要的理念,即认为因子对股票的收益影响并非是线性的。而传统的因子检验方法,无论是回归法还是相关系数检验方法,均含有默认的假设即因子对股票收益的影响是线性的。然而实际投资过程中我们会发现不同板块、不同风格的股票往往存在不同的投资逻辑。例如,海外的研究表明动量因子的收益在高成长和低成长的股票池内具有非常明显的差异,在高成长的股票池内动量因子具有明显更高的预测能力。因此,情景分析因子模型背后的理念基础是更符合真实市场特征的。
2017年的市场风格极端分化的行情下,国内的传统量化多因子模型大多遭遇了不小幅度的回撤,也正是从2017年下半年人们开始普遍关心和探讨因子择时模型。我们也在2018年开始对因子择时进行了一系列的研究,包括基于因子估值差和拥挤度的因子择时、基于机器学习模型(例如SVM支持向量机)的因子择时和基于宏观和市场基本面的估值因子择时等等。海外学术界和业界对于因子择时的探讨也由来已久并且成果丰富,例如Barroso, Santa-Clara (2015)和Daniel, Moskowitz(2016)分别对动量因子的择时进行了研究;Asness, Friedman, Krail, Liew(2000)对估值因子的择时进行了探讨;Chen, De Bondt(2004)风格动量在因子复合中的应用进行了研究。
但针对因子预测能力的非线性特征这一点,学术界和业界的讨论并不算丰富。Sorensen,Hua和Qian(2005)的研究表明,在不同维度的情景(Context)下(例如,高估值/低估值,高成长/低成长,高波动/低波动)最优的因子组合方式也有显著变化。他们认为在风险调整的基础上,使用基于情景特征的因子加权方法构建的因子组合优于静态加权的因子组合。
传统因子模型的局限性&情景分析因子模型的优势
首先我们以估值因子近期的回撤为例,来说明传统因子分析框架的局限性。我们知道A股市场上2018年以来估值因子的收益表现出现了较大幅度且较长时间的连续回撤。以市盈率倒数(EP_TTM)因子为例,可以看到2018年以后的因子IC和因子多空收益表现均出现的大幅的下滑。
但假设我们按照市值将股票池分为大市值和小市值两组,分别在两个组内测试估值因子(EP_TTM)的表现,会发现估值因子在小市值股票池内长期有比较稳定的超额收益,而在大市值股票池内的多空收益表现与全市场类似,2018年以后的回撤幅度甚至大于全市场内多空收益的回撤幅度。
哪些模型属于情景分析因子模型?
上文中我们以成长因子和估值因子的例子直观的展示了情景分析因子模型的优势。但值得一提的是,除了基于风格因子的情景划分方式以外,还有一些因子分析方法也可以归类为情景分析因子模型。
区分不同情景分析因子模型的核心在于情景特征(Contextual Feature)的定义。我们认为情景特征主要有以下几种定义方式:
具体来说:
►风格因子特征:例如,高估值/低估值,高成长/低成长,高波动/低波动 不同股票池内的因子测试。
►板块特征:基于板块分类,不推荐用行业分类因为行业内个股数量少,因子测试的统计意义较弱。
►企业生命周期特征:按照初创期、成长期、成熟期和衰退期对上市公司进行分类,
►聚类特征:基于统计方法(例如K-means)对个股进行分类,我们会在后续报告中对这种方法以及情景分析的应用效果做具体的探讨。
本文我们重点关注的是情景分析因子模型在A股的应用效果,我们将详细探讨情景特征的定义、特征的选取和有效性检验,并最终构建基于情景分析的因子选股组合。
情景分析因子模型的构建流程和理论基础
从模型的构建流程上来看,情景分析模型可以主要分为三步:选定Alpha因子、选定情景特征、确定加权方式。
第一步选定Alpha因子是需要较多的基于因子挖掘、因子优化等前期的研究积累和测试才能完成的一个步骤。因子挖掘和因子优化涉及众多的方法,我们在《量化多因子系列(1):QQC综合质量因子与指数增强应用》报告中做了部分的介绍,而本文我们暂时不会将重点放在因子的挖掘和优化上,而是更多的关注情景分析因子模型这个方法的构建原理和应用效果。
情景特征(Contextual Feature)的检验框架
在应用情景分析模型时,选择哪些因子作为情景特征(Contextual Feature)因子是相当重要的一个环节。情景特征因子是用来作为股票池划分的标准的,其有效性必定会对最后模型整体的有效性产生显著的影响。我们认为,一个合适的情景特征因子应该有以下的特点:
►逻辑清晰:例如采用规模因子作为特征,就可以区分大小市值的股票。而假如采用一些复杂的技术因子作为特征,就很难在逻辑上解释其区分出来的股票的意义所在
►稳定性好:一个合适的特征因子不应该具有很高的换手率
►覆盖度好:覆盖度过低的因子作为特征,会导致测试结果的样本偏差过大
►区分度高:为了检验给定的特征是否显著影响因子的预测能力,我们可以通过双样本T检验、组合收益测试和Fama-MacBeth回归检验来进行测试。(具体细节详见报告)
情景分析因子模型下因子最优权重的确定架
在确定了情景特征因子后,我们就可以根据所选的特征将股票池划分为若干个子集,通过分别测试各个子集内Alpha因子的有效性后,确定各个子集内的因子最优权重,分别在各个子集内对因子加权得到复合因子并最终得到全市场股票的复合得分。
因子最优权重的计算:理论基础
首先,我们采取情景分析模型的最根本的原因就是基于Alpha因子预测能力的非线性特征。因此从理论上来说,针对不同的股票池采用不同的因子加权方式,就应该可以获取整体上更为有效的选股预测能力。那么怎样确定不同股票池内各个Alpha因子的最优权重,并计算得到全市场股票的最终得分,就是模型中比较关键的问题。
单个Alpha因子的情形
我们首先以单因子的情形举例说明情景分析因子模型的基本原理。假定我们有一个特征,并根据它将股票池分为高低两部分,同时假设有一个单一的Alpha因子。那么如果这个Alpha因子在高低两个股票池中表现不一样,最终整体上这个Alpha因子表现会如何呢?
首先,根据Qian对于超额收益的定义,股票在截面上的超额收益可以表示为:
其中F_i为风险调整后的预测因子,R_i代表风险调整后的收益率,N是股票数量;λ是风险偏好参数。根据情景特征将全市场股票分为高低两个分组后,上式可以改写为:
采用IC来表示:
我们可以假设所有预测因子和收益率的离散度是相同的,那么就可以得到:
IC均值除以IC标准差就得到总体的IR:
基于情景特征划分的因子最优权重
我们进一步的讨论关于不同特征分组内的因子最优权重计算的问题,这里我们用v_H和v_L表示因子在高分组和低分组内的权重,那么可知总体IR为:
最优权重则可以求解为:
A股情景特征:规模、流动性和估值特征有效性较高
A股情景特征的选取
根据前文的分析,一个合适的情景特征因子应该具有逻辑清晰、稳定性好、 覆盖度高、区分度高的特点。由于区分度的具体情况需要通过测试结果来分析,因此我们首先根据基础逻辑、稳定性和覆盖度,初步筛选出A股的情景特征因子如下:
► 盈利特征:为了体现公司的稳健的盈利能力特征,我们选取过去三年的平均ROE作为盈利特征因子。
► 成长特征:考虑到特征因子需要具有较好的稳定性,采用历史8个季度数据计算的稳健加速度成长指标,分别使用净利润和营业利润计算并等权合成。
► 估值特征:采用估值因子中稳定性较高的市净率因子。
► 规模特征:选取市值对数因子。
► 流动性特征:流动性是比较重要的股票交易性特征,为了降低因子的换手,这里选择六个月的成交额/收益率波动因子(VSTD_6M)。
情景特征有效性检验
我们选择包含质量、动量、换手率、一致预期这几个大类的Alpha因子作为测试对象。由于不同的投资者偏好使用的Alpha因子是各不相同的,各个类型因子中也存在很多不同的因子构造方式和不同的处理细节,这里为了更有重点的展示情景分析方法的应用效果,就仅以下表中的5个Alpha因子作为测试对象。
其中质量因子为前期报告《量化多因子系列(1):QQC综合质量因子与指数增强应用》中的QQC因子,预期类的因子中包含预期估值(一致预期EP)和预期调整(一致预期净利润3个月调整和一致预期营业利润3个月调整);动量因子采用的是24个月收益率减去最近1个月收益率和12个月收益率减去最近1个月收益率;换手率使用的是最近1个月、3个月和6个月的换手率等权复合。
为了检验特征因子的有效性,我们就分别将上述五个Alpha因子在不同特征分组下的表现进行下面的三种测试:Fama-MacBeth回归测试、双样本T检验和组合收益测试。
►Fama-MacBeth回归测试
Fama-MacBeth回归检验可以用来测试给定的特征是否显著的影响Alpha因子对个股收益的预测能力。我们在上文中已经具体阐述了回归方程的构建方式和检验标准。下表为公式:
中b_3的均值以及T检验的结果:
从上述结果来看:
-
规模特征、盈利特征有效性较高:规模特征对于质量因子、预期估值因子和动量因子都具有较高的区分度;盈利特征对于换手率因子、预期调整因子和动量因子具有较高的区分度。
-
预期估值因子受情景特征因子的影响最明显:我们观察到,预期估值因子在5个特征中的4个特征下都具有较高的区分度和显著性,预期估值因子比较容易受到成长特征、估值特征、规模特征和流动性特征的影响。
►双样本T检验
对于每一个情景特征,我们计算出各个Alpha因子在特征高低两个不同股票池内的IC值时间序列,然后分别计算两个股票池内IC值的均值及方差,并对这两个部分的IC值进行双样本t检验,结果如下:
综合上面的测试,我们发现规模特征对预期估值和换手率因子都具有显著的区分度,尤其是换手率因子,在规模特征分组下换手率因子的IC序列双样本T检验的p值几乎接近0。
而估值特征的测试结果与Fama-MacBeth则略有出入,在双样本t检验下估值特征对5个Alpha因子都不具有显著的区分度。
►情景特征分组收益测试
上述的测试结果中我们发现,规模特征、盈利特征和估值特征在Fama-MacBeth回归测试的结果中对三个Alpha因子都具有较高的区分度和显著性;而双样本T检验的结果显示规模特征和盈利特征在分股票池内的IC具有显著的差异。因此我们这里主要展示了不同Alpha因子在这三个特征下的分情景多空收益表现:
规模特征(Size)
在规模特征分组下,换手率因子和质量因子具有显著的收益区分度,其中,低换手因子在小市值股票池内表现明显由于大市值分组,而质量因子在大市值股票池内的表现明显优于小市值股票池内的表现。
同时值得注意的是,预期估值因子在小市值股票池内长期有比较稳定的超额收益,而在大市值股票池内的多空收益2018年以来出现了大幅度的回撤。
盈利特征(Profit)
在特征分组测试的结果来看,盈利特征仅对预期估值因子(Con_Value)因子有一定的区分度。在盈利能力较低的股票池中,预期估值因子长期具有比较稳定的收益能力;而在盈利能力较高的股票池中,预期估值因子的多空收益稳定性较差,尤其是2018年以来收益出现了大幅度的回撤。
估值特征(Cheapness)
由于我们以BP_LR市净率倒数因子作为估值特征的定义方式,因此估值特征划分的高组(High)为低估值股票池,低组(Low)为高估值股票池。
质量因子和换手率因子在高估值的股票池中都有相当出色的表现,多空收益显著的优于其在低估值股票池中的表现。说明在估值偏高的股票池中,高质量的公司和低换手率的公司具有更强的相对优势。
分析师预期调整因子(Con_Change)也在高估值股票池中有更强的预测能力,且2020年以来多空收益提升迅速。
基于情景分析因子模型的选股组合:收益稳定性提升
全市场多头组合:收益能力较好,稳定性显著提升
这里我们首先基于情景分析方法构建一个全市场的选股组合,构建全市场组合的主要原因包括以下几点:首先,上文提出的情景分析因子测试框架是基于情景特征分组后组合内因子表现的差异性的,为了保证分组后组内因子测试的有效性和显著性,我们均只采用情景特征在全市场范围内进行高和低两分组的测试;其次,本文更多的是从方法论上引入情景分析因子模型的框架,从全市场选股的角度构建组合并与常用的因子加权方法(例如等权加权、IC加权、IC_IR加权等)作为对比可能可以更直观的观察出模型的优势或者缺点。
同时,假设我们需要在一些主要指数成分股范围内进行测试,那么规模特征(Size)就很可能失去其在全市场范围内的区分度和有效性,而规模特征在全市场是一个稳定性较好且区分度明显和特征,后面的测试中我们也能看到基于规模特征构建的全市场组合收益能力的提升还是相对较为明显的。
考虑到动量在A股市场的收益能力并不稳定,我们在这里全市场组合中将仅采用除了动量因子以外的4个Alpha因子,即质量因子(Quality)、预期估值(Con_Value)、预期调整(Con_Change)和换手率(Turnover)。
根据前文的三类检验结果,我们将对于上述Alpha因子有显著区分度的有效特征梳理如下:
我们选择最优化IR加权的因子赋权方式作为基准组合。前文我们已经详细解释了基于情景特征模型的因子最优权重的计算方式,同样也是基于最优化IR的理念基础,或者说也可以理解为是最优化IR方法在情景分析因子模型框架下的进一步衍生。
具体的组合构建方式和参数设置如下:
►调仓周期:
-
情景特征股票池更新频率:半年度
-
Alpha因子更新频率:月度
-
组合调仓周期:月度
►持仓数量:200只
►交易费率:单边0.2%
►因子权重:基于前文给出的情景特征划分下的最优化IR方法,最优因子权重向量由下式给出
IC的计算时间窗口为滚动12个月(此处未对因子权重可能出现的负向情形做特别处理)
根据前文的梳理我们发现规模特征、估值特征和流动性特征的有效性较高。但从全市场多头组合的结果来看,基于流动性特征和成长特征的组合具有更强的收益表现。
由上图可见,基于流动性特征的全市场组合的收益能力是比较稳健的,除了可以长期稳定的战胜沪深300和中证500这两大宽基指数以外,组合相对于市场上的主动权益基金经理的表现也是有较明显优势的。我们以偏股混合型基金指数(885001.WI)作为代表市场上主动权益基金经理平均表现的基准指数,可以发现基于流动性特征的全市场多头组合也可以长期稳健的战胜该基准。
中证500增强组合:年化收益提高2.5个百分点
结合上面的测试结果,我们考虑将情景分析的因子模型构造方法应用于指数增强组合构建时,将重点尝试其在中证500指数增强上的应用效果,其主要的原因是中证500的成分股在规模、流动性、成长等风格上更贴近全市场,成分股的风格均衡性要优于沪深300指数。
情景分析因子模型应用在中证500增强的具体构建流程和参数设置如下:
►调仓周期:
-
情景特征股票池更新频率:半年度
-
Alpha因子更新频率:月度
-
组合调仓周期:月度
►组合优化设置:
-
行业偏离度上限5%
-
市值因子暴露度上限5%
-
个股权重上限1.5%
-
中证500成分股权重之和不小于80%
►交易费率:单边0.2%
由于我们在构建增强组合的过程中加入了行业、市值暴露和成分股的限制,组合在收益表现上于基准指数会更为接。同时我们也观察到,在2017年以前采用基于情景分析的因子模型和原始的最优化IR模型的收益表现几乎没有差异,而2017年之后,情景分析因子模型的相对优势就有所展现。
整体上看,采用情景分析因子模型可以获得年化2.5个百分点左右的增强收益表现。2017年之前,情景因子模型与原组合收益表现几乎无异,而主要的超额收益来自于2017年以后。
分年度来看,基于流动性特征的情景因子模型在2017、2018和2020年有比较明显的相对优势,相对于原始的最优化IR模型有较为明显的收益提升。组合的信息比也相比原始最优化IR组合有较为明显的提升,由2.73提升至3.02。
同时值得注意的是,采用情景分析因子模型也提高了组合整体的换手率,组合换手率由原先的月均52%提升至了58%。
文章来源
本文摘自:2021年2月28日已经发布的《量化多因子系列(2):非线性假设下的情景分析因子模型 》