“在日内以及1个交易日的时间尺度上,不论是中证500还是沪深300的价格走势均不为随机游走且走势强自相关,也就是说在中高频这个频段上,市场尚未达到弱有效、价格本身存在规律性,所以中高频的量化模式识别仍具有盈利空间。”

 

“不管是中证500期货还是沪深300期货,机器学习策略的夏普均显著高于随机信号策略,说明机器学习可以有效的从历史数据中学到量价规律。”

 

“我们的优化主要在三个方向。第一,在因子构造层面引入了北上数据,第二,在机器学习层面引入了LSTM模型,第三,我们把策略从时间序列维度拓宽到了横截面维度。”

 

“量化选股和主动投资的目的是一致的,都是希望找到基本面优质的公司,并把钱投向这些公司。只是在价值发现的过程中,量化模型会更频繁地寻找市场中的价值洼地,并不断对自身交易进行纠错,因此导致的一个结果是量化的交易频率会高于主动。”

 

10月中旬以来市场呈现低波动的震荡格局,整体市场环境对股指策略较为不利,但我们预计当指数的波动率恢复时,策略也将恢复其净值弹性。”

 

以上是朱雀基金量化组组长章晓珏1218日在朱雀基金“赢在终局”2022年度策略会上发表的观点。以下是我们整理的演讲实录。

 

大家好,我是朱雀基金专户投资部投资经理章晓珏。

 

在前两年的策略会上,我们向大家介绍了什么是CTA策略、我们的CTA投资理念以及对策略的一些优化方案。这里请允许我再花两分钟时间,再和大家简单介绍下CTA策略。

 

我们今天所要讲的量化CTA,其实就是通过量化的手段来建立交易模型,然后由模型给出期货标的价格走势的涨跌判断,从而在期货上进行做多、做空或多空双向的操作。最终的目的是赚取绝对收益。目前CTA的投资范围主要在股指期货、大宗商品期货和国债期货三大类。在投资策略上,我们主要利用机器学习来做模式识别从而给出价格预测。

 

模式识别CTA介绍

 

那首先什么是基于模式识别的CTA?这里展示了一个简单的例子。假设当前我们站在2021820日的收盘时刻,我们如何来决策后续是在中证500上做多还是做空?

 

对于量化投资经理来说,我们的判断是建立在对历史数据的回看上的,我们认为历史可以重演,所以一个思路就是,我们可以从历史数据中寻找和当前价格走势相似的历史片段,并且根据这些历史片段此后的指数走势,来判断当前指数的未来走势。

 

这里我们以价格走势之间的欧氏距离来衡量历史片段与当前走势的相似度。通过数据挖掘,我们发现12年的1212号、13年的14号和今年的32号等交易日的日内走势和今天非常接近。找到了相似的历史片段后,我们就可以统计这些历史片段后续指数的涨跌分布。从下图中我们可以看到,在所有走势和今天接近的交易日里面,有63%的交易日在第二天是上涨的,也就是说站在当下,明天上涨的概率大于50%,我们可以发出开多的交易指令。

                                             章1.png

注:日内模式匹配度最高的10%样本未来一日走势统计

 

 

当然这只是一个简化的例子,我们想要说明的是模式匹配型CTA的核心在于从历史数据中去发掘大概率会发生的量价规律,再在实盘的时候根据市场的变化来进行规律的匹配,从而从历史数据中获得对未来的启示。

 

前面的例子里我们只是以价格走势这一个维度来定义市场特征,实际上我们在实盘中会从价格、波动率、趋势性、盘口挂单情况等多个维度来定义所谓的“模式”,每一个维度都是一个可以刻画当前市场特征的因子。之后我们会用机器学习模型来从历史数据中学习不同的市场特征下未来的涨跌规律,从而把多维的特征矩阵压缩成一个对后市的涨跌概率预测。

 

模式识别CTA的盈利前提

 

在前面的例子里,模式识别型CTA要想盈利其实隐含了两个串联的先决条件,第一是价格的时间序列本身要存在一定规律,第二是机器学习模型要能够从历史数据中挖掘出有效的规律,而不仅仅是在过度拟合。接下来,我们分别来回答这两个问题。

 

首先第一个问题,价格的时间序列里真的存在规律吗?弱有效市场假说认为当前的证券价格已经反应了所有历史信息,所以价格未来的走势接近随机游走,无法通过历史数据被预测。但实际上是否真的是这样?

 

这里我们测算了宽基指数在日内不同频率以及在1天、2天一直到10天的随机性和自相关性。表格的第一行和第二行展示了随机性检验的结果,其中第二行的p值越小,则说明价格走势越不具有随机性。第三行和第四行展示了自相关性检验的结果,同样第四行的p值越小,就说明价格走势的自相关性越强。

 

章2.png

来源:朱雀基金,天软科技

 

我们可以看到在日内以及1个交易日的时间尺度上,不论是中证500还是沪深300的价格走势均不为随机游走且走势强自相关,也就是说在中高频这个频段上,市场尚未达到弱有效、价格本身存在规律性,所以中高频的量化模式识别仍具有盈利空间。但是如果我们把持仓周期拉长到2天以上,则市场的有效性得到了大幅的提升,这主要归功于主动研究员对上市公司基本面的深入研究纠正了长周期上的错误定价。

 

接下来我们再来看一下商品上的情况。这里我们挑选了一些代表性品种。我们可以看到商品期货价格在日内具有较强规律性,同时在3~5天持仓期上也有一定弱规律。基于上述结果,我们认为在日内及隔夜频率上,市场尚未达到弱有效,价格走势仍具有规律性。

 

章3.png

来源:朱雀基金,天软科技

 

其次第二个问题,机器学习能有效地学到价格规律吗?这里我们用蒙特卡洛模拟法来生成随机信号作为对照组,其中用于产生随机信号的概率分布和实盘机器学习策略的信号分布保持一致,并且模拟策略在信号生成后采用和实盘策略一样的交易逻辑,如此模拟1万次来测试在随机信号下CTA策略的夏普情况。

 

下面两个图中的灰色柱状图是这1万个随机模拟策略的夏普分布,红线是我们实盘机器学习子策略的夏普,我们可以看到,不管是中证500期货还是沪深300期货,机器学习策略的夏普均显著高于随机信号策略,说明机器学习可以有效的从历史数据中学到量价规律。

 

章4.png

来源:朱雀基金

 

CTA优化之路

 

到这里我们已经论证了价格模式存在规律,并且用机器学习可以从历史数据中找到规律,所以我们的模式识别策略是具有盈利基础的。

     

今年我们的优化主要在三个方向。第一,在因子构造层面引入了北上数据,第二,在机器学习层面引入了LSTM模型,第三,我们把策略从时间序列维度拓宽到了横截面维度。后面我们会具体展开来讲这三个方向。

 

章5.png 

首先,我们认为相比于因子算法上的优化,一个好的数据源是可以提供更多的alpha的,这也是为什么我们在今年引入了分钟级别的沪深港通数据。

 

近几年北上资金已经成为了A股市场中一股不可忽视的力量,这一方面是由北上资金本身的资金体量决定的,近几年北上占两市成交额的比例持续提升,另一方面,由于北上资金往往被认为是“聪明钱”,所以一些投资者会选择跟随北上资金进行交易,而这又会强化北上资金的风格偏好,进一步放大北上资金的影响。同时分钟级别的北上资金流数据可以帮助我们更加精细地刻画北上资金的交易行为及风格偏好,是对原有实盘因子库的一个有效补充。

 

下面这张图展示了加入北上资金流因子前后股指策略的夏普变化,我们可以看到在2019年之前,由于北上资金成交占比较低,因此北上因子对策略没有明显的信息增益,但在2019年之后,加入北上资金流因子每年都可以显著地提升策略夏普。

 批注 2021-12-29 161214.png

来源:朱雀基金,万得

 

我们的第二个优化是引入了循环神经网络,它最大的特点是保留了金融数据的时间序列特性。这里展示了一种常用的循环神经网络,LSTM模型的结构。大家可以把它想象成一条时间的河流,在LSTM网络中过去一段时间的市场特征信息是按从早到晚的顺序依次从左向右流动的。最早的特征信息最先进入网络,在进入下一个神经元后,来自上一时刻的部分信息会经过“遗忘门”被舍弃,同时下一时刻的市场特征信息被注入,并在经过“记忆门”后和上一时刻的信息汇合,一同流向下一个神经元。所以在LSTM中,信息流是按照时间顺序从左向右流动的,来自不同时刻的特征信息会在不同节点逐步汇入信息的洪流,最终在读取了过去窗口期所有时刻的信息后,模型会输出预测结果。

 

我们之所以会希望保留金融数据的时间序列特性,是因为价格的走势是路径依赖的。举个例子,价格在底部上涨和在顶部上涨时对未来走势的影响是不同的,底部上涨预示着新一轮行情的开始,而顶部上涨时可能已经到了趋势的末尾。普通的前向神经网络只能看到最近时点的市场特征;而LSTM的视野则更为宽广,它会从左向右完整地读取过去一段时间的市场演化过程,也就是说它不仅能看到价格在上涨,还能区分当前是在底部还是顶部。另外,LSTM模型在不同时点的参数是共享的,因此相比于前向神经网络,LSTM的参数更少,更能避免过度拟合。最后,LSTM模型很好的解决了梯度衰减的问题,使模型可以捕获更早时点的市场特征。

 

u 价格走势路径依赖,而LSTM可以保留金融数据的时间序列特征

u 不同节点参数共享,更好地避免过度拟合

 

章7.png

 

u 解决了梯度衰减问题,可以捕获更早时点的市场特征

章8.png

来源:朱雀基金收集

 

最后,我们在原有的时间序列策略外,开发了全新的商品截面策略,两者的盈利核心有所不同。时间序列策略试图预测每个品种在未来一段时间的绝对涨跌,并通过买涨卖跌获取收益。在时间序列框架下,每个品种的交易信号都是互相独立的,因此我们可能同时在某一大类品种上做多或做空,并通过品种间的相对波动率来控制仓位。

 

而截面策略试图预测多个品种在未来一段时间走势的相对强弱,通过买强卖弱来获得收益,此时我们在所有品种上的多头总持仓始终等于空头持仓,也就是说没有净头寸的暴露。这样即使处于所有品种单边上行或下行的极端行情中,买强卖弱的操作也可以捕捉到强势品种和弱势品种间涨跌幅的差异,从而给策略带来收益。

 

章9.png

来源:朱雀基金收集

 

 

值得一提的是,我们的截面策略同时用到了基本面和量价因子,这样双管齐下可以使策略既符合产业链供需逻辑,又能捕捉到市场中的不合理定价。另外,截面策略的优势也在于它的多空持仓更为均衡。当商品价格受调控或其他事件性冲击而突然转向的时候,各品种的走势往往趋同,此时时序策略较高的裸多或裸空敞口可能带来较大回撤。而截面策略多空持仓更为均衡,在极端行情下表现更为稳健。最后由于时序和截面策略有不同的收益风险特征,引入截面策略也能很好的起到分散化作用。

 

量化产品对市场的影响几何

     

近几年量化基金已经发展到了万亿规模,这会给市场带来什么影响?我们认为当前量化交易占全市场的成交量的比例大约在20%左右,在给市场提供流动性的同时,量化交易也在迅速提高市场的有效性。

 

这里我们想要澄清的一点是,量化并不会扰乱市场。实际上,量化选股和主动投资的目的是一致的,都是希望找到基本面优质的公司,并把钱投向这些公司。只是在价值发现的过程中,量化模型会更频繁地寻找市场中的价值洼地,并不断对自身交易进行纠错,因此导致的一个结果是量化的交易频率会高于主动。但交易本身不是量化的目的,它只是反应了量化不断寻找并纠正错误定价的过程。实际上,因为量化策略整体是理性的,因此在大部分情况下量化交易平抑了市场波动,并提高了市场的有效性。

 

最后,9月以来量化产品均出现了不同程度的回撤,指增产品的回撤一方面是受500指数beta的拖累,另一方面是由于近期市场风格快速切换,同时指增产品赖以获取收益的盈利、成长等因子发生反向,给超额收益带来压力。我们的CTA也在近期出现回撤,但实际上我们的策略在商品上很好地规避了本轮煤价腰斩,我们的回撤主要由股指策略导致。10月中旬以来市场呈现低波动的震荡格局,整体市场环境对股指策略较为不利,但我们预计当指数的波动率恢复时,策略也将恢复其净值弹性。

 

 

注:本文件非基金宣传推介材料,仅作为本公司旗下基金的客户服务事项之一。

本文件所提供之任何信息仅供阅读者参考,既不构成未来本公司管理之基金进行投资决策之必然依据,亦不构成对阅读者或投资者的任何实质性投资建议或承诺。本公司并不保证本文件所载文字及数据的准确性及完整性,也不对因此导致的任何第三方投资后果承担法律责任。

本文所载的意见仅为本文出具日的观点和判断,在不同时期,朱雀基金可能会发出与本文所载不一致的意见。本文未经朱雀基金书面许可,任何机构和个人不得以任何形式转发、翻版、复制、刊登、发表或引用。