© Reuters. 量化投资AI三要素不可有短板,明汯透露年底AI算力将高达400P,多家机构亮深度挖掘量化数据观点
财联社9月6日讯(记者 刘超凤)作为2022世界人工智能大会合作伙伴之一,数库科技近日主办了“数无疆·智无界”——数据智能论坛,并与会发布了基于产业链数据的SAM2.0产业数字化平台。
包括产业链数据在内的基本面数据、短期市场情绪面数据,都是量化投资深度挖掘的另类数据,有助于提升量化策略的胜率,获得更准的预测能力。目前,“数库产业链图谱”数据已挂牌上海数据交易所并开展相关交易。
数据、算法、算力是人工智能核心三要素,也是量化投资的核心竞争力。在明汯投资合伙人、投资总监解环宇看来,任一要素出现明显短板,则有可能错失量化高速发展的机遇。明汯每年的投入都以指数级增长,“预计到今年年底,明汯在金融数据的应用场景下AI算力达到400P Flops。”
AI三要素不可有短板
明汯投资合伙人、投资总监解环宇认为,人工智能核心三要素(数据、算法、算力)在量化投资中都至关重要,三要素有效协同有助于量化投资策略持续有效迭代。若某一要素出现明显短板,则有可能错失量化高速发展的机遇。
算法是整个量化投资的核心。上世纪90年代前后,人工智能的概念和方法论开始引入量化投资领域,但大多以概念形式存在,实战中仍以定价模型和统计方法为主流。从2000年开始,对冲基金开始使用更加复杂的预测模型。随着技术和数据的积累,逐渐出现深度学习、强化学习等人工智能技术。2016年是重要的时间点,谷歌DeepMind开发的AlphaGo打败世界围棋冠军李世石。这是轰动性事件,整个工业界、量化界加速把重心从统计学习、机器学习转到更前沿的深度学习上。
目前,量化投资的主要模型包括因子挖掘模型、预测算法模型、组合优化及交易算法模型。“所谓因子挖掘模型,是把清洗好的数据做特征工程;做完因子工程之后,就去做预测模型,量化策略的本质就是做预测。”解环宇解释称。
模型的算法高度依赖算力。明汯投资早期只有几台CPU服务器,算是“小米加步枪”时代,目前已有大规模、高性能的计算集群,其间仅经历五六年时间。
“2021年,我们自有的高性能计算集群已经位居世界超算排名TOP500榜单前列。预计到今年底,我们的计算集群将拥有1500张GPU卡、3万CPU核、1Pb内存以及5Pb磁盘存储,在金融数据的应用场景下AI算力达到400P Flops(每秒浮点运算次数)。”解环宇谈到。
会上,解环宇还展示了其正在推行的量化投资AI框架,在他看来一个较为成熟的量化投资AI平台应该具备两大特质:前瞻性和高效迭代,前者体现在较为完善的顶层设计上,后者体现在多项目协同推进中。
量化挖掘新数据
在量化投资中,数据挖掘同样重要。为了提高策略的效率,量化私募在最基础的量价数据之上,挖掘基本面因子等另类数据。有的大型量化私募机构甚至雇专人管理“坏股票池”。
路博迈董事总经理、中国量化投资总监周平表示,在2008年金融危机前后,全球顶尖量化资金出现巨大回撤。彼时大资金由于金融危机而选择撤回资金,而基于上市公司结构化数据(比如财务数据、交易数据、分析师相关数据)的量化策略具有高度相关性,导致大资金抛售时行业普遍出现大跌。于是很多机构更新迭代,采用了新数据或新算法。这些新数据分为两类,第一类是反映短期市场情绪面的数据,比如新闻;第二类是深入产业链、非结构化的基本面数据。
基本面数据是量化私募非常看重的一类数据。不少量化私募开发基本面量化策略,这是典型的多因子模型,它将基本面因子与传统量价因子结合,交易频率较低但持仓周期较长。基本面因子的加入,也为模型带来了更高的胜率和更准的预测能力,避免踩雷。
本次大会上数库科技发布的SAM2.0产业数字化平台,就是深入产业链的基本面数据“海洋”,拟合了整个中国经济运转。数库科技创始人兼总裁沈鑫表示,SAM2.0描绘的是整个产业生态,把所有的产业链进行细切,切成元产业链。每个产品节点都连接了大量数据(包括企业、产能、政策等),每个产品节点都可被视为一个宇宙,这些小的“元宇宙”连接起来便形成了元链,而作为基本单位的元链就像乐高模块一样,通过信息的实时动态捕捉和连接,最终呈现出一个完整映射实体神经网络的数据结构。
凡预测价格的数据皆重要
对于投资机构而言,任何与预测价格相关的数据都是重要数据。周平也遗憾地提到,“市场上真正用来预测资产价格的信息非常少。金融信息的最大缺点是低信噪比,即数据中噪音比例高,提取有效信号的难度比较大。虽然我们有海量数据,也有多样化处理方式,但是结果最优才是最基本的原则。”
解环宇也认为,金融数据具有低信噪比、时序单调性的特点,相对比较复杂,处理金融数据时要非常注重逻辑,制造模型时也要强调避免过拟合。
微众银行AI投研负责人、资深人工智能科学家殷磊也介绍了公司在数据领域的探索。目前,微众银行使用大数据有两个目标,一是做风险控制,二是进行投资。
人工智能和大数据在风险控制领域相对成熟。“微众银行从初期利用征信数据对企业或个人授信,逐渐演变到为信用记录空白或单薄的企业或个人授信。整个过程中,除了采用税务数据外,也使用用户习惯数据来把控风险。由于数据的获取比较零散,以及数据本身信噪比较低,把控好下沉程度和坏账率的平衡尤为重要。”殷磊表示。
微众银行的投资以固收为主,主要跟踪标的是利率以及企业信用风险。近三年利率波动很大。等待官方公布的GDP和PMI数据,在投资上相对滞后。“为了提前预知经济发展趋势,我们会使用先进手段捕捉到高频数据并合成交易信息,纳入利率跟踪范围。比如,获取大多数停车场的使用率可以了解国内消费情况,或者跟踪大部分钢铁厂钢炉开工率了解上游钢铁生产情况等等。”殷磊表示。
可交易的数据产品
目前,数据是可以交易的,这一般是指数据产品,而非原始数据。2021年11月,上海数据交易所揭牌成立,并达成了部分首单交易。伴随着上海数据交易所的成立,国内数据产品可以通过场内交易被定价,最终成为资产。
上海数据交易所副总经理韦志林表示,数交所为数据要素的流动提供了安全性,提高了效率,形成了场内估价体系,整个交易完成后形成从数据资源到数据产品,再到数字产品的逐次递进过程。
在数据交易全过程中,要同时满足数据来源、数据主体的合规性,减少数据流通中的可能风险。因此,数据服务商要对不同数据进行分类分级,并采取不同的确权和授权方式,确保数据来源的合规性。上海数据交易所制定了一整套规范体系,确保交易双方在可信框架下进行数据交付。
量化投资AI三要素不可有短板,明汯透露年底AI算力将高达400P,多家机构亮深度挖掘量化数据观点