拓扑数据分析:如何避免股灾(金融危机)! 作者:Wallyson Lemes、编辑部编辑:1+1=6前言去噪是一项永无止境的工作,快刀斩乱麻可能会危及整个分析。好...
作者:Wallyson Lemes、编辑部
编辑:1+1=6
前言
去噪是一项永无止境的工作,快刀斩乱麻可能会危及整个分析。
好比上面这张动图:把一块巨大的圆石滚到山上,但当它接近山顶时,它又滚了下来,重复着这个动作,直到永远···@今日话题
正文
只要有金融市场,就会有金融危机(股灾)。当股市下跌时,那些能够预见到市场下跌的人可以保护自己的资产,或者采取高风险的空头头寸来获利。金融市场上资产的价格是由多种信息决定的,在有效市场假说中,信息的一个简单变化会立即反映在价格中。
"The dynamics of financial systems are comparable to those of physical systems."
就像固体、液体和气体之间发生相变一样,我们可以分辨市场上的正常状态和混乱状态。
观察表明,在金融危机之前,资产价格会出现一段时间的振荡。这个高度不确定性的时期与时间序列的几何结构的异常变化有关。
在今天的推文中,我们将使用拓扑数据分析(TDA)来捕捉时间序列中的这些几何变化,从而为股灾提供一个可靠的探测器。
对于金融危机(股灾)的准确定义,人们几乎没有达成共识
直观地说,股灾就是资产价格的迅速下跌。价格下跌是由大规模抛售资产造成的,这是一种在价格进一步下跌之前结清头寸的操作。
意识到一个巨大的投机泡沫(比如次贷)或一个灾难性事件,将导致市场崩盘。在过去20年里,我们目睹了两场重大的股灾:2000年的互联网崩盘和2008年的全球金融危机。
我们分析了标普500指数从1980年到现在的每日价格。与简单的baseline相比,我们发现拓扑信号对噪声具有较强的鲁棒性,因此不易产生False Positives。
那么什么是拓扑数据分析(TDA)呢?
拓扑数据分析(TDA)
拓扑数据分析(Topological Data Analysis,简称TDA),就是把拓扑学与数据分析结合的一种分析方法,即可以提供一种强大的方法来抽象复杂数据中的微观结构。
什么是“拓扑”?
拓扑是研究几何图形或空间在连续改变形状后还能保持不变的一些性质的一个学科。它只考虑物体间的位置关系而不考虑它们的形状和大小。拓扑学是一种几何学,但它研究的并不是大家所熟悉的普通几何性质,而是一类特殊的几何性质,这就是“拓扑性质”,即图形在整体结构上的特性。它与几何图形的大小、形状以及所含线段的曲直等无关。
相比于主成分分析、聚类分析这些常用的方法,TDA不仅可以有效地捕捉高维数据空间的拓扑信息,而且擅长发现一些用传统方法无法发现的小分类。这种方法也因此曾在基因与癌症研究领域大显身手。
我们知道,TDA是基于拓扑学而来的,拓扑学是描述数学空间,特别是其空间形状属性的一个数学分支。拓扑学家处理的很多形态都是非常奇怪的,种类太多以至于几乎所有的日常物体(如碗、宠物和树木等的)的形态只占了拓扑学研究范围的一小部分。"拓扑"(Topology)一词源于希腊语,表示地点(Topos)和研究(Logy)。
和通常研究的成对关系相比,这种相互关系的形状之中可能潜藏了巨大的研究价值。要理解数据的形状,就必须求助于拓扑学。TDA所做的就是抽取这种形状并进行分析。
检测股灾的baseline和拓扑模型
接下来,给大家介绍一款由Giotto出品的一款开源TDA库:
网址:网页链接
网站有很丰富的学习文档和资料,大家可以自行查看:
Giotto-learn是Python中的一个高性能拓扑机器学习工具箱,它构建在scikit-learn之上,并在Apache 2.0许可下发布。
GitHub:网页链接
安装Giotto的最简单方法是使用pip:
pip install giotto-learn
Python(>= 3.5)
Scikit-learn(>= 0.21.3)
NumPy(>= 1.11.0)
SciPy(>= 0.17.0)
joblib(>= 0.11)
Matplotlib(> = 1.5.1)
plotly(> = 4.1.0)
baseline
考虑到股灾代表着股价的突然下跌,检测这些变化的一个简单方法是通过移动窗口来跟踪均价的一阶导数。事实上,从下图中我们可以看出,这种比较初级的方法已经抓住了“黑色星期一”(1987年)、互联网泡沫(2000-2004年)和金融危机(2007-2008年)的特点。
S&P500指数
对这个时间序列进行标准化 [0,1],我们用一个阈值在发生崩盘的原始时间序列上进行标记。
baseline模型的崩溃概率
原始时间序列上高于阈值的点
显然,这种简单的方法是相当嘈杂的。
随着许多点被标记为崩盘,遵循这些建议将导致过度恐慌和过早出售资产。让我们看看TDA是否可以帮助我们降低信号中的噪声,并获得一个更加稳健的检测器!
TDA pipeline
TDA以提取数据基本形状的方式去除噪声。
典型的方法包括滤波(卡尔曼滤波)和平滑策略(指数移动平均)。这些方法都侧重于时间平均方法,并在噪声频率远高于信号频率的假设下工作。相比之下,TDA 不是基于简单的时间平均,而是从每个固定时间提取结构信息。
TDA背后的数学原理很深奥,本文将不对此进行讨论。我们将TDA看作是一种提取可用于在建模是提取信息特征的方法就足够了。
1、将时间序列嵌入到一个PointCloud(点云)中,构造点云移动窗口。
▍什么是点云数据?点云数据是指在一个三维坐标系统中的一组向量的集合。这些向量通常以X、Y、Z三维坐标的形式表示,而且一般主要用来代表一个物体的外表面形状。不仅如此,除(X,Y,Z)代表的几何位置信息之外,点云数据还可以表示一个点的RGB颜色,灰度值,深度,分割结果等。
圆环形的点云图像
2、在每个窗口上建立过滤,对每个窗口的几何形状进行编码。
3、使用持久性同源性(Persistent homology)提取这些窗口的相关特征。
4、通过测量这些特征从一个窗口到下一个窗口的差异来比较每个窗口。
5、基于这种差异构造一个崩溃检测器。
时间序列作为点云
TDA pipeline从点云生成一个simplicial complex。因此,时间序列应用的关键问题是如何生成这样的点云。离散时间序列,通常被可视化为二维的散点图。通过从左到右扫描图像,这种表示方式使得时间序列的局部行为很容易跟踪。 但是,在传达较长时间范围内可能发生的重要影响方面,它往往是无效的。
一个众所周知的捕捉周期性行为的方法来自傅立叶变换分析。例如,时间序列上一个时间窗口的离散傅里叶变换给出了该窗口中的信号信息是否作可以作为几个简单周期信号总和。
出于本次研究的目的,我们考虑采用一种不同的编码方式来实现时间演变过程。它是基于这样一种思想,即动力学的一些关键性质可以在更高的维度上有效地揭示出来。首先,我们将一个单变量时间序列表示为一个点云,即在任意维的欧氏空间中表示一组向量。
过程如下我:我们选择两个整数d和τ。对于每一次tᵢ∈(t₀t₁,…),我们收集变量y在d不同时间的值,从ti开始均匀地间隔τ,并将它们作为一个有d条目的向量,即:
结果为d维空间中的一组向量!τ称为时延参数,d为嵌入维数。
在Floris Takens之后,这种时间延嵌入方法也被称为Taken’s嵌入,在非线性动力系统中有着十分重要的性质。
最后,在整个时间序列上对移动窗口分别应用这个过程,得到一个点云时间序列(每个移动窗口一个点云),其中可能包含有趣的拓扑。下图显示了这种点云是如何在二维空间中生成的。
嵌入维数d=2和时间延迟τ=1
接下来我们需要将embedder初始化,将价格时间序列表示为点云的时间序列:
既然我们的embedder是初始化的,其中每个元素是一个三维向量:
接下来,我们应用一个移动窗口来获得每个窗口的点云。选择窗口大小,每个间隔将跨越36天:
从点云到Persistence图
既然我们已经知道了如何生成点云的时间序列,那么我们该如何处理这些信息呢?持久性同源性(Persistent homology),它查找在某个参数值范围内持久存在的simplicial complex中的拓扑特征。通常,比如一个洞,最初不会被观察到,然后会出现,在一系列的参数值之后又会消失。
来自两个连续窗口的点云及其相关的持久性关系图
持久图之间的距离
给定两个窗口及其对应的持久性关系图,我们可以计算各种距离度量。在这里,我们比较了两个距离,一个基于persistence landscape的概念,另一个基于Betti曲线。
Landscape Distances of the S&P 500 Index
Betti Curve Distances of the S&P 500 Index
从这些图中我们可以推断,基于Landscape Distances的度量比Betti曲线的噪声小。
一个拓扑检测器
使用窗口之间的landscape距离作为我们的拓扑特征,就像我们为baseline模型所做的一样。下面,我们将为大家呈现互联网泡沫和全球金融危机的测试结果。与我们的baseline相比,我们可以看到使用拓扑特征减少了信号中的噪声。
结论
我们的研究结果表明,高波动周期之前产生的几何特征,利用拓扑数据分析可以更可靠地检测到这些特征。然而,这些结果只涉及到一个特定的市场,而且是短期的,因此我们应该进一步研究这一过程在不同市场和不同阈值下的稳健性。后面为大家分享!
—End—
量化投资与机器学习微信公众号,是业内垂直于Quant、MFE、Fintech、AI、ML等领域的量化类主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、海外等众多圈内18W+关注者。每日发布行业前沿研究成果和最新量化资讯。
相关知识
AI 数据集最常见的6大问题(附解决方案)
十大图片编辑软件排行,图片处理软件
宠物行为分析:宠物监管平台如何分析宠物的行为?
宠物皮肤病的流行病学数据分析
宠物健康监测与数据分析
宠物饲养数据分析怎么写
SM4动物鸣声分析系统,鸟类声音记录仪
对宠物猫的“大数据”分析:猫有7种性格特征
2022兽丘宠物过敏原检测数据分析报告
淘宝宠物直播场次数据分析
网址: 拓扑数据分析:如何避免股灾(金融危机)! 作者:Wallyson Lemes、编辑部编辑:1+1=6前言去噪是一项永无止境的工作,快刀斩乱麻可能会危及整个分析。好... https://www.mcbbbk.com/newsview292729.html
上一篇: 多少攻击强化数值=1%技能攻击力 |
下一篇: 为何马云“惧怕”沃尔玛(博商电商 |
推荐分享

- 1我的狗老公李淑敏33——如何 5096
- 2南京宠物粮食薄荷饼宠物食品包 4363
- 3家养水獭多少钱一只正常 3825
- 4豆柴犬为什么不建议养?可爱的 3668
- 5自制狗狗辅食:棉花面纱犬的美 3615
- 6狗交配为什么会锁住?从狗狗生 3601
- 7广州哪里卖宠物猫狗的选择性多 3535
- 8湖南隆飞尔动物药业有限公司宠 3477
- 9黄金蟒的价格 3396
- 10益和 MATCHWELL 狗 3352