CryptoMamba : les modèles d’états s’attaquent aux prévisions

Prédire l’évolution des cryptos • Qant, M. de R. avec Midjourney

Des chercheurs de l’université de Californie du Sud présentent CryptoMamba, qui teste sur le cours du bitcoin ses capacités de prévision. Avec le LLM TimeGPT de la start-up Nixtla, ils s’attaquent à l’analyse des séries temporelles.

Les séries temporelles constituent un outil fondamental en finance, où elles guident les décisions en matière de trading, de gestion des risques et de planification stratégique, mais aussi dans bien d’autres domaines comme la vente au détail, l'électricité ou l'Internet des objets. Les méthodes statistiques traditionnelles, comme les modèles Arima (AutoRegressive Integrated Moving Average) ou Garch (Generalized Autoregressive Conditional Heteroskedasticity) ont des difficultés à modéliser les non-linéarités et les changements de régime soudains. D’où la tentative de les remplacer, tout d’abord, par des réseaux neuronaux récurrents, comme LSTM (Long Short-Term Memory) et GRU (Gated Recurrent Unit). Et, maintenant, par des LLM, voire des SSM.

ChatGPT, combien va coûter le bitcoin ?

En août 2023, la start-up new-yorkaise Nixtla a présenté TimeGPT, un modèle Transformer conçu spécifiquement pour l'analyse et la prédiction de séries temporelles. Il permet aux utilisateurs de générer des prévisions ou de détecter des anomalies avec une approche "low-code" : les utilisateurs peuvent simplement télécharger leurs données de séries temporelles et obtenir des prévisions en quelques lignes de code seulement. TimeGPT permet non seulement de générer des prévisions ponctuelles et d'évaluer leur degré d'incertitude, mais offre également des fonctionnalités avancées telles que la production de prévisions sur échantillon, la détection d'anomalies et l'intégration de variables exogènes.

La prédiction des prix futurs des actifs financiers demeure un exercice particulièrement complexe, voire impossible par construction, en raison notamment de la nature volatile des marchés. Nixtla propose cependant en démo un exercice de ce genre avec le cours du bitcoin.

Des chercheurs de l’université de Californie du Sud viennent de faire le même choix, en présentant CryptoMamba, un modèle conçu pour prédire les fluctuations du prix des cryptomonnaies. Toutefois, ils ont conçu un SSM (state-space model) et non un Transformer, comme les LLM.

L’état des modèles d’états

La nouvelle architecture de ces modèles d’états, comme Jamba, pourrait succéder aux Transformers. Ici, le modèle d’états intègre des variables observées et des états latents pour capturer les mécanismes sous-jacents des séries temporelles. Ces états internes représentent des dynamiques souvent non mesurables directement, mais qui influencent profondément les données observées, comme les tendances ou les anomalies.

Pour les cryptoactifs comme pour les autres, les fluctuations dépendent de nombreux facteurs économiques, sociaux et techniques. Les modèles d’état permettent de représenter de manière plus précise ces interactions complexes. Contrairement aux approches traditionnelles, comme les modèles Arima (des outils statistiques utilisés pour analyser et prédire les séries temporelles en modélisant leurs dépendances passées, leurs tendances et leurs composantes de bruit) ou les réseaux neuronaux récurrents comme LSTM et GRU, CryptoMamba est capable d’intégrer des dépendances à long terme et de traiter efficacement les données bruitées et non linéaires.

Une architecture optimisée pour les séries temporelles

CryptoMamba est construit autour de blocs appelés CMBlocks (CryptoMamba Blocks). Ces unités sont conçues pour extraire des caractéristiques pertinentes à partir des données brutes et pour réduire le bruit inhérent aux séries temporelles des cryptomonnaies. Les CMBlocks utilisent des mécanismes spécifiques pour hiérarchiser les informations et identifier les patterns essentiels dans des données souvent volatiles et imprévisibles.

L’un des éléments-clés du modèle est son mécanisme d’intégration des caractéristiques. Ce mécanisme permet de combiner efficacement les données sur les prix et les volumes des transactions. Les chercheurs ont constaté que l’inclusion de ces volumes, souvent négligés par les approches traditionnelles, améliore significativement les performances du modèle.

Résultats significatifs sur les données du bitcoin

Pour évaluer ses performances, CryptoMamba a été testé sur des données historiques couvrant plusieurs années de fluctuations quotidiennes du Bitcoin. Les résultats montrent que le modèle surpasse les approches existantes, notamment les modèles LSTM, GRU et S-Mamba, une version simplifiée de CryptoMamba.

Le modèle a atteint une erreur quadratique moyenne (RMSE) de 1598,1, ce qui marque une nette amélioration par rapport à ses concurrents. Cette précision accrue est particulièrement remarquable lorsque les volumes de transactions sont inclus comme variables additionnelles. Cela souligne l’importance de prendre en compte des facteurs souvent ignorés dans la prédiction des marchés financiers.

Simulations de trading basées sur CryptoMamba

Pour démontrer l’utilité pratique de CryptoMamba, les chercheurs l’ont intégré dans deux stratégies de trading algorithmique : Vanilla et Smart. Ces algorithmes exploitent les prévisions du modèle pour prendre des décisions d’investissement sur la base de données historiques.

Les simulations ont montré des résultats convaincants. À partir d’un investissement initial de 100 $, le modèle Vanilla a généré un solde final de 246,58 $, dépassant largement les performances des autres modèles testés. Ces résultats illustrent la capacité de CryptoMamba à fournir des prédictions exploitables et utiles pour les investisseurs dans un environnement de marché extrêmement volatile.

Défis techniques et innovations de CryptoMamba

Le développement de CryptoMamba a nécessité de surmonter plusieurs défis techniques. Tout d’abord, la modélisation des séries temporelles financières implique de traiter des données très bruitées, où des événements inattendus peuvent provoquer des fluctuations extrêmes. Pour contourner ces obstacles, CryptoMamba utilise des mécanismes spécifiques de régularisation et de pondération des données, ce qui lui permet de s’adapter rapidement à des variations imprévues.

Un autre défi a été de trouver un équilibre entre la précision et la légèreté du modèle. Les chercheurs ont conçu une architecture qui minimise le nombre de paramètres tout en maintenant un haut niveau de performance. Cela garantit que le modèle reste efficace sur le plan computationnel, même lorsqu’il est déployé sur des infrastructures limitées.

Perspectives et conclusions des chercheurs

Les chercheurs soulignent que CryptoMamba pourrait être adapté à d’autres domaines financiers, comme la prévision des prix des actions ou des matières premières. Le modèle met également en évidence l’importance de combiner des variables complexes, telles que les volumes de transactions, pour mieux comprendre les dynamiques des marchés.

En dépit de ses succès, CryptoMamba nécessite une validation supplémentaire dans des environnements réels. Les chercheurs encouragent la poursuite des recherches pour affiner les modèles d’état et explorer de nouvelles méthodes pour intégrer des données non structurées, comme les actualités ou les signaux sociaux, dans les prédictions.

Pour en savoir plus :

L’essentiel