Décoder l'humeur du marché pour 100 millions d'utilisateurs : comment construire un moteur d'IA multi-modèles avec une réponse en 1 seconde

TechubNews
ETH-0,39%

Dans le monde des cryptomonnaies, une information erronée peut entraîner des jugements erronés de plusieurs millions de dollars. Notre système d’analyse des sentiments existant — une architecture combinant des modèles open source et des LLM auto-hébergés — est désormais dépassé face à un flux d’actualités en temps réel dans 25 langues différentes. Un scénario typique de défaillance est le suivant : lorsque des événements comme « la fusion d’Ethereum » génèrent des interprétations diamétralement opposées dans différentes communautés linguistiques, notre système voit ses délais de traitement s’envoler ou produire des étiquettes émotionnelles contradictoires. Cela nous a poussés à repenser la question centrale : comment fournir aux utilisateurs mondiaux des insights de marché à la fois rapides et précis ? La réponse réside finalement dans une architecture de « consensus multi-modèles » soigneusement conçue.

Source : InterSystems

Évolution de l’architecture : d’un modèle unique à un comité d’experts

Nous sommes initialement tombés dans le piège de la recherche d’un « modèle universel ». La pratique a montré qu’aucun seul LLM ne pouvait répondre simultanément aux exigences de rapidité, de précision multilingue et de connaissance du domaine des cryptomonnaies. Claude 3 Haiku répond rapidement, mais sa compréhension du slang chinois est limitée ; notre modèle Mistral, après fine-tuning, excelle dans l’analyse de white papers, mais souffre d’un goulot d’étranglement en termes de débit pour les textes longs. Pire encore, l’auto-hébergement de ces modèles impose une infrastructure lourde — compétition pour les ressources GPU lors des pics de trafic et complexité opérationnelle continue, épuisant l’équipe. Ces points douloureux nous ont conduits à adopter le concept central de fédération de modèles : faire en sorte que des modèles spécialisés remplissent chacun leur rôle, tout en étant coordonnés par un mécanisme d’arbitrage intelligent pour agréger la sagesse collective.

Conception de la pipeline asynchrone à double voie

Le cœur du nouveau système est une pipeline asynchrone à double voie fonctionnant sur AWS, conçue pour maintenir une redondance tout en contrôlant strictement la latence P99 en dessous de la seconde.

Les textes d’actualités entrent d’abord en parallèle dans deux canaux de traitement. Le premier, un canal à haute vitesse, appelle directement Claude 3 Haiku sur Amazon Bedrock pour une première détection de sentiment et l’extraction d’entités clés, généralement en moins de 300 millisecondes. Le second, un canal d’analyse approfondie, envoie le texte à un modèle Mistral 7B finement ajusté via Amazon SageMaker pour enrichir le contexte du domaine, par exemple pour distinguer si une hausse des frais de gas est due à une congestion réseau ou à une émission NFT populaire, ce processus prenant environ 600 millisecondes.

L’innovation réside dans la conception d’une couche d’arbitrage légère. Cette couche compare en temps réel les résultats des deux voies. Lorsque ceux-ci sont très cohérents, elle privilégie le résultat du canal à haute vitesse pour garantir une réponse ultra-rapide ; en cas de divergence, elle synthétise une décision en 20 millisecondes en se basant sur des règles de domaine prédéfinies et des scores de confiance. Ce mécanisme assure que la majorité des requêtes reçoivent une insight fiable, rapide et approfondie en moins d’une seconde.

Le champ de bataille caché des pipelines de données

Construire le modèle n’est que la couche superficielle du défi technique ; la véritable complexité réside dans le pipeline de données. Les flux provenant de sources d’actualités mondiales et de médias sociaux sont truffés de bruit : multilinguisme, emojis, slang internet. Pour cela, nous avons mis en place un système de filtrage multicouche — combinant des expressions régulières spécifiques à chaque langue et un modèle de détection en temps réel basé sur FastText — pour assurer la propreté des textes entrants. La stabilité de ce pré-traitement détermine directement la confiance dans l’analyse ultérieure.

Le défi majeur est aussi la mise en place d’un système d’évaluation. Nous ne comptons pas uniquement sur une annotation manuelle par une équipe multilingue d’experts, mais intégrons aussi la réaction du marché comme indicateur de validation dynamique : en analysant la corrélation entre les sentiments exprimés et les fluctuations de prix à court terme des actifs concernés, nous affinons continuellement nos standards d’évaluation. Cela permet au système de passer d’une recherche de précision statique à une capacité de suivre la perception dynamique du marché.

Philosophie des coûts d’infrastructure

Le passage à l’API Bedrock a transformé en profondeur notre mode d’exploitation. La plus grande avancée est la suppression totale du fardeau infrastructurel et la capacité d’élasticité quasi infinie — lorsque des actualités de dernière minute provoquent une augmentation de trafic de 300 %, le système peut répondre sans intervention humaine. Sur le plan des coûts, bien que basé sur un modèle de facturation par token, l’utilisation de caches intelligents pour les modèles de narration fréquente et l’optimisation continue des prompts ont permis de réduire d’environ 35 % les coûts par rapport à un cluster GPU auto-hébergé inutilisé. Ce changement libère des ressources pour les ingénieurs, qui peuvent se concentrer sur l’arbitrage et l’optimisation des pipelines, au lieu de gérer l’infrastructure.

Conclusion et perspectives d’évolution

L’enseignement principal de cette évolution architecturale est que, pour des systèmes de production à performance extrême, un « modèle unique d’autorité » est souvent moins efficace qu’un « comité d’experts spécialisés ». En fusionnant de manière organique la rapidité des LLM généralistes avec la compréhension sémantique profonde des modèles spécialisés, nous avons enfin construit un système capable de résister à l’épreuve du marché mondial en temps réel.

À l’avenir, nous envisageons de faire évoluer le système de « sentiment analysis » vers une intelligence de « suivi narratif ». Le nouveau défi consiste à faire en sorte que l’IA ne se contente pas de juger la polarité émotionnelle, mais qu’elle puisse aussi identifier et suivre en permanence la formation, la diffusion et l’atténuation de nouvelles narratives telles que la tokenisation d’actifs réels. Cela nécessitera des mécanismes de mémoire renforcés et de raisonnement causal, ouvrant la voie à la prochaine génération d’infrastructures financières intelligentes.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire