D’après le suivi de 1M AI News, la base de données vectorielle open source Chroma publie Context-1, un modèle d’agent de recherche pour les tâches de recherche multi-tours doté de 20 milliards de paramètres. Les poids du modèle sont open source sous la licence Apache 2.0, et le code de pipeline de génération de données synthétiques est également publié.
Le positionnement de Context-1 est celui d’un sous-agent de récupération (retrieval subagent) : il ne répond pas directement aux questions, mais renvoie, via une recherche multi-tours, un ensemble de documents justificatifs au modèle d’inférence en aval. La technologie clé est le « self-editing context » (contexte auto-édité), c’est-à-dire que le modèle jette activement, pendant la recherche, les fragments de documents non pertinents, afin de libérer de l’espace dans la fenêtre de contexte limitée pour les recherches suivantes, évitant ainsi la dégradation des performances due à l’explosion du contexte.
L’entraînement se déroule en deux phases : d’abord, des grands modèles tels que Kimi K2.5 génèrent des trajectoires SFT, qui servent au préchauffage par affinement supervisé ; ensuite, via l’apprentissage par renforcement (sur la base de l’algorithme CISPO), le modèle est entraîné sur plus de 8000 tâches synthétiques. La conception de la récompense utilise un mécanisme de cours (curriculum) : au début, une meilleure re-récupération (early re-recall) encourage une exploration large, puis, progressivement, on se tourne vers la précision afin d’encourager la conservation sélective. Le modèle de base est gpt-oss-20b, avec une adaptation par LoRA ; pour l’inférence, la quantification MXFP4 est utilisée pour s’exécuter sur B200, avec un débit atteignant 400-500 token/s.
Sur les quatre bancs de référence de domaines construits par Chroma (web, finance, droit, e-mails) et les bancs de référence publics (BrowseComp-Plus, SealQA, FRAMES, HotpotQA), la version à 4 voies parallèles de Context-1, sur la métrique « taux de réussite de la réponse finale », est à égalité avec des modèles de pointe comme GPT-5.2, Opus 4.5, Sonnet 4.5, ou s’en approche ; par exemple, sur BrowseComp-Plus, elle atteint 0.96 (Opus 4.5 à 0.87, GPT-5.2 à 0.82), tandis que les coûts et la latence ne représentent que quelques fractions de ceux des autres. À noter : ce modèle n’est entraîné que sur les données web, juridiques et financières, mais, même dans le domaine des e-mails qui n’a pas fait l’objet de l’entraînement, il montre une amélioration significative, ce qui met en évidence la transférabilité inter-domaines de ses capacités de recherche.