Gate News-Mitteilung, 20. April — Top-KI-Modelle sind hervorragend darin, komplexe Probleme zu lösen, wie Olympiademathematik, aber sie haben Schwierigkeiten mit routinemäßiger Arbeit im Unternehmen, so David Meyer von Databricks. Einige Modelle korrigieren möglicherweise eine falsche Rechnungsnummer statt sie als Fehler zu markieren, während Codier-Tools wie Claude bei Aufgaben im Bereich Data Engineering ebenfalls unterdurchschnittlich abschneiden können.
Die Lücke rührt von grundlegenden Unterschieden zwischen Unternehmensdaten und dem öffentlichen Web-Text her, der zur Schulung großer Modelle verwendet wird. Unternehmensdaten weisen oft vage Spaltenbezeichnungen auf, zahlreiche leere Felder und Codes, die als Klartext gespeichert sind. In einer akademischen Studie sank der F1-Score eines KI-Modells, der Precision und Recall ausbalanciert, von 0,94 auf öffentlichen Daten auf 0,07 bei Unternehmensdaten für eine Aufgabe im Data Engineering. Außerdem neigen große Modelle dazu, auf vertraute Muster aus dem Training zurückzugreifen; einige defaulteten zu Structured Query Language (SQL), selbst nachdem sie Anweisungen und Dokumentation für eine firmeneigene Abfragesprache erhalten hatten.
Kleinere Open-Source-Modelle, die mit Reinforcement Learning feinabgestimmt wurden, können bestimmte Jobs effizienter bewältigen und verursachen dabei deutlich geringere Schulungskosten als große, allgemeine Modelle. Databricks baut kleinere KI-Agenten für spezifische Workflows, wie KARL, das Reinforcement Learning für mehrstufiges Reasoning mit Unternehmensdokumenten nutzt. Die Branche verlagert sich von der Abhängigkeit von riesigen Modellen hin zu hybriden Architekturen: kleine, effiziente Modelle übernehmen das routinemäßige Volumen und eskalieren nur unklare oder komplexe Fälle an größere, kostspieligere Systeme.
Databricks hat kürzlich Quotient AI übernommen, um großen Unternehmen dabei zu helfen, KI-Agenten zuverlässiger einzusetzen. Der Wettbewerb im KI-Geschäft konzentriert sich inzwischen darauf, den vollständigen KI-Lifecycle abzuwickeln, einschließlich Feedback-Systemen zur Fehlerverfolgung und einer kontinuierlichen Verbesserung der Modelle über Zeit hinweg. Dadurch werden Evaluierungs- und Tuning-Tools nach dem Deployment immer wertvoller.
Verwandte Artikel
KI-Handelsagenten-Plattform Fere AI nimmt 1,3 Mio. US-Dollar ein, angeführt von Ethereal Ventures
OpenClaw v2026.4.23 fügt direkte OAuth-Unterstützung für gpt-image-2 hinzu und führt den gegabelten Kontextmodus für Sub-Agenten ein
Fere AI schließt eine 1,3-Millionen-US-Dollar-Finanzierungsrunde ab, angeführt von Ethereal Ventures
Großes CEX-Wallet-Launch: Agentic Wallet für KI-Agenten mit 0 Gebühren während der Werbeaktion
Web3-KI-Infrastruktur AIW3 nimmt $2M in Seed-Finanzierung auf, angeführt von Buffalo Capital