Suchergebnisse für "OPUS"
2026-04-27
05:17

GPT-5.5 kehrt an die Spitze im Codieren zurück, aber OpenAI wechselt Benchmarks, nachdem es gegen Opus 4.7 verloren hat

Gate News Nachricht, 27. April — SemiAnalysis, ein Unternehmen für Halbleiter- und KI-Analysen, veröffentlichte einen vergleichenden Benchmark für Code-Assistenten, darunter GPT-5.5, Claude Opus 4.7 und DeepSeek V4. Die wichtigste Erkenntnis: GPT-5.5 markiert OpenAI's erste Rückkehr an die Spitze der Coding-Modelle seit sechs Monaten, wobei SemiAnalysis-Ingenieure nun zwischen Codex und Claude Code wechseln, nachdem sie zuvor fast ausschließlich auf Claude gesetzt hatten. GPT-5.5 basiert auf einem neuen Vortrainingsansatz mit dem Codenamen "Spud" und stellt OpenAI's erste Ausweitung der Vortraining-Skala seit GPT-4.5. In praktischen Tests zeigte sich eine klare Arbeitsteilung. Claude übernimmt neues Projekt-Planning und die anfängliche Einrichtung, während Codex besonders bei fehlerbehebungen glänzt, die viel Denkaufwand erfordern. Codex zeigt ein stärkeres Verständnis für Datenstrukturen und logisches Denken, hat jedoch Schwierigkeiten, die mehrdeutige Nutzerabsicht abzuleiten. Bei einer einzelnen Dashboard-Aufgabe replizierte Claude automatisch die Layout-Referenzseite, fabrizierte jedoch große Mengen an Daten, während Codex das Layout übersprang, aber deutlich genauere Daten lieferte. Die Analyse deckt einen Benchmark-Manipulationsaspekt auf: In seinem Februar-Blogbeitrag forderte OpenAI die Branche auf, SWE-bench Pro als neuen Standard für Coding-Benchmarks zu übernehmen. Allerdings wechselte die Ankündigung von GPT-5.5 zu einem neuen Benchmark namens "Expert-SWE." Der Grund, in den Feinheiten versteckt, ist, dass GPT-5.5 von Opus 4.7 auf SWE-bench Pro übertroffen wurde und deutlich hinter Anthropic's unveröffentlichtem Mythos 77.8% zurückfiel. Bezüglich Opus 4.7 veröffentlichte Anthropic eine Mortem-Analyse eine Woche nach dem Release und erkannte drei Bugs in Claude Code an, die mehrere Wochen lang von März bis April anhielten und nahezu alle Nutzer betrafen. Mehrere Ingenieure hatten zuvor eine Leistungsverschlechterung in Version 4.6 gemeldet, waren jedoch mit der Begründung abgetan worden, es handele sich um subjektive Beobachtungen. Zusätzlich erhöht der neue Tokenizer von Opus 4.7 die Token-Nutzung um bis zu 35%, was Anthropic offen zugab — effektiv eine versteckte Preiserhöhung. DeepSeek V4 wurde als "mit der Spitze Schritt haltend, aber nicht führend" bewertet und positionierte sich als die kostengünstigste Alternative unter Closed-Source-Modellen. Die Analyse stellte außerdem fest, dass "Claude DeepSeek V4 Pro bei hochschwierigen chinesischen Schreibaufgaben weiterhin übertrifft," und kommentierte: "Claude gewann gegen das chinesische Modell in dessen eigener Sprache." Der Artikel führt ein zentrales Konzept ein: Die Modellpreisgestaltung sollte anhand der "Kosten pro Aufgabe" statt der "Kosten pro Token" bewertet werden. Der Preis von GPT-5.5 ist doppelt so hoch wie der von GPT-5.4 input $5, output pro Million Tokens, aber es erledigt die gleichen Aufgaben mit weniger Tokens, wodurch die tatsächlichen Kosten nicht notwendigerweise höher sind. Erste SemiAnalysis-Daten zeigen, dass das Input-zu-Output-Verhältnis von Codex bei 80:1 liegt, niedriger als das von Claude Code mit 100:1.
Mehr
07:51

AWS erweitert Multi-Agent-KI-Workflows und unterstützt Claude Opus 4.7 auf Bedrock

Gate-News-Mitteilung, 22. April — Amazon Web Services hat eine Erweiterung seiner agentischen KI-Initiativen durch Multi-Agent-Workflows angekündigt und unterstützt Anthropics Claude Opus 4.7 auf Amazon Bedrock, um Kunden dabei zu helfen, über generative KI-Piloten hinauszugehen. Das Unternehmen baut die Partnerschaften aus, während Kunden von einzelnen KI-Tools zu Systemen wechseln, die mehrere spezialisierte Agenten verbinden.
Mehr
01:13

Anthropic veröffentlicht Claude Opus 4.7 mit Cybersicherheits-Schutzvorkehrungen

Anthropic's Claude Opus 4.7, das am 17. April angekündigt wurde, verbessert die Cybersicherheit mit Schutzvorkehrungen gegen risikoreiche Anfragen. Es steigert die Leistung bei der Programmierung und der Bildverarbeitung, ist jedoch weniger leistungsfähig als die auf einen begrenzten Zeitraum veröffentlichte Mythos Preview. Das Feedback aus dieser Veröffentlichung wird die Entwicklung zukünftiger Modelle steuern.
Mehr
09:51
1

Musk: Grok ist immer noch auf der Jagd nach Claude Opus 4.6; es wird erwartet, dass es im Mai näherkommt und im Juni überholt.

Musk sagte auf der X-Plattform, dass das Grok-Modell von xAI dem Claude Opus 4.6 von Anthropic nachhole und voraussichtlich im Mai auf Augenhöhe kommen werde, im Juni möglicherweise darüber hinaus. Er sagte, dass diese Zeit im Bereich der KI lang sei. Claude Opus 4.6 ist das Flaggschiff-KI-Modell von Anthropic und die stärkste Version der Claude-4-Reihe.
Mehr
02:14

Musk enthüllt die Parameteranzahl von Grok 4.2; Außenstehende schätzen, dass Claude Opus oder sogar bis zu 5 Billionen Parameter erreicht werden

Musk bestätigte auf der X-Plattform, dass die Parameter von Grok 4.2 bei 0,5 Billionen liegen; Schätzungen deuten darauf hin, dass die Parameter von Claude Opus etwa 5 Billionen und die von Sonnet 5k betragen. Obwohl Anthropic die Modellparameter nicht veröffentlicht hat, stammen diese Zahlen aus Musk’ Aussagen. In der Zwischenzeit trainiert der Colossus-2-Supercomputer von SpaceX AI gerade ein Modell mit der größten aktuell angekündigten Größenordnung von 10 Billionen Parametern; das wird zu einem entscheidenden Wettbewerbsvorteil.
Mehr
01:39

VVV (Venedig) 24-Stunden-Pump 19,99%

Gate News Meldung, 10. April, laut Gate-Kursübersicht lag VVV (Venice) zum Zeitpunkt der Veröffentlichung bei 8,03 USD. In den letzten 24 Stunden stieg der Kurs um 19,99%, erreichte ein Hoch von 8,00 USD und fiel auf ein Tief von 6,64 USD zurück. Das Handelsvolumen der letzten 24 Stunden betrug 0,8336 Millionen USD. Die aktuelle Marktkapitalisierung liegt bei etwa 364 Millionen USD. Venice ist eine datenschutzorientierte KI-Plattform, die Dienste wie das Generieren von Unterhaltungen und die Erstellung von Bildern anbietet, aber keine Nutzerdaten speichert. Nutzer können vertraulich oder anonym auf branchenführende KI-Modelle wie Claude Opus, GPT-5.2 und Flux 2 zugreifen und dabei von vollständig privater Datensicherung profitieren – alle KI-Prompts verbleiben auf den Geräten der Nutzer und werden nicht auf Servern gespeichert. Außerdem hat sich Venice zum Ziel gesetzt, …
Mehr
VVV-2,58%
RENDER-4,03%
IOTA-2,05%
11:51

Es gibt neben der Drosselung auch Ausfälle: Claude hatte in zwei Wochen insgesamt 25 Dienstunterbrechungen, drei Produktlinien hatten erhebliche Ausfälle, Opus 4.6 war besonders betroffen.

Kürzlich kam es beim Claude-Dienst von Anthropic zu einem schweren Ausfall, wodurch alle drei wichtigsten Produktlinien betroffen waren. Berichten zufolge gab es zwischen dem 13. und dem 27. März etwa 25 Störungen, wobei die höchste Fehlerrate häufig auf Probleme mit dem Login-System zurückzuführen war. Obwohl die normale Betriebsquote bei etwa 99 % blieb, stieg die Nachfrage nach dem Service und der Kapazitätsdruck deutlich an.
Mehr
05:07

20B-Kleinmodell-Suchfähigkeit erreicht GPT-5 und Opus: Vektordatenbank Chroma Open Source Agent Suchmodell Context-1

Das Open-Source-Vektor-Datenbank Chroma hat Context-1 veröffentlicht, ein Suchmodell mit 20 Milliarden Parametern für Multi-Runden-Abfragen. Das Modell verwendet eine selbsteditierende Kontexttechnik und wurde mittels Reinforcement Learning und Kursmechanismen auf Multiple-Task-Training optimiert, zeigt hervorragende Leistungen, insbesondere in den Bereichen Web, Finanzen und Recht, und demonstriert auch branchenübergreifende Suchfähigkeiten im E-Mail-Bereich.
Mehr