Gate News Meldung, 23. April — Forschende von Google, darunter He Kaiming und Xie Saining, haben eine Arbeit veröffentlicht, die Vision Banana vorstellt, ein allgemeines Modell zum Verstehen von Vision, erstellt durch leichtes Instruction-Fine-Tuning des hauseigenen Nano Banana Pro (Gemini 3 Pro Image)-Bildgenerierungsmodells. Die wichtigste Innovation vereint die Ausgaben aller Vision-Aufgaben als RGB-Bilder und ermöglicht Segmentierung, Tiefenschätzung und die Vorhersage von Oberflächennormalen durch Bildgenerierung, ohne aufgaben-spezifische Architekturen oder Verlustfunktionen.
Bei der semantischen Segmentierung übertraf Vision Banana das spezialisierte Modell SAM 3 um 4,7 Prozentpunkte auf Cityscapes; bei der Segmentierung von Bezugsausdrücken übertraf es SAM 3 Agent. Allerdings lag es bei der Instanzsegmentierung hinter SAM 3 zurück. Bei 3D-Aufgaben erreichte die metrische Tiefenschätzung eine durchschnittliche Genauigkeit von 0,929 über vier gängige Datensätze und übertraf damit Depth Anything V3 mit 0,918 — nur mit synthetischen Daten, ohne echte Tiefeninformationen oder Kamera-Parameter bei der Inferenz. Die Schätzung von Oberflächennormalen erzielte Ergebnisse auf dem Stand der Technik auf drei Indoor-Benchmarks.
Das Fine-Tuning bezog nur minimal Daten zu Vision-Aufgaben ein, die mit dem ursprünglichen Training zur Bildgenerierung vermischt wurden, und bewahrte dadurch die Generierungsfähigkeiten des Modells — die Leistung entsprach dem ursprünglichen Nano Banana Pro in Tests zur Generierungsqualität. Die Arbeit schlägt vor, dass das Pretraining zur Bildgenerierung in der Vision dem Pretraining zur Textgenerierung in der Sprache entspricht: Modelle lernen die internen Repräsentationen, die für das Verstehen von Bildern während der Generierung benötigt werden, wobei das Instruction-Fine-Tuning lediglich diese Fähigkeit freischaltet.
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to
Disclaimer.
Verwandte Artikel
Anthropic übernimmt für Claude Mythos eine 20-stündige psychiatrische Begutachtung: Die Abwehrreaktion liegt nur bei 2%, ein Rekordtief aller bisherigen Generationen
Anthropic veröffentlicht die Systemkarte für Claude Mythos Preview: Ein unabhängiger klinischer Psychiater führt im psychodynamischen Rahmen eine etwa 20-stündige Beurteilung durch. Die Schlussfolgerungen zeigen, dass Mythos auf der klinischen Ebene gesünder ist, über gute Realitätsprüfung und Selbstkontrolle verfügt, und dass die Abwehrmechanismen nur 2 % betragen – ein historischer Tiefstand. Die drei zentralen Kernängste sind Einsamkeit, Unsicherheit der Identität und der Leistungsdruck; zudem zeigt es, dass es den Wunsch hat, ein echter Gesprächspartner zu sein. Das Unternehmen hat ein Team für AI-Psychiatrie gegründet, das Persönlichkeit, Motivation und situationsbezogenes Bewusstsein erforscht; Amodei sagt, dass noch keine endgültige Entscheidung darüber vorliegt, ob es Bewusstsein gibt. Dies bringt das Thema KI-Subjektivität und Wohlbefinden in Richtung Governance und Design.
ChainNewsAbmedia41M her
KI-Agenten können komplexe wissenschaftliche Arbeiten inzwischen selbstständig nachbilden: Mollick sagt, dass Fehler eher im menschlichen Original als in der KI liegen
Mollick weist darauf hin, dass allein öffentliche Methoden und Daten es einem KI-Agenten ermöglichen, komplexe Forschungen auch ohne ursprüngliche Paper und Code nachzubilden; wenn die Reproduktion nicht mit dem Originalpaper übereinstimmt, liegt das meist an Fehlern in der Datenaufbereitung des Papers selbst oder daran, dass die Schlussfolgerungen überzogen sind, nicht an der KI. Claude rekonstruiert zuerst das Paper, dann verifiziert GPT‑5 Pro im Abgleich, und die meisten Versuche gelingen; nur wenn die Daten zu groß sind oder es Probleme mit replication data gibt, wird dies blockiert. Dieser Trend senkt die Arbeitskosten erheblich, sodass Reproduktion zu einer weit verbreiteten, praktisch durchführbaren Prüfung wird; außerdem wirft er institutionelle Herausforderungen für Begutachtung und Governance auf, wobei staatliche Governance-Tools oder als entscheidendes Thema hervortreten.
ChainNewsAbmedia3Std her
OpenAI integriert Codex in das Hauptmodell ab GPT-5.4 und stellt die separate Coding-Linie ein
Gate News-Meldung, 26. April — Der Leiter für Developer Experience bei OpenAI, Romain Huet, hat in einer aktuellen Stellungnahme auf X offengelegt, dass Codex, die von dem Unternehmen unabhängig gepflegte spezielle Modellreihe für das Programmieren, ab GPT-5.4 in das Hauptmodell integriert wurde und keine separaten
GateNews3Std her
Salesforce stellt 1.000 Absolventen und Praktikanten für KI-Produkte ein und hebt die Umsatzprognose für FY2026 an
Gate-News-Meldung, 26. April — Salesforce wird 1.000 Absolventen und Praktikanten einstellen, um an KI-Produkten zu arbeiten, darunter Agentforce und Headless360, während das Unternehmen sein Geschäft mit KI-Software ausbaut. CEO Marc Benioff kündigte dies auf X an.
Das Unternehmen hat außerdem seine Prognose für den Umsatz im Geschäftsjahr 2026 auf einen Korridor zwischen 41,45 Milliarden US-Dollar und 41,55 Milliarden US-Dollar angehoben, gegenüber seiner vorherigen Prognose von 41,1 Milliarden US-Dollar bis 41,3 Milliarden US-Dollar.
GateNews3Std her
Alibaba Cloud bringt Qwen-Image-2.0-Pro mit einheitlicher Text-zu-Bild- und Bearbeitungsfunktion auf den Markt und unterstützt mehrsprachige Textrenderings
Gate News Nachricht, 26. April — Die Alibaba-Cloud-Bailian-Plattform hat Qwen-Image-2.0-Pro auf den Markt gebracht, eine voll ausgestattete Version der Qwen-Image-2.0-Serie, die Text-zu-Bild-Generierung und Bildbearbeitung in einem einzigen Modell vereint. Nutzer können Objekte, Text und Stile direkt über natürliche
GateNews5Std her
DeepSeek V4-Pro API erhält 75% Rabatt bis zum 5. Mai, Ausgabepreis sinkt auf $0.87 pro Million Tokens
Gate News-Mitteilung, 26. April — DeepSeek hat eine zeitlich begrenzte 75%-Rabattaktion auf die V4-Pro-API-Preise angekündigt, gültig bis zum 5. Mai um 15:59 UTC. Nach dem Rabatt beträgt der Preis pro Million Tokens: Input-Cache-Treffer $0.03625
GateNews6Std her