Frontier-KI wird billiger: Anthropic launcht Sonnet 5
Sonnet 5 erreicht fast Opus-Niveau; Anthropic und OpenAI zielen aufs Labor; Humanoide übernehmen echte Fabrikarbeit
Anthropic bestimmt heute das Tempo: Sonnet 5 erreicht nahezu Opus-Niveau zum deutlich niedrigeren Preis, während Claude Science die KI direkt ins Forschungslabor schickt. OpenAI kontert mit einem Benchmark, der Urteilskraft statt Faktenwissen misst. Daneben rückt die autonome Firma näher und Humanoide übernehmen erste Serienarbeit am Fließband.
Sonnet 5 erreicht fast Opus-Niveau zum halben Preis
Anthropic hat mit Sonnet 5 das bislang agentischste Modell der Sonnet-Reihe veröffentlicht. Es rückt nah an Opus 4.8 heran, kostet aber deutlich weniger, mit klaren Sprüngen bei Reasoning, Tool-Nutzung, Coding und Wissensarbeit. Sonnet 5 ist ab sofort das Standardmodell für Free- und Pro-Nutzer und läuft in Claude Code sowie über die API. Bis zum 31. August gilt ein Einführungspreis von 2 Dollar pro Million Input-Token und 10 Dollar pro Million Output, danach 3 beziehungsweise 15 Dollar. Anthropic nennt das Modell sicherer als Sonnet 4.6, mit weniger Halluzinationen und weniger Schmeichelei. Für ernsthafte Cyber-Aufgaben bleibt Opus die stärkere Wahl.
Anthropic macht Claude zur auditierbaren Forschungs-Workbench
Mit Claude Science öffnet Anthropic sein Modell für die Wissenschaft. Das System begleitet jede Phase eines Forschungsprojekts: Jedes Artefakt lässt sich bis zum zugrunde liegenden Code zurückverfolgen, Rechenumgebungen werden bei Bedarf automatisch bereitgestellt, und über 60 wissenschaftliche Datenbanken lassen sich direkt anbinden. Statt Pipelines mühsam zusammenzustecken, arbeitet das Modell die Analyse wie ein geübter Forscher selbst durch und liefert nachprüfbare, auditierbare Ergebnisse. Das Prinzip von Claude Code, übertragen aufs Labor: eine übergeordnete Anweisung genügt, den Rest erledigt das System eigenständig. Die KI verschiebt sich damit vom Chat-Werkzeug zum reproduzierbar rechnenden Labor-Kollegen. Ab sofort in der Beta.
OpenAI misst KI jetzt an echter Laborforschung
OpenAI legt mit GeneBench-Pro einen Maßstab vor, der nicht mehr fragt, ob ein Modell Fakten auswendig kann, sondern ob ein Agent sich durch chaotische biologische Rohdaten kämpft, den richtigen Analyseweg wählt und belastbare Urteile fällt. Genomik, Zellbiologie und komplexe reale Datensätze treten an die Stelle sauberer Multiple-Choice-Fragen. Der eigentliche Punkt: Die nächste Benchmark-Generation prüft nicht Wissen, sondern Entscheidungsfähigkeit unter Unsicherheit. Genau das trennt einen Chatbot von einem digitalen Mitforscher, der im Labor tatsächlich etwas bewegt.
Quelle: OpenAI
Matrix schlägt Codex und Claude Code im GDPval-Bench
Die meisten sogenannten KI-Firmen sind bislang wenig mehr als hübsch verpackte Prompt-Orchestratoren. Matrix will das ändern und versteht sich als Laufzeitumgebung für ein Unternehmen mit null Mitarbeitern: Statt einzelne Agenten zu bauen und auf Koordination zu hoffen, zieht die Plattform eine echte Betriebsschicht ein. In der geschlossenen Beta entstanden zehntausende dieser Null-Personen-Firmen, jetzt ist Matrix für alle offen. Im GDPval-Bench setzte sich die Plattform mit 95,45 Prozent gegen Codex mit 84,9 und Claude Code mit 80,3 durch. Der Abstand wächst dort, wo Planung und Koordination über lange Aufgaben entscheiden, nicht rohe Modellstärke. Ob das jenseits der Benchmarks trägt, muss sich zeigen.
Musk zieht die 55-Milliarden-Chipfabrik in Tesla ein
Hinter den Gerüchten um eine Fusion von SpaceX und Tesla zeigt ein Blick ins Orgchart, dass beide Konzerne längst als eine Einheit operieren. Im Zentrum steht Terafab, ein 55 Milliarden Dollar schweres Halbleiter-Projekt von Tesla und SpaceX. Führungskräfte tragen Verantwortung über beide Firmen hinweg, Spitzenleute aus Teslas KI-Softwareabteilung sind zu xAI gewechselt. So formt sich ein vertikal integrierter Stack: eigene Chips, eigene Modelle, eigene Rechenkapazität, alles unter einem Dach. Wer die Fertigung seiner KI-Beschleuniger kontrolliert, macht sich unabhängig von Nvidias Lieferzeiten und Margen. Genau dort verschiebt sich die Machtfrage der KI-Ära: weg von der reinen Modellqualität, hin zur Frage, wer das Silizium besitzt.
Quelle: The Information
NotebookLM macht aus Notizen 60-Sekunden-Videos
Google erweitert NotebookLM um vertikale Video Overviews. Wer eigene Notizen, Studienunterlagen oder Links hochlädt, bekommt daraus einen 60 Sekunden langen Hochkant-Clip, der auch komplexe Konzepte visuell aufbricht. Angetrieben wird das Ganze von Nano Banana 2 Lite, Googles neuestem Gemini-Bildmodell. Aus einer Materialsammlung wird damit auf Knopfdruck ein fertiges Erklärvideo, im Format, das in jedem Smartphone-Feed funktioniert. Der Rechercheassistent von gestern wird zum Video-Produzenten, der Wissen nicht mehr nur zusammenfasst, sondern in Bewegtbild übersetzt.
Nano Banana 2 Lite erzeugt Bilder in vier Sekunden
Google DeepMind schiebt eine abgespeckte Variante seines Bildmodells nach. Statt auf maximale Qualität zielt Nano Banana 2 Lite auf Tempo: Text-to-Image in nur vier Sekunden. Gebaut für das schnelle Durchspielen von Ideen und für Workflows, in denen nicht die Bildtiefe, sondern Geschwindigkeit und Kosten die eigentliche Bremse sind. Wer in Serie visualisiert oder Varianten testet, bekommt ein Werkzeug, das im Sekundentakt liefert statt im Minutentakt zu warten.
Figure 03 übernimmt Serienarbeit im BMW-Werk Spartanburg
In Halle 52 des BMW-Werks Spartanburg übernimmt die dritte Generation des Humanoiden echte Logistikarbeit: unsortierte Teile aus Behältern greifen und sequenzgenau in den Just-in-Sequence-Wagen einsortieren. Der Vorgänger Figure 02 lief elf Monate mit und war an über 30.000 gebauten X3 beteiligt. Aus dem Pilotversuch wird Serienrealität. Der Roboter, der gestern noch Bleche einlegte, denkt heute in Fertigungssequenzen.
Proception baut eine Roboterhand mit 22 Freiheitsgraden
Proception hat seine ersten Produkte gelauncht: ProHand 1.0 und ProGlove 1.0. Die Hand hat 22 Freiheitsgrade, davon 18 aktiv angetrieben, inklusive eines Handgelenks mit zwei Freiheitsgraden. Die Finger sind sehnengetrieben mit je vier Gelenken, gesteuert an Bord mit 10 Millisekunden Echtzeit-Reaktion. Jeder Aktuator meldet seinen kompletten Zustand kontinuierlich, fusioniert mit einer Unterarm-IMU. Dazu kommen On-Board-Compute, Client-SDKs und eine integrierte Handgelenk-Kamera. Der Clou: Die Hand trägt selbst den ProGlove 1.0, einen nur 1,3 Millimeter dünnen Textil-Handschuh für latenzarme Sensorik. Genau hier entsteht der Übergang von der starren Industrieklaue zur feinfühligen Manipulation, die Humanoide für echte Arbeit in der Welt brauchen.
Konzerne bringen Claude und Codex Steinzeit-Slang bei
Jedes Token kostet Geld, und wer Claude oder Codex im großen Stil laufen lässt, sieht das auf der Rechnung. Die Lösung eines Open-Source-Projekts namens caveman: Man zwingt die Modelle, Höflichkeiten, Grammatik und Füllwörter wegzulassen und in knappstem Steinzeit-Slang zu antworten. ‘Fix bug now. Code good.’ Weniger Wörter, weniger Tokens, kleinere Rechnung. Kurios daran: Ausgerechnet ein leitender OpenAI-Mitarbeiter hat Code zu dem Projekt beigesteuert. Die teuerste Technologie der Welt wird günstiger, indem man ihr das Sprechen wieder abgewöhnt.
Quelle: 404media
Tool-Empfehlung: CorporateLLM
CorporateLLM ist eine DSGVO-konforme Unternehmens-KI-Plattform, die OpenRouter, Ollama oder jeden OpenAI-kompatiblen Provider in unter einer Minute anbindet und sicher mit dem eigenen Wissen chatten lässt, ab sofort im Free-Plan. Für alle in der KI-Bubble, die lokale Modelle und eigene Daten zusammenbringen wollen, ohne dabei die Kontrolle über sensible Informationen abzugeben, ein naheliegender Werkzeugkasten-Eintrag, mehr Infos: corporatellm.de.







