Anthropics Vorsprung schmilzt: GLM 5.2 schlägt Opus 4.8
Offenes GLM 5.2 schlägt Opus 4.8; Grok 4.5 erreicht Opus-Niveau; SpaceX plant KI-Rechenzentren im Orbit
Anthropics Vorsprung schmilzt: Das frei verfügbare GLM 5.2 schlägt Claude Opus 4.8 in Cybersecurity-Benchmarks, während xAIs Grok 4.5 intern bereits Opus-Niveau erreicht. Parallel verlagert SpaceX die Rechenzentren in die Umlaufbahn und ein Humanoid aus der Nvidia-Schmiede greift nach der Büroarbeit.
Offenes GLM 5.2 schlägt Claude Opus 4.8 in Cyber-Benchmarks
Unter Modellen, die nichts als einen Prompt bekommen, setzt sich das frei verfügbare GLM 5.2 jetzt vor Claude Opus 4.8 in Cybersecurity-Benchmarks. Kein agentisches Gerüst, keine Tool-Krücken, nur das nackte Modell gegen die geschlossene Spitze. Open-Weight-Modelle aus China holen den Vorsprung der Closed-Source-Labs Benchmark für Benchmark ein. Für Unternehmen heißt das: Die Abhängigkeit von einem einzigen Anbieter mit Zugangsschranken wird zur Wahl statt zum Schicksal. Wer kritische Workflows breit aufstellt, gewinnt Resilienz und drückt zugleich die Kosten.
Quelle: Semgrep
Grok 4.5 erreicht intern bereits Opus-Niveau
xAIs nächstes Modell läuft seit Kurzem intern bei SpaceX und Tesla. Grok 4.5 basiert auf dem 1,5-Billionen-Parameter-Fundament V9, ergänzt um Cursor-Daten im Supplemental-Training. Frühe Evaluierungen zeigen eine Leistung dicht an Opus, in Teilen womöglich darüber, und das Reinforcement Learning hebt das Modell mit jeder Runde weiter. Bemerkenswert ist weniger der einzelne Benchmark als das Tempo: Ein Modell, das eben noch hinterherlief, schließt zur absoluten Spitze auf, bevor es überhaupt öffentlich ist.
NVIDIA macht Objekterkennung mit LocateAnything zehnmal schneller
Bisher baut ein Modell jede Bounding-Box Token für Token, 100 Objekte bedeuten Tausende Tokens vor der ersten Antwort. LocateAnything sagt die komplette Box in einem einzigen Vorwärtsdurchlauf voraus, als atomare Einheit. Das Ergebnis: 12,7 Boxen pro Sekunde auf einer H100, zehnmal schneller als Qwen3-VL, dazu 3,8 Prozent mehr Genauigkeit auf LVIS. Mit 3 Milliarden Parametern läuft das Modell auf einer Consumer-GPU und vereint Erkennung, GUI-Grounding, OCR und Dokumente, fertig für Computer-Use-Agenten und Robotik. Komplett Open Source.
BrowserBC verwandelt einen Browser-Mitschnitt in einen Agenten-Skill
Bisher rechnet ein KI-Agent bei jeder Aufgabe die Navigation durch eine Website neu durch, Klick für Klick. Das quelloffene Framework BrowserBC dreht das um: Eine einzige menschliche Browser-Sitzung wird aufgezeichnet und in einen wiederverwendbaren Skill übersetzt, den der Agent danach abspult, statt jedes Mal neu zu denken. Laut Entwicklern steigt die Erfolgsquote deutlich, bei spürbar weniger Schritten und demselben Modell im Hintergrund. Der Hebel liegt nicht im größeren Modell, sondern in der Erfahrung, die man ihm einmal zeigt und tausendfach abrufen lässt.
OpenAI gibt Codex einen stufenlosen Regler für Denkleistung
OpenAI testet für Codex einen Effort-Selector als Schieberegler. Statt fester Modi bestimmt man künftig stufenlos, wie viel Rechenaufwand der Agent in eine Aufgabe steckt, von der schnellen Antwort bis zur maximalen Tiefe bei kniffligen Refactorings. Parallel wird die Echtzeit-Sprachsteuerung komplett neu gebaut, die bisherigen Komponenten sind bereits aus der Oberfläche verschwunden. Der Coding-Agent wird damit dosierbar: Tokens und Wartezeit fallen nur dort an, wo die Aufgabe es wirklich verlangt, statt jede Kleinigkeit mit voller Last zu fahren.
Meta AI bringt Inkognito-Chats auf iOS und baut die Glasses-Seite neu
Die Meta-AI-App für iOS bekommt private Chats, die nichts im Verlauf ablegen. Wer schnell etwas fragt, ohne dass es gespeichert wird, schaltet künftig in den Inkognito-Modus, vergleichbar mit dem privaten Tab im Browser. Parallel wird die Glasses-Seite neu gebaut: Alle zentralen Schalter liegen jetzt als direkte Shortcuts bereit, darunter Live-Übersetzung und der Conversation-Focus für gezieltes Zuhören in lauter Umgebung. Die smarte Brille rückt damit vom Gadget zum Alltagswerkzeug, das man im Vorbeigehen steuert, statt sich durch Menüs zu hangeln.
SpaceX entwirft den ersten orbitalen Rechenzentrums-Satelliten
Das Design des ersten orbitalen Data-Center-Satelliten ist da: AI1, 70 Meter Spannweite, mit riesigen masse-optimierten Kühlpaneelen. Der Strom kommt aus Sonnenenergie, die Kühlung direkt aus dem Vakuum des Weltraums, ohne Wasser und ohne Erd-Stromnetz. AI1 ist erst der Anfang. Berichten zufolge plant SpaceX eine Konstellation von bis zu einer Million KI-Rechensatelliten im Orbit. Gelingt das, entsteht eines der größten KI-Rechennetze, das je die Erde verlassen hat. Die Cloud zieht nach oben.
Autonome Roboter bestücken Chinas Gobi-Wüste mit Solarmodulen
In der Gobi rollen kettengetriebene Installationsroboter über das Gelände und verlegen Photovoltaik-Module vollautomatisch. Sie transportieren die Paneele und setzen sie millimetergenau, ohne menschlichen Eingriff, und verdoppeln so die Arbeitsgeschwindigkeit. Während der Westen über Fachkräftemangel im Solarausbau klagt, skaliert China den Ausbau erneuerbarer Energie über Maschinen, die rund um die Uhr im Sand arbeiten. Genau hier entscheidet sich, wer die Energie-Infrastruktur der nächsten Dekade besitzt.
Die ChatGPT-Protokolle eines Angeklagten landen im Gerichtssaal
Im Prozess um einen der tödlichsten Waldbrände in der Geschichte von Los Angeles griff die Staatsanwaltschaft erstmals tief in einen neuen Beweis-Fundus: die ChatGPT-Verläufe des Angeklagten. Neben Standortdaten vom iPhone, Überwachungsvideos und Zeugenaussagen wurden auch seine Chats mit der KI als Indizien herangezogen. Die Geschworenen ließen sich davon nicht überzeugen, das Verfahren endete im Fehlurteil. Doch der Präzedenzfall steht: Was wir einer KI anvertrauen, ist kein flüchtiges Gespräch, sondern ein protokollierter Datenstrom, der vor Gericht zitierbar wird. Wer KI im Unternehmen einsetzt, sollte begreifen, dass jeder Prompt potenziell aktenfest ist.
Quelle: The Verge
Ein Humanoid aus der Nvidia-Schmiede greift nach der Büroarbeit
Flexion Robotics, gegründet von früheren Nvidia-Ingenieuren, zeigt einen Humanoiden, der echte Büroarbeit erledigt statt nur Demo-Tänze. Der Clou steckt im Training: Statt jede Bewegung mühsam einzuprogrammieren, lernt der Roboter Aufgaben so schnell und übertragbar, dass er als Praktikant durchgeht, der nie müde wird. Wer noch glaubt, Humanoide blieben Spielerei, unterschätzt das Tempo. Der Sprung von der Fabrikhalle ins Büroleben entscheidet mit, welche Aufgaben in zwei Jahren überhaupt noch von Menschen erledigt werden.
Quelle: Wired
Eine Elite-Uni ruft beim KI-Betrug den Notstand aus
An der Brown University spricht der renommierte Ökonom Roberto Serrano von überwältigenden Beweisen für KI-Massenbetrug in einer Prüfung und warnt, die akademische Integrität stehe auf dem Spiel. Eine ernste Diagnose, aber eine unvollständige. Denn was hier kollabiert, ist nicht die Redlichkeit der Studenten, sondern ein Prüfungsformat, das eine Maschine in Sekunden löst. Eine Klausur, die ein Sprachmodell mühelos besteht, misst nicht mehr Verständnis, sondern nur noch Zugang zum Tool. Wer darauf mit Verboten reagiert, verteidigt eine Methode, die ihre Aussagekraft bereits verloren hat.
Quelle: English
Tool-Empfehlung: CorporateLLM
CorporateLLM ist eine DSGVO-konforme Unternehmens-KI-Plattform, die OpenRouter, Ollama oder jeden OpenAI-kompatiblen Provider in unter einer Minute anbindet und sicher mit dem eigenen Wissen chatten lässt, ab sofort im Free-Plan. Für alle in der KI-Bubble, die lokale Modelle und eigene Datenquellen ohne Cloud-Zwang zusammenführen wollen, ein praktischer Werkzeugkasten-Eintrag, mehr Infos: corporatellm.de.










