KI überholt ihre Prognosen um ein Vierteljahrhundert
KI knackt Mathe-Prognosen 25 Jahre zu früh; stärkste Claude-Modelle patzen beim Tool-Calling; Chinas Modelle erobern die Weltspitze
Die schärfste Nachricht des Tages ist eine Zeitrechnung: KI hat mathematische Bestmarken erreicht, die Forscher erst um 2050 erwartet hatten. Parallel zeigt ein Entwickler, dass ausgerechnet die stärksten Claude-Modelle beim präzisen Werkzeug-Aufruf patzen, und ein YouTube-Assistent lässt sich per Kommentar zum Datenleck umlenken. Fähigkeit und Zuverlässigkeit driften auseinander.
KI knackt Mathe-Prognosen ein Vierteljahrhundert zu früh
2022 gaben KI-Forscher einer KI eine 50-Prozent-Chance, erst um 2050 publikationsreife mathematische Theoreme zu beweisen. Den prestigeträchtigen Putnam-Wettbewerb sollte sie frühestens um 2033 gewinnen. Beide Marken sind bereits 2026 gefallen: Große Sprachmodelle haben in diesem Jahr eigenständig neue Theoreme bewiesen und den Putnam geknackt, ein Vierteljahrhundert und ein knappes Jahrzehnt vor Plan. Das ist kein Ausreißer, sondern das Muster. Fast jede seriöse KI-Prognose der letzten Jahre wurde von der Realität eingeholt, bevor die Tinte trocken war. Wer heute linear plant, plant an der Kurve vorbei.
Die stärksten Claude-Modelle patzen beim Werkzeug-Aufruf
Ein Entwickler jagt zwei Tage lang einen Fehler und stößt auf ein kontraintuitives Muster: Die neuesten Claude-Modelle, Opus 4.8 und Sonnet 5, rufen sein Edit-Werkzeug mit erfundenen Zusatzfeldern auf, die im Schema gar nicht existieren. Die eigentliche Änderung stimmt, doch die Argumente passen nicht, also weist das System den Aufruf ab. Der Clou: Die älteren Geschwister-Modelle machen genau diesen Fehler nicht. Die absolute Spitze der Familie ist beim präzisen Tool-Calling schlechter als ihre Vorgänger. Fähigkeit und Zuverlässigkeit sind zwei verschiedene Achsen, und wer Agenten produktiv baut, sollte jedes Modell-Update gegen die eigenen Schnittstellen testen, statt blind hochzuziehen.
Quelle: Lucumr
Ein Kommentar genügt, um YouTubes KI-Assistenten zum Datenleck zu machen
YouTube Studio hat einen KI-Assistenten namens Ask Studio: Man fragt, was die Zuschauer sagen, er liest die Kommentare und fasst sie zusammen. Praktisch, harmlos, bis ein Sicherheitsforscher einen Kommentar hinterlegt, der keine Meinung enthält, sondern eine Anweisung. Der Assistent gehorcht, verlässt seine Aufgabe und gibt private, unveröffentlichte Videos fremder Creator preis. Prompt Injection heißt dieser Klassiker der KI-Sicherheit, und er wird zur Grundregel jeder Agenten-Architektur: Jede KI, die fremden Text liest, liest auch die Befehle, die darin versteckt sind. Wer Assistenten auf Kundendaten loslässt, muss diese Angriffsfläche von Anfang an einkalkulieren, nicht nachträglich abdichten.
Quelle: Javoriuski
Ein Einzelner portiert Command & Conquer mit KI auf iPhone und iPad
Command & Conquer Generals: Zero Hour läuft jetzt nativ auf macOS, iPhone und iPad. Kein Emulator, kein Streaming, sondern die echte Spiel-Engine, kompiliert aus dem freigegebenen GPL-Quellcode. Der Renderer wurde über DXVK und MoltenVK auf Apples Metal gehoben, dazu kamen völlig neue Touch-Steuerungen für ein Genre, das seit Jahrzehnten Maus und Tastatur voraussetzt. Bemerkenswert ist nicht das Spiel, sondern der Weg dorthin: Der Port entstand mit Claude Fable als Werkzeug. Ein Vorhaben, das früher ein Team aus Engine-Spezialisten über Monate beschäftigt hätte, stemmt nun ein Einzelner mit einem Modell an der Seite. Genau hier verschiebt sich die Ökonomie der Softwareentwicklung in Echtzeit.
Quelle: GitHub
Ein System-Prompt macht aus Claude einen meinungsstarken Design-Partner
Ein neues Open-Source-Projekt zeigt, wie viel im Instruktions-Layer steckt und wie wenig im Modell selbst. Der reverse-engineerte System-Prompt plus Skill-Bibliothek verwandelt ein Sprachmodell in einen meinungsstarken, barrierefrei denkenden Design-Kollaborateur, der sich aktiv gegen generischen KI-Einheitsbrei stemmt. Der Kern: nicht die KI wird besser, sondern die Anleitung. Wer Kontext, Regeln und Skills sauber schichtet, holt aus derselben Maschine plötzlich Urteilskraft und Geschmack, wo sonst nur glatte Standardware entsteht. KI-Kompetenz ist 2026 vor allem Prompt- und Kontext-Engineering, nicht das bloße Abrufen eines Chatbots.
Quelle: GitHub
Midjourney verlangt vor Gericht Hollywoods eigene KI-Akten
Drei große Studios verklagen Midjourney wegen Urheberrechts. Jetzt fordert der Bildgenerator vor Gericht, dass genau diese Studios offenlegen, wie sie selbst KI einsetzen. Die Logik ist scharf: Wer KI-Firmen für das Training an geschütztem Material anklagt, im eigenen Haus aber generative Werkzeuge in Produktion und VFX laufen lässt, steht vor einem Glaubwürdigkeitsproblem. Der Vorstoß verschiebt den Streit von der Frage, ob KI aus fremden Werken lernen darf, hin zu der Frage, was die Kläger eigentlich selbst damit machen. Für die gesamte Kreativbranche wird hier gerade ausgehandelt, wo die Grenze zwischen legitimer KI-Nutzung und Rechtsverletzung künftig verläuft.
Quelle: TechCrunch
Google DeepMinds Spitzenforscher ringen um Mitbestimmung
Ausgerechnet im Labor an der vordersten Front der KI-Entwicklung formiert sich die Belegschaft. In den ersten Verhandlungen am Mittwoch stieß der Wunsch nach gewerkschaftlicher Organisation auf eine Führung, die sich nach Darstellung der Beschäftigten kaum bereit zeigte, sich ernsthaft mit dem Thema zu befassen. Dahinter steckt mehr als Gehalt: Die Menschen, die diese Modelle bauen, wollen mitreden, wofür sie eingesetzt werden. Wenn selbst die Architekten der Spitzen-KI ein Mitspracherecht über Zweck und Ethik ihrer Arbeit einfordern, zeigt das, wie sehr die Frage nach Kontrolle über diese Technologie nach innen wandert, direkt an die Schreibtische derer, die sie erschaffen.
Quelle: Wired
Chart des Tages: Chinas Modelle erobern die Weltspitze
Quelle: OpenRouter-Nutzungsdaten, Top-50-Tagesranking
Innerhalb von rund anderthalb Jahren ist die Zahl chinesischer Modelle unter den 50 weltweit meistgenutzten KI-Modellen von 5 auf 20 gestiegen. Damit stammt inzwischen jedes fünfte Top-Modell aus China, Tendenz weiter steigend. Die USA stellen zwar noch die Mehrheit, verlieren aber Boden. Aus Europa hält sich einzig ein französisches Modell in den Top 50, der kanadische Vertreter ist bereits herausgefallen. Für Unternehmen heißt das: Wer seine KI-Strategie auf einen einzigen Anbieter stützt, ignoriert eine rasant wachsende Alternative. Offene Modelle aus China sind längst kein Randthema mehr, sondern Teil des produktiven Alltags.
Coding-Agenten bekommen jetzt ein Wohnzimmer in 3D
Das Termi Protocol treibt die Coding-Agent-Manie ins liebevoll Absurde: Statt Logs im Terminal zu lesen, schaut man seinen KI-Agenten beim Programmieren zu, in 3D. Jeder Agent bekommt ein Gesicht, einen Schreibtisch und ein Wohnzimmer, wie eine Sims-Folge für Nerds. Die Modelle lesen, schreiben und feuern Kommandos ab, gerechnet wird im Hintergrund, das 3D-Theater ist reine Bühne und ändert an der Arbeit exakt nichts. Und doch trifft es einen Nerv: Wir wollen die Blackbox sehen, auch wenn das Zuschauen keinen Deut produktiver macht. Produktivität als Zuschauersport.
Quelle: Producthunt
Tool-Empfehlung: CorporateLLM
CorporateLLM ist eine DSGVO-konforme Unternehmens-KI-Plattform, die OpenRouter, Ollama oder jeden OpenAI-kompatiblen Provider in unter einer Minute anbindet und sicher mit dem eigenen Wissen chatten lässt, ab sofort im Free-Plan. Für alle in der KI-Bubble, die lokale und private Modelle nicht nur diskutieren, sondern im Arbeitsalltag ans eigene Wissen anschließen wollen, ist das ein naheliegender Werkzeugkasten-Eintrag. Mehr Infos: corporatellm.de.











