G33ky-Sozialzeugs

G33ky-Sozialzeugs

Sehr schöner ChatGPT Takedown an einem sehr simplen aber extrem lustigen Beispiel https://mindmatters.ai/2025/08/chatgpt-5-tries-out-rotated-tic-tac-toe-you-be-the-judge/

@343max Ja das ist hübsch. Funktioniert aber nicht mehr mit ChatGPt 5.2

@rstockm Well.

@rstockm Abgesehen davon, dass ich so eine „aber dieses 0.0.1 Update ändert alles“ Argumentstion sehr dünn finde. ChatGPT 5.2 ist kaum mehr als ein marketing Update über 5.0, es ändert nichts daran wie diese Modelle funktionieren und ändern somit auch nichts an der fundamentalen Kritik selbst wenn die neue Version bei dem konkreten Beispiel vielleicht marginal besser abschneidet.

@343max Welche Version ist das?

@343max Na ja, es ist aber halt andersrum: dieses „Beispiel" funktioniert bei exakt KEINEM der aktuellen Flagship-Modelle. Getestet: Mistral (lokal!), Gemini 3 Pro, ChatGPT 5.2, Claude Sonnet 4.5.
Keines fällt darauf rein, die Antwort von Gemini mal als hübsches Beispiel.
Und so läuft das seit 2 Jahren:

10 „haha, schaut was die GPTs alles nicht können"
20 ich setze mich 1 Minute dran und exakt das funktioniert in allen neuen Modellen
30 goto 10

🤷🏻‍♂️

@343max Und es gibt gute Gründe, viel auf Altman einzuprügeln, aber sein Argument finde ich so unschlüsig nicht, ich spitze mal zu:
"hätten wir vor 5 Jahren einer Definition von AGI zugestimmt: der Computer darf nicht _mehr_ Fehler machen bei Wissen, Kommunikation und Strategie als ein(e) durschnittliche Erdenbürger:in mit IQ von genau 100“.
Ich zumindest hätte da wohlwollend genickt. Das Problem ist, dass AGI ständig mit ASI verwechselt wird. AGI muss perfekt sein, Menschen aber nicht?

@rstockm Aber ich habe dir doch eben einen Screenshot geschickt wie das aktuelle ChatGPT genau darauf reinfällt.

Für mich ist es exakt andersrum wie du beschreibst. Seit Jahren:

10 du und andere AI believer: “ja, noch vor ein paar Wochen war das Modell noch strunzdumm, aber heute können sie exakt dieses eine Beispiel lösen, darum sind sie perfekt”
20 jemand findet ein neues Beispiel wie ein "Flagship-Model" haarstäubend dumme weise auf die Fresse fällt… (1/2)

30 die AI Firmen bringen neue Modelle raus die auf exakt diesen Fall nicht mehr reinfallen
40 goto 10

le sigh

Wir haben exakt die selbe Diskussion schon diverse Male geführt. Was bringt dich auf die Idee das ChatGPT 5.2.4 Code Red Edition dieses mal aber wirklich all die Versprechen einlöst, die all die anderen Versionen nicht einlösen konnten? (2/2)

@343max Ich rede nicht von ChatGPT sondern generell von den rechts unten Modellen, auch der anderen Hersteller. Bei deinen Screenshot kann ich nicht sehen, welches das ist. Das mit Abstand beste Besispiel das du bisher hattest war das Zahlenraten-Spiel, weil es so hübsch die Schwäche von LLM (will alles könne) mit den Limitierungen (unfähig, eigene Grenzen zu erkennen) exploited hat. 1/2

@343max Aber auch dort habe ich in 20 Minuten einen Weg gefunden (dank KI) um dieses Spiel auf beliebigen LLMs zu 100% perfect „ready to ship“ laufen zu lassen.
Und darum geht es mir: mir gehen wirklich die Szenarien aus, wo LLMs mit etwas Tuning, RAG Modellen etc. _nicht_ zu "ready to ship" zu bringen sind. Da ist mir dann AGI ziemlich egal.
Gemini 3 Pro kann meine Handschrift lesen, und zwar perfekt. das schaffen 99% der Menschen um mich herum nicht - was für eine Basis für Automatisierung!

@rstockm Hätten wir vor 5 Jahren wirklich gesagt, dass wir AGI erreicht haben wenn die Computer schlechter sind als “nur” 50% der Menschheit? Irgendwie erscheint mir das abwegig. (1/3)

Ich würde vermuten, dass die Definition “Artificial general intelligence (AGI)—sometimes called human‑level AI—is a hypothetical type of artificial intelligence that would match or surpass human capabilities across virtually all cognitive tasks.” die ich eben aus der Wikipedia kopiert habe auch schon damals die allgemein akzeptierte war. (2/3)

Außerdem wird für AGI zwingend Lernfähigkeit vorausgesetzt, was einfach keine LLM hat. Selbst wenn LLMs (big wenn) an die Intelligenz eines durchschnittlichen Menschen herankommen würde und selbst wenn (noch ein big wenn) das angeblich mal die definition für AGI war ist eine LLM nicht lernfähig. (3/3)

@rstockm Das Beispiel mit dem Zahlenratespiel gilt exakt so noch heute. Das eine LLM so ein Zahlenratespiel in Software gießen kann war nicht die Aufgabe, das ist trivial für eine LLM weil es dafür Millionen Codebeispiele gibt. “Ja, es kann das nicht aber dafür kann es was anderes” ist keine Lösung des Originalproblems.

@343max Ich würde sagen das ist falsch aus drei Gründen:
a) LLMs lernen derzeit stündlich, nur aufgrund der einzusetzenden Ressourcen zentralisiert (neue Versionen). Ich halte es für realistisch, dass wir in 5 bis max. 10 Jahren lokal eigene LLMs trainieren (anlernen) können.
b) LORAs sind schon jetzt de fakto „Anlernenungen“ von LLM (innerhalb bestimmter Grenzen, ja)
c) wenn das Kontext-Fenster nur groß genug ist/wird (siehe Ressourcen) kann ein „Lernchat" problemlos mitlaufen

@343max Oh das war ohne Software, nur über einen Prompt.

@343max Bitte schön:

@rstockm Und hier ist ein simples Beispiel für ein Szenario, nämlich das Posterchild für LLMs überhaupt: eigenständig Software schreiben, ohne dass die ganze Zeit jemand danebensitzt und der AI das Händchen hält. Warum geht das nicht von dem die AI Firmen behaupten es würde gegen?

@rstockm Exakt. Du lässt die AI ein anderes Problem lösen als das was ich ihr gegeben hatte. Was ist damit bewiesen außer das es andere Probleme möglicherweise lösen kann. (Ich bezweifle übrigens nach wie vor, dass dein Beispiel besser funktioniert als meins, du hast es einfach nur viel komplexer gemacht, was es mühseliger macht die Schwächen zu finden. Abgesehen davon, dass es ein komplett anderer Prompt ist)

@rstockm a) ist nicht lernen sondern jemand sitzt da und baut ein neues Modell. Das macht keine LLM der Welt allein, da sitzen Menschen dran die das aktiv trainieren
b) lernen ist nicht “jemand kippt Informationen rein”. Da wird nichts gelernt, da werden neue Informationen reingekippt… (1/2)

c) aber das Kontext-Fenster ist halt nach wie vor winzig wie jeder der schon mal eine Claude Code Session zu lange hat laufen lassen leicht bestätigen kann und da es meines Wissens nichts fundamental neues zu Context Window Größen gibt bezweifle ich auch, dass sich daran was nennenswert ändern wird. Abgesehen davon, dass mehr Informationen im “Kurzzeitgedächtnis” halten nicht lernen ist. (2/2)

@343max Das ist mir als Produktmanager aber doch völlig egal. Es ist "ready to ship“, das zählt. Und es kann ja ausprobiert werden - funktioniert wunderbar und 100% zuverlässig.

@343max Kontext Fenster ist winzig - nun ja schauen wir doch mal:

@rstockm Aber MIR ist es nicht egal. MIR ist es schon wichtig, dass eine AI ein sehr einfaches Problem das jeder Mensch problemlos lösen kann von dem die AI behauptet es lösen zu können dann auch lösen kann. Ich habe dieses Beispiel gewählt, weil es sehr anschaulich macht, wie die AI es einfach per Design nicht kann.

@rstockm Du sagt “aber es kann ein komplett anderes Problem lösen und das reicht mir”. Okay. Aber stimmst du mir zu, dass es das eigentliche von mir beschriebene Problem nach wie vor nicht lösen kann?

@rstockm Das sind pure Marketingzahlen die nichts mit der Realität zu tun haben. Du weisst genauso gut wie ich, dass jede LLM lange vor Füllen des Context Windows merklich dümmer und vergesslicher wird. Warum sonst wohl sollte in deiner Tabelle das Context Window von Gemini 3 Prodeutlich kleiner sein als das von Gemini 1.5 pro Update?

@rstockm @343max ich fürchte, dass wir da sowohl an semantische als auch ein menschliche Probleme stoßen: jeder lädt die Begriffe Intelligenz und lernen mit dem auf, was er sich gerade darunter vorstellt.

Und dadurch diskutiert jeder in seiner eigenen Welt. Ihr habt ja beide nachvollziehbare Punkte, wenn man sie nur aus eurer Perspektive heraus betrachtet.
1/2

@343max Ich glaube in der Sache sind wir gar nicht weit auseinander, wir haben nur sehr unterschiedliche Perspektiven auf die Grundfrage. These:
1)
Ralf: zentral ist, dass ein Problem verlässlich mit LLM gelöst werden kann. Egal wie der Weg ist.
Max: zentral ist: dass auch der komplette Weg vom LLM perfekt gegangen wird ohne Begleitung
2)
Ralf: nutzt ausschließlich die besten für Geld verfügbaren Modelle, ignoriert den Rest
Max: nutzt was gerade da ist, auch die freien Versionen

@rstockm Ich sage „der Roboter kann nicht malen, hier ein prompt der Belegt das er nicht malen kann“. Dann kommst du an und sagst: aber hier kann ich einen anderen Prompt schreiben mit dem er eine schlechte Kamera baut, damit kann man Fotos machen, das reicht mir. Sind wir uns einig, dass das eine nichts mit dem anderen zu tun hat?

@rstockm @343max
„ verlässlich“ ist ein gefährlicher Begriff. Verlässlich ist bei der Technologie nämlich sehr wenig.

Häufig kommt etwas raus, dass dement spricht, was man sich erhoffen würde, aber eben nicht immer und nicht vorhersehbar. Und genau das ist das Problem, weil das falsche genauso korrekt aussieht, wie das richtige.

Das macht diese Technologie so schwer einsetzbar

@343max Ich sehe in meiner Coding Realität, dass Kontext seit ca. Sommer in der Cursor-IDE kein reales Problem mehr ist. Ich habe dort den kompletten Ultraschall-Code drin, und da ist mal wirklich VIEL Spagetti-Code dabei. Ein aktuelles Modell wie Composer 1 oder Gemini 3 Pro steigt da gut durch, besser als jeder von uns Kern-DEVs.

@OmniJan @343max Wenn man weiß was man tut ist es problemlos möglich, LLMs verifizierbar „verlässlich" im vielen (nicht allen!) produktiven Kontexten einzusetzen. Ich habe für ein Hobby-Projekt 2 Schichten LLM mit einem RAG gekoppelt und das Ergebnis ist gleichermaßen erstaunlich wie perfekt. Man muss aber halt MACHEN und ausprobieren und lernen (sic).

@343max 2) würde ich hier nicht unterschätzen. Das fällt für mich in den Bereich „die Zukunft ist schon längst da, sie ist nur sehr ungleich verteilt“ (William Gibson)

@rstockm Welche halbwegs komplexen Probleme können LLMs denn verlässlich (also: selbständig ohne Kontrolle in sagen wir mal 99,9% der Fälle korrekt) lösen? (1/2)

Nach meiner Erfahrung ist das einzige was an LLMs verlässlich ist ihre extreme Unzuverlässigkeit. Selbst simpelste Aufgaben wie “mach mir aus dieser kleinen CSV Datei eine SQLite Datenbank" sind die Daten nach dem Konvertieren verändert. Der einzige Weg eine LLMs halbwegs zuverlässig zu bekommen ist sie Tools schreiben zu lassen, die dann die Aufgabe erfüllt. (2/2)

@rstockm @343max es funktioniert aber ausschließlich in Kontexten, die man selber absolut beherrscht und bei denen man erkennt, wo das System bricht.

Ich benutze es selbst regelmäßig in meinem Arbeitsumfeld. Und aus gutem Grund nutze ich es ausschließlich dann, wenn ich es selber schon weiß und nur etwas Zeit sparen möchte.

Es wird dann gefährlich, wenn irgendjemand, der den Kontext nicht ohnehin schon zu 100 % beherrscht denkt, dass es schon richtig sein wird

@343max Frisch auf der Arbeit getestet: die Überführung eines 3 x 2 Meter Whiteboards, gefüllt mit etwa 100 Post-IT Zetteln geschrieben von 8 verschiedenen Personen.
Ein normales iPhone-Bild davon überführt die LLM in eine Markdown-Datei und clustert dann noch sinnvoll. Ich hätte das bis vor 1 Monat für technisch völlig unmöglich gehalten, Gemini 3 Pro macht das tiefenentspannt. Das ist ein totaler Game-Changer für unsere Strategiearbeit.
Rückwärts geht auch: Whiteboard aus 5-Seiten PDF

@343max Das ist die nächste eingebrochene Mauer: "LLMs können keine Schrift - weder lesen, noch zeichnen“.

@rstockm Nicht mal OpenAI behauptet in ihrem Upsell-Material, das die Modelle plötzlich besser werden, sobald man für ChatGPT bezahlt.

@rstockm Wer hat wann gesagt das AI keine Schrifterkennung kann? Nach meinem Wissen ist die Erkennnung von Handschrift eines der ersten Probleme überhaupt das sehr erfolgreich mit AI gelöst wurde. Ich habe mal so 2017 ein AI Tutorial gemacht, das ging um die Erkenunng von ZIP Code und eine AI auf einem Laptop auf eine 99,99% Treffsicherheit bei der Erkennung von ZIP Codes zu trainieren war schon damals ein simples Anfängerproblem.

@rstockm @343max weil es ein ähnlicher use-case ist: als PM Kunden/Stakeholder Interview transkribieren (1) und (2) Inhalte / Follow-ups zusammenfassen & strukturieren zu lassen. Geht innerhalb von Sekunden, vorher 1:1 Nachbereitungsaufwand. Allerdings braucht es hier auch keine 99.9%, weil ich dabei war und ggf. Ergänzen kann.

@rstockm Und: was soll ich mit diesem Bild? Ich weiß nicht was auf den Post Its stand. Ich weiß nicht, welche Themen ihr da wirklich aufgeschrieben habt. Ich kann nicht prüfen, welche Themen die AI vergessen hat. Ich kann nicht prüfen, was sie dazu erfunden hat. Ich sehe eine Tafel im typischen AI generierten 0815 Look mit für mich sehr generischen Inhalten.

Was mir auffällt: Befähigung schreibt man mit “ä" und nicht mit einem a mit Häkchen drüber.

@343max Spezialisierte AI vielleicht - aber ich kann mit Sicherheit sagen, dass kein LLM vor Gemini 3 Pro in der Lage war, meine Handschrift auch nur zu 30% exakt zu erkennen.

@rstockm @343max Wollt ihr euch nicht mal zu einem Podcast zusammensetzen?

@rstockm Und was ist denn das Problem das es zuverlässig lösen kann? Du meinst, das es Post Its zuverlässig in Text umsetzen kann?

@343max Das ist nicht von dem Whiteboard sondern aus meinem 5-Seiten Strategie-PDF Fließtext generiert. Und das muss du mir jetzt halt mal glauben: das ist schlicht perfekt. Absolut nichts hinzu erfunden. Alles Relevante berücksichtigt. Da hätte ich sonst jemanden ca. 3h dran gesetzt.

@lbenedix @343max been there, done that 🙃
Das ist hier auch gerade eher so ein - Ritual.

@343max Max, es sind 2 verschiedene use-Cases die ich beschrieben habe.

1) Nachbereitung eines typischen Strategie-Workshops - Entwicklung eines Strategiepapers aus einem Brainstorming-Termin. Machen wir täglich.
2) Visualisierung einer Strategie, die bisher nur als Text vorliegt.

Beides für uns von extremen Wert, und es ist ok wenn so was in _deiner_ Welt keine Rolle spielt aber: für weite Teile des mittleren Managements weltweit ist das ein Gamechanger.

@343max @rstockm mein Supernote Tablet aus 2021 kann Handschriften extrem gut erkennen und das auch ohne Internetverbindung. 🤷

@rstockm @343max Wenn auch 99% deine Mitmenschen, wie du schreibst, daran scheitern, liegt das vielleicht nicht nur an den vorherigen LLMs. ;)

@rstockm Und wie hast du sichergestellt, dass das tatsächlich dem entspricht was ihr entschieden habt? Wie stellst du sicher, dass da kein Post It vergessen wurde? Wie stellst du sicher, dass die Visualisierung dem entspricht was ihr entschieden habt? Es genau ist die Aufgabe die die AI hier so toll und zuverlässig gelöst hat?

@rstockm @lbenedix Ja, ist es. Es ist eine müßige Diskussion. „Welche Probleme kann eine LLM denn zuverlässig lösen?“ „Voll viele!“ „Konkrete Beispiele bitte“ „hier ein Screenshot von einem AI-Slop-Bild das die AI generiert hat“

@lbenedix @rstockm Das ist auch müßig, weil Ralf dem eigentlichen Thema immer wieder ausweicht. Hier: ChatGPT 5.0 produziert plausibel klingenden Quatsch und fällt dabei wunderschön auf die Fresse. Damit setzt er sich nicht auseinander sondern produziert nur einen Strohmann nach dem anderen. (1/2)

Die prinzipiellen Schwächen dieser Systeme ignoriert er oder erzählt mir das wenn ich nur wohlhabender wäre und 200€/Monat Abos hätte alles total toll wäre (kann ich halt nicht überprüfen und scheint mir auch nicht glaubhaft) (2/2)

@343max @rstockm AI sind nunmal keine Menschen. Das behauptet auch niemand. Sie haben andere Stärken und Schwächen als Menschen. Aber sie arbeiten mittlerweile auf sehr ähnlichem Niveau.

@343max Das Schöne ist ja, dass es Forschung gibt und die ist bisher ziemlich eindeutig. Man fühlt sich als Softwareentwickler mit LLM-"Unterstützung " deutlich produktiver als man tatsächlich ist.

https://metr.org/

@343max Du musst ja auch gar nicht „glauben“ sondern ich sage halt „wirf mal rüber, dann sehen wir was Stand der Technik ist“.
Ich bin doch der, der durch die Gehend läuft und sagt „wie kostenlosen Modelle sind Mist und nicht geeignet, die Grenzen von LLMs zu diskutieren“.
Für eigene Experimente empfehle ich immer https://openrouter.ai da braucht es keine 200 sondern vielleicht 5€ im Monat und man weiß was Phase ist.

@lbenedix @343max Sehr schöne Seite, danke dafür. Direkt eine Studie darüber aber so:

@rstockm @343max Vorhersagen darüber, was in 10 Jahren ist, sind in der AI Welt bestimmt zuverlässig.

@lbenedix @343max Genau darum extra poliert diese Studie ja den Trend der letzten zehn Jahre. Aber klar, aus einem uns leider noch nicht bekannten Grund ist genau jetzt der Zeitpunkt erreicht, wo dieses exponentielle Wachstum schlagartig stoppen wird.

@rstockm @343max 2020 ist nicht ganz 10 Jahre her. Und ja, ich habe das Gefühl, dass es in den letzten 1-2 Jahren eher eine Stagnation gibt

@rstockm @343max die "50% success rate" ist jetzt nicht unbedingt gut, oder?

@lbenedix @343max Also zumindest um den nächsten Datenpunkt mache ich mir keine Sorgen – Claude Sonet 4.5 ist dramatisch besser als hier das letzte 3.7

@rstockm @343max "current models have almost 100% success rate on tasks taking humans less than 4 minutes, but succeed <10% of the time on tasks taking more than around 4 hours"

Einen 3h-Task würde ich eher keinem LLM geben.

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

@rstockm @343max Bisher hat mich noch kein LLM für die Softwareentwicklung überzeugt. Ja, die kotzen schnell einen Prototypen raus, aber sobald die echte Welt damit in Verbindung kommt, explodiert alles.

Für kleine Nischenprobleme kann es vielleicht was taugen, aber da sind spezielle Lösungen sicher besser als LLMs.

@lbenedix @343max Tja, so unterschiedlich sind die Einschätzung. Ich habe in 2025 sechs Projekte publiziert, keines von denen hätte ich ohne LLM auch nur begonnen.

@rstockm @343max Kommt sicher immer auf die Komplexität des Projektes an. Kannst du die Projekte verlinken?

@lbenedix @343max Alles hier aus den letzten 2 Jahren dazu zwei nicht öffentliche die noch komplexer sind:

https://github.com/rstockm?tab=repositories

Es kommt halt auch darauf an ob man die LLMs beim Coden als Gegner sieht den man aufs Kreuz legen möchte oder als endlos geduldig motivierten Junior DEV den man ins eigene Projekt einarbeitet.

@rstockm @343max ich sehe das LLM als Junior-Dev, der leider sehr überzeugt davon ist, dass er die Weisheit mit Löffeln gefressen hat.

Würde bei mir nicht durch die Probezeit kommen.

@rstockm @lbenedix Ein junior Dev den man ins eigene Projekt einarbeitet lernt dazu, eine LLM nicht. Wo ist denn in diesen ganzen Projekten mal ein gutes dabei, wo du ein größeres Feature geoneshottet hast? Hast du ein Beispiel für einen Prompt, der mir ein größeres Feature baut?

@343max @rstockm Bei der Beurteilung, ob ein LLM gute Arbeit macht, spielen viele psychologische Verzerrungen mit. Es fängt schon damit an, dass man selbst etwas tut, also einen Prompt formuliert und dann passiert etwas. Das ist natürlich toll.

Aber ja, es gibt glaub ich kein erfolgreiches Open Source Projekt, bei dem der überwiegende Anteil der Contributions von LLMs kommt. Oder?

@lbenedix @343max Schön, dass ihr euch einig seid, dass meine Apps alle unterkomplex sind. Was ich sagen kann:
1) ich habe keine Zeile davon selbst geschrieben
2) keines der Projekte hätte ich angefangen ohne LLMs (ich kann kein JavaScript)
3) die Oneshot Quote ist mit den Monaten kontinuierlich gestiegen, bei Testabend fast alles bis auf mobil CSS
4) Einigen der Tools würde ich doch gesellschaftlichen Nutzen zuschreiben wie Mastowall, Mastotags oder Fedipol.

@343max @lbenedix Wenn ich mit der LLM in einer IDE wie Cursor die Spielregeln aushandle, wird sich auch daran gehalten. Das würde ich durchaus als „Lernen“ bezeichnen. Cursor schreibt diese Projektregeln auch in eine separate Markdown-Datei die beständig aktualisiert wird.

@rstockm @lbenedix Das würde ich "sich an die Regeln halten" nennen. Lernen ist neue Fähigkeiten erlangen. Das tut es nicht.

@343max @rstockm Ich kann überhaupt nichts zur Diskussion beitragen, finde sie aber sehr spannend. Vertieft das Gespräch doch mal in einem Podcast ☺️

@rstockm @lbenedix Na dann nenne doch mal ein konkretes Beispiel. “In Projekt X hat die LLM mit folgendem Prompt folgendes komplexeres Feature eingebaut…” Was soll ich denn so damit anfangen?

@343max @rstockm @lbenedix Aber bei komplexen Projekten arbeitet man doch nicht mit dem EINEN prompt. Man führt eine Unterhaltung mit dem LLM, beschreibt seine Ideen, das LLM fragt nach, schreibt die Specs auf , macht Designvorschlaege etc. und am Ende schreibt es auch noch den Code. Das ist durchaus ein iterativer Prozess. Das funktioniert nach meiner Erfahrung ziemlich gut. In diesem Prozess muss das LLM aber nichts Neues lernen. Nur vorhandenes "Wissen" über Software richtig anwenden. Und das können die Dinger ziemlich gut.

@maxheadroom @343max @lbenedix Ich habe mal etwas gekramt in der Historie des „Testabend" Projektes, das hier wäre ein Beispiel:

„Ok ich möchte einen neuen Featurebereich starten, und zwar einen integrierten LLM Chatbot. Erstelle dazu zunächst im Header einen neuen Eintrag "Testteam" und eine Seite, auf der eine gängige Chat-GUI zu sehen ist. Im nächsten Schritt binden wir meine OpenRouter Instanz an.“
1/2

@maxheadroom @343max @lbenedix Das Ergebnis war eine perfekte Chat-GUI, in der Navigation der App reingehängt und bereits das Framework für OpenRouter integriert, ich musste nur noch das Remote-LLM aus Vorschlägen auswählen und meinen API Key hinterlegen.
1 Tag Arbeit in 40 Sekunden, Oneshot.
So geht das dann Feature um Feature.
2/2

@maxheadroom @343max @lbenedix Das ist der Code:

https://github.com/rstockm/testabend/blob/main/public/js/chat.js

Da habe ich dann später das RAG Modell des Projektes angebunden sowie einen umfangreichen Meta-Prompt, destilliert aus der KI-Analyse eines 1h Audio Interviews mit einem Prof.

@maxheadroom @rstockm @lbenedix Ja, so nutze ich coding Assistants. So wie ich diese Tools nutze haue ich einen Prompt rein, schaue mir ein paar Sekunden oder Minuten später das Ergebnis an, werfe es weg, fixe es oder akzeptiere es.

Aber in diesem Strang ging es ja genau darum wie Ralf verlässlich Probleme von einer AI lösen lässt, also sie Code schreibt, Tests schreibt, Bugs fixt etc ohne das man ihr dabei ständig die Hand halten und neue Anweisungen geben muss.

@343max @lbenedix Das hier nehme ich häufig, wenn ich Leute verstören will:

„Programmiere eine Werbanwendung, wo ich auf einem Canvas farbige Zettel posten kann. Die Zettel sollen sich verschieben lassen, einen Titel haben und Text - alles soll editierbar sein. Über einen Selektor kann man die Farbe des Zettels wechseln, die Schrift soll sich in der Helligkeit dem Hintergrund anpassen für genug Kontrast.
1/2

@343max @lbenedix „Den Canvas möchte ich mit der Maus auch selbst verschieben können. Öffne die App im Browser-Tab deiner IDE, suche nach Fehlern auf der Konsole. Melde dich erst wieder, wenn du fertig bist.“

Das funktioniert immer, Ergebnis ist eine JS Webapp (das ist bei mir das vorgegebene Meta-Framework) die alle gewünschten Features drin hat und auf einem lokalen Python Server läuft.
2/2

@rstockm @343max @lbenedix Naja, klingt nett, ich bin z.B kein JS Web-Entwickler und bräuchte vermutlich Stunden allein für die Recherche. Ist aber andererseits wieder so ein typischer Fall: Nice to have, aber auch nichts großartiges. Und vorallem wer hat solche Aufgabenstellungen im Alltag. Mir würde es reichen, wenn ein LLM Daten aus einer Quelle in eine DB schieben kann (von Text,CSV etc. nach SQL). Da scheitern regelmäßig alle Modelle. Daten werden verkürzt oder verändert, das ist ein No Go.

@crash_override @343max @lbenedix Aber warum sollte das eine LLM machen. Dafür sagt man der LLM „schreib ein Python Script" und das läuft dann reproduzierbar und perfekt.
"wenn ich nur einen Hammer in der Hand halte, sieht jedes Problem wie ein Nagel aus“.

@rstockm @343max Ach Jungs, vielleicht solltet ihr mal wieder eine gemeinsame @freakshow machen... 😂

@rstockm @lbenedix Ich habe das jetzt in Cursor ausgegeben, weil ich mal vermute, dass das die IDE ist die du meinst. Es startet einen Server der dann Seite ausliefert in der man Notizen hin und her ziehen kann. Die Schriftfarbe wird nur angepasst wenn man die Farbe ändert, nicht wenn man eine neue Notiz anlegt, das Canvas hat einen unsichtbaren Rahmen über den man Notizen nicht hinausziehen kann, der Code ist eher abenteuerlich. (1/2)

Den Teil deiner Anweisung das es das ganze doch bitte in einem Browser testen soll hat es einfach an mich weiter delegiert, dass ich das doch selbst machen soll. Ich bin jetzt nicht so wahnsinnig verstört, weil ich schon schlimmeres gesehen habe. Aber ist das jetzt irgendwas anderes als dieser typische AI-Slop, den man von LLMs so erwartet? (2/2)

@rstockm @crash_override @lbenedix Aber du hast doch vorhin geschrieben, das LLMs zuverlässig sind. Wenn sie zuverlässig sind, warum muss man dann überhaupt solche Umwege gehen? Zuverlässig heißt doch, dass ich mich darauf verlassen kann, dass das Tool schon das richtige tut. Wenn diese LLMs wie du sagst schon auf junior Dev Niveau sind, dann muss sie doch wissen, dass Daten 1:1 zu übertragen nicht ihre Stärke ist und das man dafür besser ein Tool schreiben sollte. (1/2)

Das würde man schließlich von jedem junior Dev erwarten, dass er/sie Daten halbwegs fehlerfrei von A nach B bekommt. (2/2)

@343max @rstockm @lbenedix Ich denke das würde gehen, wenn Du Spezifikationen im vornherein genau weißt und dem LLM sehr präzise Anweisungen gibst und es dann machen lässt. Ggf. braucht es Agenten die sich gegenseitig überwachen.

Aber genau das gleiche Problem hast du ja mit menschlichen Entwicklern auch. Am Anfang steht erstmal eine Produktidee und die musst entwickeln. Die wirfst du ja dem Entwickler auch nicht einfach hin und nach ein paar Stunden oder Tagen kommt es genau so raus wie du es dir vorgestellt hast.

@maxheadroom @rstockm @lbenedix Nach meiner Erfahrung geht das nicht wirklich, weil die LLM sich dann meistens irgendwann auf die Fresse packt oder der Kontext vollläuft und sie anfängt Amok zu laufen.

Außerdem klingt das für mich extrem nach Wasserfall.

Mit den menschlichen Entwicklern könnte man schnell iterieren, vielleicht sogar den eigenen Stolz überwinden und selbst ein wenig programmieren lernen auch wenn das natürlich eigentlich unter dem Niveau eines Managers ist.

@rstockm Ich hab festgestellt, bei OpenRouter sind die Chats nach dem Ausloggen weg. Nutzt du/ihr für berufliches dann ein OpenWebUI davor, in dem man dann u.a. thematisch gruppieren kann?
Oder nutzt du hauptsächlich ChatGPT, der bringt das ja von Haus aus mit?

@343max weclhes Modell hast du in Cursor genommen? Composer 1 (von Cursor selbst) ist darauf trainiert die Tools der IDE selbst zu nutzen, da klappt das mit internem Browser/Console etc. gut.
Du wolltest 2 Beispiele, die habe ich rausgesucht (das erste mal angeschaut)? Dass die jetzt auch wieder nicht reichen - tja ist jetzt halt so, auch wenn ich noch 20 weitere raussuche (die ich hätte in meinen Histories) wäre immer etwas falsch/nicht genug.
Weil halt nicht sein kann, was nicht sein darf. 1/2

@343max Was ich aber aus täglicher Erfahrung sicher sagen kann: vor einem Jahr waren solche 1Shots wie meine beiden Beispiele völlig undenkbar. Was wird dann also in 1 und 5 Jahren sein? Und dann bin ich genau bei dieser Studie von vorhin.

https://chaos.social/@rstockm/115820646908716859

@ron OpenRouter nehme ich a) für Experimente von Frontier-Modellen, da brauche ich keine Historie und b) als API-Endpoint wenn ich ein LLM in einer meiner Apps brauche.
Für alles andere habe ich Cursor (Vibe-Coding), Standard ChatGPT (Standardkram) und eine lokale Mistral 14b Instanz mit ML Studio davor.
Also recht diversifiziert.

@343max @maxheadroom @rstockm spec driven development heißt das heute und klingt sehr danach, dass man "agile" ohne Menschen macht. 🫣

Mindestens für größere Projekte sehe ich das nicht so bald kommen.

@rstockm @343max Du solltest nochmal die ganze Studie lesen.

https://arxiv.org/abs/2503.14499

@rstockm @343max
Extrapolieren ist natürlich zuverlässig ;)

@343max @rstockm @lbenedix ja, das ist "Wasserfall". Aber egal wie du es nennst, die Dinger sind dabei einfach zig mal schneller beim Schreiben von Code, beim lesen langer Fehlermeldungen, beim recherchieren in Dokumentation etc. Und das ist ein sehr großer Vorteil.

Es entsteht einfach viel Software die es so nicht geben würde weil jemand mit zu wenig skills oder Geduld/Zeit sich nicht an seine Idee rangetraut hat. Mit einem Coding Assistant kann so jemand solche Ideen komplett umsetzen.

Was glaube ich auch nicht zu verachten ist, ist die "Attitude" des LLM. Das ist immer nett und will dir helfen. Egal wie dumm du dich anstellst. Stellst Du menschlichen Enticklern eine Frage die dich als Anfänger outed bekommst du mit hoher Wahrscheinlichkeit eine anfällige oder sehr oberlehrerhafte Antwort. Das motiviert nicht immer dran zu bleiben.

@maxheadroom @rstockm @lbenedix Ich habe nicht bestritten das LLMs ihren Wert haben können. Wir reden hier aber von Autonom, Zuverlässig Qualitativ hochwertige Software auf dem Niveau eines junior Devs. Davon sind LLMs meiner Meinung nach weit entfernt. Ralf ist sehr Stolz darauf keine Ahnung von JS zu haben und ich finde das sieht man den Projekten auch an. Schon die Readme’s sind ausufernder AI Slop mit offensichtlichen Fehlern und Text nur um Text zu haben. (1/4)

Der Code ist nicht wartbar, dain jemals einen Bug zu finden dürfte erstmal massives Refactoring voraussetzen. Was ist der Wert von solchem Code über den reinen Gebrauchswert hinaus? Wie soll sowas weiterentwickelt werden, wie soll das gewartet werden? Und wäre es jetzt so ein massiver sozialer Abstieg ein ganz klein wenig Coden zu lernen um das wenigstens wartbar zu machen? (2/4)

Was ist der Wert all dieser zusätzlichen Software? Ich habe mit LLMs eine Katzenfutter Tracking App gebaut. Das hätte man auch in Excel oder AirTable zusammenklicken können, ganz ohne sich böse Codingskills aneignen zu müssen. Software an sich hat ja keinen Wert, im Gegenteil sie verursacht in erster Linie Kosten, darum probieren wir ja alle wie so wenig davon zu produzieren wie es geht. Das ist doch so als würde man ImageGen damit vertreidigen, dass es mehr Bilder produziert. (3/4)

Wir brauchen aber nicht mehr Bilder. Wir brauchen auch nicht mehr Software. Wir brauchen bessere Software die Menschen ermöglicht produktiver zu sein, die einfach wartbar ist, keine hohen Folgekosten hat, zuverlässig ist. Sich von einer LLM irgendeine App zusammenschrauben lassen ist da doch nicht nur keine Verbesserung sondern sogar eine Verschlechterung. (4/4)

Und ich sehe nicht, dass mich LLMs massiv produktiver machen. Sehe ich nicht. Wenn dann vielleicht 10%. Wenn man noch mal in Betracht zieht wie wenig seiner Zeit Entwickler mit programmieren verbringen, dann ist das kaum mehr als ein Rundungsfehler. Im besten Fall.

Aber hey, wir können jetzt endlich simpelste Greenfield Tools von einer LLM bauen lassen und können weiterhin überall rumerzählen, dass wir dafür nicht mal die Sprache lernen mussten wie so ein Loser.

@343max es ist sogar noch schlimmer. Laut dieser Studie verliert man Produktivität wenn man AI einsetzt.

https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

@343max @maxheadroom @rstockm

Ein weiterer Blick zeigt, was mir bei AI generierten Code immer wieder auffällt: die Abhängigkeiten sind extrem veraltet.

In dem Fall der Mastowall wird eine 6 Jahre alte Version eines CSS Framework verwendet.
Bei den anderen Abhängigkeiten sieht es nicht viel besser aus...

https://github.com/twbs/bootstrap/releases/tag/v4.3.1

@lbenedix @343max @rstockm Ja, das stimmt alles. Und die Dinger machen auf doofe Fehler. Aber berichtigen sie dann auch einigermaßen. Sicher ist die Code Qualität nicht optimal. Aber es funktioniert. Und für die überwiegende Mehrheit der Projekte duerfte das ausreichen. Man überlege nur mit welcher Qualität sich Millionen Unternehmen bzgl. Microsoft Software "zufrieden " geben.

Ich vergleiche diese Coding LLMs gerne mit elektrischen Werkzeugen eines Handwerkers. Es erlaubt einem Profi die Arbeit viel viel schneller zu erledigen. Und auch ein Anfänger bekommt damit bestimmte Sachen hin, die er ohne gar nicht schaffen würde.

@maxheadroom @lbenedix @rstockm Da gehe ich überhaupt nicht mit. Microsofts Softwarequalität hängt null damit zusammen ob sie gute Entwickler finden können. Das liegt an Prioritäten, Firmentielen, Organisationsproblemen, also Bereichen die weit oberhalb der Entwicklung sind und in denen niemand auch nur drüber nachdenkt LLMs einzusetzen. (1/3)

Wenn man mit LLMs Software baut, dann muss man die ganzen schweren Teile ja immer noch machen: Anforderungen, Architektur, Implementierung, Sicherheit, Deployment, Wartung… Da zu sagen, dass das am eigentlichen Coding scheitert ist wie zu sagen, dass man das man ein Hochhaus geplant, berechnet und genehmigt bekommen hat aber es nicht bauen kann, weil man leider keinen Hammer halten kann. (2/3)

Es mangelt nicht an Entwicklern, es mangelt an Bereitschaft und Willen Software zu bauen und da helfen LLMs null. (3/3)

@343max @maxheadroom @rstockm

Ich finde schön, dass Ralf seine Prompts hier im repository hat. Man sieht sehr, dass er ziemlich viel mit dem LLM interagieren musste, um ein vergleichbar einfaches Problem zu lösen. Die Commits enthalten dann auch ziemlich viele Änderungen für eigentlich kleine Fixes.

https://github.com/rstockm/mastowall/blob/main/.specstory/history/2025-10-08_11-41Z-schau-gr%C3%BCndlich-nach%2C-ob-die-informationen-aus-der-config-json-%C3%BCbverhaupt.md

@lbenedix @maxheadroom @rstockm Ui! Da bekomme ich ja nur vom Lesen Prompt-PTSD. Das ist so ungefähr das Niveau auf dem auch ich LLMs erlebe, man fragt sich bei jedem Prompt „das sind garantiert nicht mehr als fünf Zeilen Änderung, soll ich das nicht lieber von Hand machen aber dann muss ich mich erst mal in diese widerliche Projektstruktur reinarbeiten und muss erst mal alles eefsctoren, vielleicht finde ich ja doch noch einen Prompt der es fixt. Nur noch ein Prompt Bro!“ (1/2)

Aber ganz ehrlich: wie will irgendjemand erzählen, dass wäre Produktiver als es einfach von Hand zu machen (oder auch einfach die halbe Stunde investieren damit ungenutzte Variablen in der CI aufleuchten) (2/2)

@343max 💯 in großen Organisationen ist das Problem ganz sicher nicht der Mangel an (guten) Softwareentwicklern.

@343max @lbenedix @rstockm Falsch. Auch in all diese Bereiche werden LLMs forciert. Ich sehe wie erste Product Managet anfangen MVPs und einfache Feature selbst mittels LLMs zu bauen.
Und die PMs interessiert nicht wie messy der Code oder die Commits aussehen wenn das Feature das tut was es soll (inkl. NFRs)

@maxheadroom @lbenedix @rstockm Sag ich ja, die Ursache für die Probleme in der Softwareentwicklung liegt nicht bei den Entwicklern sondern bei falschen Prioritäten. Wenn einen PM nicht interessiert ob der Code messy ist, dann hat man ja eine Ursache seines Problems erfolgreich erkannt und und kann es angehen.

@343max Puh, ich weiß gar nicht wo ich hier anfangen soll, und es dreht sich im Kreis. Mal ein anschließender Gedanke von meiner Seite: „wir brauchen nicht mehr Software". Das sagten die Mönche im Mittelalter auch, als der Buchdruck erfunden wurde: „Die Menschen brauchen nicht mehr Bücher, die Bibel reicht. Schon gar keine selbst gesetzten, da geht jede Handwerkskunst verloren wenn wir die Bücher nicht monatelang selber zeichnen. Sollen die Leute halt Latein lernen.“
1/2

@maxheadroom @lbenedix @rstockm Aber: Wenn PMs LLMs einsetzen um am Code rumzuschrauben wieso haben sie dann nicht schon vor 20 Jahren einfach ein wenig am Code rumgeschraubt? Warum hat Programmierung ein so schlechtes Image, dass PMs die jeden Tag damit zu tun haben sich dennoch konsequent weigern selbst Code anzufassen?

@343max Coding LLMs werden die Druckpressen für Software werden, oder genauer der Laserdrucker der zu Hause steht und manigfaltige Probleme löst. App Entwicklung wird allgemeingut wie das Drucken einer Seite. Und ihr könnt euch beschweren dass Comic Sans eine uncoole Schrift ist, und all die Rechtschreibfehler, und das Design - aber die Entwicklung ist nicht aufzuhalten. Und es ist nicht an euch zu sagen „dein A4 Ausdruck ist doch Quatsch, braucht niemand“.
Checkt mal eure Privilegien.

@lbenedix @343max @maxheadroom die alte Bootstrap Version war damals eine Vorgabe von mir. Das war noch copy&paste Vibecoding lange bevor es den Begriff gab, siehe:

https://pad.wolkenbar.de/mastowall

Ich habe das dann nicht mehr aktualisiert (finde es bei bootstrap aber auch unkritisch). Was der Chat-Auszug von dir aber gut Zeigt: CSS ist (noch) eine große Scxhwäche von LLMs, ich habe das mal in diesen Chart gegossen:
1/2

@lbenedix @343max @maxheadroom die App „Testabend" war in den Grundfunktionen nach 2,5h fertig, das war spektakulär in Bezug auf was da alles verbaut ist. Dann kamen aber 2 Wochen (!) tuning, um sie auch vernünftig auf iOS und Android Smartphones mit kleinem Screen bedienbar zu bekommen. Das Ergebnis ist cool, aber der Weg mar maximal steinig. Es musste aber zu einem Termin im Dezember fertig werden, und ich wollte keine 10k € drauf werfen (das wäre so der geschätzte Gegenwert)
2/2

@343max @maxheadroom @rstockm Wenn mein PM mit einem LLM bei uns im Code herumfuhrwerkt, würde ich sehr traurig werden. Wir haben ja ausgebildete Softwareentwickler.

@rstockm (1/4)

@lbenedix Der Vergleich könnte kaum mehr hinken. Die Druckpresse hat ein vorher unzugängliches Kulturgut für eine breite Masse zugänglich gemacht. Softwareentwicklung ist schon seit Jahrzehnten so leicht zugänglich wie kaum etwas anderes: man braucht irgendeinen Computer und kann anfangen, die Einstiegshürde ist Nahe null. Jeder kann sich die Basics absolut problemlos an einem Nachmittag draufschaffen. Der einzige Grund warum du kein JS kannst ist weil du es nicht können willst. (2/4)

Keine Ahnung von Computern oder Programmierung zu haben ist ja besonders in Deutschland ein wichtiges Distinktionsmerkmal. (3/4)

Niemand hat jemals eine App nicht geschrieben weil er/sie nicht programmieren konnte, das ist als würde man sagen man könnte kein Buch schreiben weil man ja nicht gelernt hätte auf einer Tastatur zu tippen. Und: auch um einer LLM halbwegs brauchbaren Code abzuringen muss man immer noch wissen was man tut. Der harte Teil der Softwareentwicklung ist nach wie vor hart, der einfache für jeden leicht zugängliche ist vielleicht minimal leichter geworden. (4/4)

@rstockm @343max Der Unterschied ist: Ein Buch von vor 500 Jahren kann heute noch gelesen werden und hat Mehrwert, Software von heute wird ohne Wartung schon in 10 Jahren unbrauchbar sein. Deswegen ist mehr Software auch ein Mehr an Aufwand. Technical Debt usw.
Hab die Diskussion genau deswegen so interessiert verfolgt, weil ich Ralf einerseits zustimme, dass Prototyping mit LLM enorm vereinfacht wird, ich beruflich aber ganz andere Probleme zu lösen habe, die - wie Max imho korrekt anmerkt 1/2

@rstockm
@lbenedix Drucker werden immer eine Nische sein, und selbst die die einen haben werden ihn zum allergrößten Teil nur nutzen um irgendwelche fertigen Dokumente auszudrucken. 3D Drucker werden immer eine Nische sein. Heimwerken wird immer eine Nische sein. Softwareentwicklung wird immer eine Nische sein, weil sie schon sehr lange alles hat was es braucht um die Masse zu erreichen so wie so ziemlich jede andere kreative Kulturtechnik auch.

@lbenedix Wenn ich so drüber nachdenke: es ist schon irre wie lang jetzt schon die Idee nicht aussterben will das wenn man einfach nur den Entwicklern feste genug auf die Füße tritt Softwareentwicklung sich ja von alleine löst. Schon vor 15 Jahren habe ich von Firmen gehört, die für ihr egalo-Startup nur die besten 0,5% der Entwickler einstellen, weil die unteren 99,5% einfach nicht gut genug sind um zum 20. mal die Farbe für den Submit Button anzupassen. (1/2)

Und jetzt eben die LLMs die es uns endlich erlauben Softwareentwickler rauszuschmeißen und die Probleme unseres Prozesses nicht anzugehen. (2/2)

@sixumbrellas @rstockm Die 10 Jahre halte ich für eine extrem optimistische Annahme. Wie jede Infrastruktur braucht auch Software ständige und dauerhafte Wartung um nicht innerhalb kürzester Zeit umzufallen. Ich wollte das auch lange nicht wahrhaben, aber bin zu dem Schluss gekommen, dass es vermutlich eine unabänderbare Realität ist.

@343max man kann von AWS halten was man will, aber die keynotes von Werner Vogels sind eigentlich immer ganz gut.

In der Letzten zeigt er ganz pointiert auf, wie man 1970 schon mit Cobol der Meinung war, dass jetzt alle Menschen ohne Ahnung Software entwickeln können.

Man muss sich nicht die ganze Stunde geben, da kommt auch noch viel Quark.

https://youtu.be/3Y1G9najGiI

@343max

Benutzt du LLMs eigentlich auch an Stellen, an denen du ein Experte bist? @rstockm

@rstockm @343max LLMs lange nicht lösen können werden. Ich habe sehr große Vorbehalte davor, einen Coding Assistent auf die komplexen Legacy-Projekte zugreifen zu lassen, wo Anpassungen über mehrere Applicationen & Architekturen verteilt orchestriert werden müssen.
Denke, beide Seiten Argumentieren hier aus grundlegend verschiedenen Ausgangspositionen und treffen falsche Annahmen über die Gegenseite. Jedenfalls mein Eindruck.
Trotzdem spannend, danke! Und seid nett zueinander :)

2/2

@sixumbrellas @rstockm Ich habe da überhaupt keine Vorbehalte und habe es schon mehrfach probiert. Ich habe in ein großes Android Projekt ein paar kleinere Features einbauen lassen. Das funktioniert bis zu einem gewissen Grad und kann auch erstaunlich befriedigend sein. Aber macht es mich deutlich produktiver oder ermöglicht es Menschen ohne Ahnung diesen Job zu übernehmen? roflol, nope. (1/2)

Ich habe von Github Copilot auch schon mal sinnvolle Änderungsvorschläge auf meine PRs bekommen, aber eben auch sehr sehr viele komplett überflüssige. Hat mir oder dem Team das Zeit gespart? Schwer zu sagen, viel war es jedenfalls nicht. (2/2)

@lbenedix @343max Geht die Frage an mich? Ich würde sagen ja:
- Ultraschall Entwicklung (LUA)
- Metadaten-Projekte an Bibliotheken (mein eigentlicher Job)

@lbenedix Stimmt, die Friedhof der Softwaretools ist voll mit versuchen Development für jedermann zugänglich zu machen. No-Code Tools sind ja auch schon länger wieder in Mode. Die Leute liiieeeeben es irgendein grafisches Tool zu erlernen mit begrenzten Möglichkeiten um damit irgendwas zu bauen, obwohl sie in der gleichen Zeit eine Sprache lernen könnten mit der sie das selbe bauen und noch 1000 mal mehr. Auch Code Generatoren gibt es ja schon lange genug und praktisch keiner davon taugt was.

@maxheadroom @lbenedix @rstockm Diese Produktmanager, die mit LLMs Code bauen: übernehmen die dann auch Ownership für den Code wenn er kaputt geht oder neue Features braucht oder nicht wartbar ist? Machen dann andere Produktmanager den Code Review oder müssen das wieder Devs machen? Klingt für mich ein wenig als wäre das mal wieder ein Versuch die angenehmen Teile meines Jobs wegzuautomatisieren und nur die nervigen, unsichtbaren Teile dazulassen.

@maxheadroom @lbenedix @rstockm Ich glaube LLMs sind wie diese legendären 10x Developer, nach denen vor 15 Jahren alle gesucht haben. Auch da stellte sich raus, dass die 10x Developer einfach nur schlechte Code geshipt haben, der dann von 10 1x Developern mühsam wieder gefixt werden musste. Nur das eine LLM im Gegensatz zu einem 10x Dev garantiert extrem inkompetent ist, nicht mal theoretisch Verantwortung übernehemen kann und nebenbei den Planeten abfackelt und die Wirtschaft zerstört.

@343max @lbenedix @rstockm Wir können das alles Scheiße finden, aber Fakt ist, das Management das durchdrücken wird. Wenn die LLMs nicht massiv teurer werden, dann sind die trotz aller Defizite immer noch viel viel günstiger als selbst Junior-Devs. Und selbst wenn die schlechten Code produzieren… die reparieren den halt auch viel viel schneller. Ja, Du brauchst noch ein paar gute Devs, die den LLMs richtige Anweisungen geben können. Aber eben nicht Dutzende ...

@maxheadroom @lbenedix @rstockm LLMs werden massiv teurer werden, da alle AI Firmen nur am Geld verbrennen sind und an jedem Kunden massiv Geld verlieren. (und wenn jetzt jemand sagt: Inference wird massiv effizienter und dadurch billiger werden: ach ja? Warum sagt das niemand den AI Firmen die immer mehr Billionen in AI Datacenter stecken?) Und irgendwann kann selbst das schlechteste Management der Welt die Realität nicht mehr ignorieren. (1/2)

LLMs reparieren so lange ihre Fehler bis sie es nicht mehr tun und dieser Punkt ist sehr, sehr schnell erreicht. Und alles was man dann braucht ist ein Dev Team mit sehr viel Zeit der den unwartbaren, undokumentierten AI-slop irgendwie diesen Bug austreibt. (2/2)

Es war schon immer sehr viel billiger und schneller schlechten Code zu schreiben als guten Code. Dennoch haben die meisten Firmen deren überleben von Software abhängt irgendwann alle angefangen lieber den teuren Weg zu gehen. Ich verstehe nicht wieso jetzt drauf bestanden wird all dieses teuer erworbene Wissen wieder wegzuwerfen.

@343max Ich glaube, weil Produkte immer noch in Feature/Zeiteinheit gemessen werden. Nicht in Zeilen Code/Zeiteinheit. Wenn diese Dinger als mehr Feature/Zeiteinheit raushauen, selbst wenn Maintenance dann etwas höher ist… scheint das immer noch attraktiv. Und Long-Term Daten hat eben noch niemand.

@rstockm @343max Und du lässt ein LLM das Projektmanagement machen?

Das ist ja auch nicht mein erster Rodeo. Ich kann mich noch sehr gut an das "du kannst das scheiße finden, aber es wird durchgedrückt werden, der Zug ist bereits abgefahren" der letzten male erinnern. Damals als all die Blockchainprojekte bei der Zentralbank schon im Rollen waren und garantiert spätestens übernächstes Jahr kommen werden. Oder als big Data das große Ding der Zukunft war. Oder das Metaverse garantiert in 5 Jahren Milliarden Umsatz machen wird. (1/2)

Das waren in vielen Fällen die selben Menschen die mir jetzt AI als unvermeidbar verkaufen wollen. (2/2)

@lbenedix @343max Nein warum sollte ich?

@343max hey hey hey... Ich setze im letzen Jahr sehr viel AWS Stepfunctions ein, weil man da sehr viel Monitoring, Updates, ... "geschenkt" bekommt. Mit dem Vorteil, dass man am Ende nicht 6 Jahre alte dependencies hat.

@maxheadroom Aber das geht nur so lange gut bis es nicht mehr gut geht. Weil irgendwann (sehr schnell) sind die Anforderungen halt so komplex und vielfältig, dass die AI sie nicht mehr auf die Kette bekommt. Ich habe doch schon so oft erlebt wie eine AI wenn man sie alleine machen lässt innerhalb kürzester Zeit einfach nichts mehr schafft. Wie soll das bei echten Projekten mit echten Nutzern besser gehen?

@maxheadroom Und auch für die AI brauchst du eben noch jemanden der sie prompted und das Ergebnis tested und validiert und korrigiert. Diese Personen tauchen in deiner Rechnung überhaupt nicht auf. Wer soll das denn machen? Machen das dann die teuren PMs weil sie ja keine billigen (Junior) Devs mehr haben?

@lbenedix Ich bin gespannt auf den Tag an dem Amazon dir das nicht mehr schenkt und du den Preis des Lock-In Effekts kennenlernst.

@rstockm @lbenedix Bist du etwa der Mönch der gegen die Druckerpresse anschreit!? In 5 Jahren wird es in jedem Haushalt eine Projekt-Manger-LLM geben die unsere Projekte managed. So wie Laserdrucker und Faxgeräte!

@343max @lbenedix Gut möglich: ich würde das keinesfalls ausschließen. Bisher ist noch jede meiner „das werden KIs so schnell nicht können“ Annahmen zusammengebrochen.

@rstockm @lbenedix Da hattest du mein Zahlenrstespiel nicht mit drauf auf der Liste?

Aus welchen der großen Tech-Hypes der letzten Jahrzehnte auf die das Management so abfuhr ist denn überhaupt was geworden? Außer Cloud Computing fällt mir da ehrlich gesagt nichts ein.

@343max @lbenedix Jedem LLM einen internen Speicherbereich zur Seite zu stellen wäre ja technisch trivial. Wenn man etwas suchen würde, fände man vermutlich auch schon eines das das mitbringt. Kein Showstopper.

@rstockm @lbenedix Ein sehr simples Problem, relativ einfach zu erklären, vermutlich einfach zu implementieren. Und dennoch bereits seit langer Zeit ein Beispiel für eine Sache von der die LLM selbstbewusst behauptet sie zu können und es dann nicht kann. So wie Zehntausende andere Dinge auch. Und wenn die LLMs das können, dann werde ich mir eben ein neues Beispiel suchen das vermutlich nicht viel komplexer wird.

@rstockm @lbenedix Warum ich das tue? Weil ich einfache Beispiele mag die leicht nachvollziehbar aufzeigen wie LLMs funktionieren und wie offensichtlich beschränkt sie sind um den Menschen klar zu machen, dass es keine magischen Denkmaschinen sind. So wie mit dem Tic-Tac-Toe Artikel. Aber schon die Erwähnung der Möglichkeit das LLMs nicht alles können könnten versetzt dich ja schon in massives denial.

@rstockm @lbenedix Hier noch eine Sache die du auf deine Liste der Dinge die LLMs nicht können packen kannst: Verantwortung übernehmen. Für wie wahrscheinlich hältst du es, dass die AI Firmen das 2026 anbieten werden und warum nicht?

@rstockm @343max um einen Eindruck davon zu bekommen, wie "gut" LLMs sind in Bereichen, in denen du dich sehr gut auskennst. Das kann man dann ganz gut auf Bereiche übertragen, in denen man sich nicht so gut auskennt.

@343max Ich weiß, was du meinst und hoffe, das mein Arbeitgeber mir dann Geld gibt, um das auf andere Infrastruktur umzuziehen.

Preislich kann aktuell kaum etwas mit AWS ApiGateway + Stepfunction+ DynamoDB mithalten

(wenn das Requestaufkommen moderat ist)

@343max @sixumbrellas @rstockm ich stimme zu, dass ihr irgendwie aneinander vorbeiredet. die einstiegshürde für software furch llms deutlich gesunken&das ist doch gut (klar kann man programmieren lernen, aber react,ts,js,npm,tailwind,.. das ist viel). und ja, llms scheitern immer noch oft,aber bei bestimmten usecases sind sie sehr gut, sogar besser als ein junior dev (sehe ich wöchentlich auf der arbeit). aber trotzdem haben wir bei uns juniordevs.

@msaehn @sixumbrellas @rstockm Das stimmt, das ist viel. Und man muss es auch mit LLMs immer noch können, weil zumindest Claude das aufsetzen eines leeren Projekts mit bun, vite, react, tailwind in ts bestenfalls so in 30% aller Fälle hinbekommt und es dann meist auch nicht gefixt bekommt. Und dabei auch gerne irgendwelche veralteten Versionen installiert. Und wenn ich nicht genau sage welche Tools es installieren soll endet man wie Ralf mit Vanilla html, Bootstrap und jQuery.

@msaehn @sixumbrellas @rstockm Wenn ich mir so ein Projekt das Claude generiert habe anschaue: wahnsinnig viele Redundanzen, massenhaft ungenutzter Code, Tests die nichts testen, try/catch Blöcke die nichts anderes machen als weiter zu werden. Man kann sich nicht drauf verlassen das Anweisungen befolgt werden. (1/2)

Ich hab mal ausführlich eine Formel beschrieben wie was zu berechnen ist, die hat es dann brav mit Tests und allem implementiert und sich dann eine komplett andere Formel aus dem Finger gesaugt als es darum ging die einzusetzen und den anderen Code ungenutzt liegen zu lassen. So eine scheisse produzieren doch keine Junior Devs. (2/2)

@343max @msaehn @sixumbrellas @rstockm klingt wie das typische Enterprise-Projekt dass Leute in meinem Umfeld auch vor Code-LLM-Zeugs immer schon produzierten

Und gerade weil die Leute auch so schon immer Schwachsinn bauten, glaube ich auch nicht daran dass LLMs da irgendwie kurz-/mittelfristig merkbar besser werden. Sie haben ja nicht mal sinnvollen Input, wie sollten sie sinnvollen Output produzieren können?

/s
replies
0
announces
0
likes
0

@343max das stimmt. aber wir hatten zb nen renderer nach pdf/png/svg/dxf/canvas schreiben lassen. inkl styling&clipping. ist sehr getrennt vom rest des codes. aber das selber zu schreiben hätte vielleicht mehrere wochen gebraucht. das llm hat das „einfach so“ mit etwas hand halten gemacht. oder bugbot, was vermutlich in 30-50% aller PRs relevante bugs findet.

@msaehn Den Renderer gibt es auch als Bibliothek. Entweder hat euch die AI da die Bibliothek eingebaut, was euch auch nicht mehrere Wochen gekostet hätte oder es hat euch die Bibliothek nachgebaut mit ein paar zusätzlichen Fehlern drin und ohne Möglichkeit zu aktualisieren. Bugbot kenne ich nicht, ich weiß nur, dass GitHub Copilot selten irgendwas außerhalb von „ich sage irgendwas um meinen Wert zu beweisen“ beizutragen hat.

@msaehn Und ich sage gar nicht, das LLMs keinen Wert haben. Für wegwerf Apps sind sie oft brauchbar, für greenfield Sachen können sie okay sein, für „konvertiere dieses JSON in ein zod Schema“ kann es hervorragend sein. Aber das LLMs zuverlässig seien und man sie alleine machen lassen könnte ist weit weg von der Realität.

@msaehn LLMs können eine Hilfe sein, sie taugen was solange man sehr gut weiß was sie tun sollen. Je weniger Ahnung die Person an der Tastatur hat, je unaufmerksamer oder müder sie ist desto schlechter ist das Ergebnis. Man sieht das ja an Ralfs Code: aus seinen Prompts wird klar, dass er eigentlich weiß was er tut (auch wenn er das vermutlich abstreiten würde) und an den Stellen wo er es nicht tut baut ihm die LLM Stolperfallen die das Ergebnis relativ unbrauchbar machen.

@msaehn Und noch etwas was keine LLM der Welt macht: „Nein“ sagen. Eine LLM wird jeden noch so dämlichen Wunsch klaglos versuchen umzusetzen. Neulich hatte ein Kollege ein Problem mit unserer Sicherheitsarchitektur und die LLM hat ihm dann brav erklärt wie er die abschaltet (und er hat stolz einen PR draus gemacht um „den Bug zu fixen“) Jeder Entwickler der sein Geld wert ist wird dem PM auch mal relativ klar sagen warum eine Idee scheiße ist. Eine AI niemals.

@rstockm @lbenedix Noch was für die Liste: „Nein“ sagen, wenn eine Idee die ein PM umgesetzt haben will Scheiße ist und keinen Sinn macht. Wobei ich mir auch gut vorstellen kann, dass das ein Grund ist warum gerade PMs LLMs so mögen.

@343max @rstockm Da war die KI damals™ noch besser: "I'm sorry, Dave. I'm afraid I can't do that" hört man von ChatGPT und Freunden nie.

@343max es gibt diese bibliothek nicht, aber bestimmt hat die llm sich ideen von unserem vorherigem renderer und existierenden projekten genutzt. natürlich können wir es aktualisieren, wir maintainen ja den code jetzt. copilot nutze ich nicht, weil es zu schlecht war. -zuverlässig und alleine, natürlich nicht (bis auf mini tickets und genug context) -und trotzdem ist da was.

@343max das stimmt ja alles. es gibt eine lange liste, was alles llms nicht können. aber es gibt auch eine liste an sachen, die sie können. und im letzten jahr, ist die eine liste kürzer, die andere länger geworden. geht das so weiter? ka. funktioniert es finanziell? ka.

@msaehn Noch mal: ich habe nie behauptet, dass da nichts wäre. Aber wie viel ist da? Wie viel produktiver ist dein Teams durch LLMs geworden? 5%? 10%? Wie viel ist das Wert (monetär)? Was sind die Risiken (katastrophale Aussetzer der LLMs, Industriespionage, USA blocken EU…)? Wie viel ist es dann noch wert? Ist dieser Wert genug um die Billionen an Investitionen die gerade in AI gesteckt werden auch nur im Ansatz wieder zu refinanzieren? Meine Vermutung: nein.

@msaehn Ich behaupte die Verschiebung war kleiner als die meisten glauben. Sie war auf jeden Fall nicht Qualitativ sondern Itterrativ und die allermeisten Verbesserungen kamen durch Tooling um die LLMs und nicht durch die LLMs selbst. Claude Code war in meinen Augen der größte Schritt nach vorn dieses Jahr, nicht irgendwelche Modelle. (1/2)

Die LLMs sind weiterhin nicht in der Lage zu sagen was sie können und was nicht und rauszufinden ob sie es können oder nicht ist nach wie vor sehr teuer. Wir müssen der LLM weiterhin die Hand halten und ihre Arbeit sehrt aufwändig Reviewen und Refactoren was ebenfalls sehr teuer ist. Was bleibt dann am Ende noch übrig? Habt ihr das durchgerechnet? (2/2)

@343max 5-10% vielleicht. aber für andere menschen (wie zb ralf ja viel mehr) -und für eigene private sachen auch mal mehr. -die risiken für unsere mini firma sind begrenzt. für andere sieht es anders aus. sind die investitionen es wert? ich glaube nicht, aber manchmal kann sowas ja trotzdem funktionieren und im zweifel geht die blase kaputt. aber ich sag ja auch nicht „llms alles super“

@343max ich stimme dir zu, die modelle sind letztes jahr nicht viel besser geworden, sber die tools herum, bzw optimierung der modelle auf bestimmte use-cases. wie gesagt, manche bestimmte aufgaben sind gut für llms und dann ist das handhalten/verifizieren recht wenig.bei anderen aufgaben ist es anders. die llm weiß nicht was sie kann. aber ich als dev hab inzwischen ein gefühl wann ich sie einsetze und wann nicht.

@msaehn Da bin ich nicht so weit weg, aber darum ging es ja nicht in der Diskussion mit Ralf.