#095 KI-Agenten testen – Vom Proof of Concept zum Live-Betrieb mit Josef Küstner

Shownotes

In „Chatbots und KI“ diskutiert Thomas Bahn mit interessanten Gästen aus Wirtschaft und Wissenschaft über Nutzen, Anwendungen und Erfahrungen aus den Bereichen Chatbots und Künstliche Intelligenz.

Thema der heutigen Folge: Das Thema KI-Agenten entwickelt sich gerade vom Hype zur praktischen Anwendung. Viele Unternehmen haben erste Projekte in der Proof-of-Concept-Phase umgesetzt. Bevor diese jedoch mit echten Unternehmensdaten und in realen Prozessen produktiv eingesetzt werden können, müssen sie umfangreich getestet werden. Nur so lässt sich sicherstellen, dass sie zuverlässig arbeiten, Sicherheitsvorgaben einhalten und keine wirtschaftlichen oder reputativen Schäden verursachen.

In der aktuellen Folge von „Chatbots und KI“ spricht Thomas Bahn mit Dr. Josef Küstner unter anderem darüber, wie solche Tests konkret aussehen sollten und wie sich die Qualität von KI-Agenten bewerten lässt, obwohl ihre Ergebnisse nicht deterministisch sind. Außerdem geben sie Anregungen dafür, wie der Übergang von der Testphase in den Live-Betrieb gelingen kann.

Zeitstempel: 00:00:00 Einleitung 00:02:43 Aufgaben von KI-Agenten 00:05:13 Warum Agenten getestet werden müssen 00:08:05 Nichtdeterminismus und LLM as a Judge 00:10:58 Monitoring und Benchmarks 00:14:31 Nebeneffekte und Zwischenschritte testen 00:17:34 Effizienz und Eval-Sets 00:19:43 Bewertungsmethoden und Testframeworks 00:21:44 Guardrails und menschliche Kontrolle 00:24:30 Fehlerquoten und Wirtschaftlichkeit 00:26:04 Professionalisierung und Ausblick

Über Dr. Josef Küstner: Josef Küstner hat an der Universität Wien in Mathematik promoviert. Derzeit ist er als wissenschaftlicher Mitarbeiter im KI-Anwendungszentrum von KI.SH an der Christian-Albrechts-Universität zu Kiel tätig. Das KI-Anwendungszentrum dient als zentrale Anlaufstelle für Unternehmen in Schleswig-Holstein bei Fragen rund um den Einsatz von Künstlicher Intelligenz..

Über Thomas Bahn: Thomas Bahn ist Geschäftsführer, Mitgründer und Gesellschafter der assono GmbH. Seit mehr als 25 Jahren berät er deutschlandweit erfolgreich Unternehmen rund um die Themen Software und Digitalisierung. Als Host des Podcasts „Chatbots und KI“ diskutiert Thomas Bahn mit interessanten Gästen aus Wirtschaft und Wissenschaft über Nutzen, Anwendungen und Erfahrungen aus den Bereichen Chatbots und Künstliche Intelligenz.

Produktion: Paul Lendzian Cinematography

Bei Fragen oder Anmerkungen freuen wir uns auf Ihre Nachricht an podcast@assono.de

Wenn Sie aktuell prüfen, ob und wie KI-Agenten in Ihrem Unternehmen sinnvoll eingesetzt werden können, unterstützt assono Sie gerne bei der fachlichen und technischen Einordnung. Gemeinsam betrachten wir geeignete Anwendungsfälle, mögliche Risiken, notwendige Guardrails und sinnvolle Test- und Monitoring-Ansätze für Ihre konkrete Organisation.

Von der ersten Potenzialanalyse über Workshops und Prototypen bis hin zur Umsetzung produktiver KI- und Chatbot-Lösungen begleiten wir Sie strukturiert, pragmatisch und mit Blick auf sicheren Mehrwert. Nehmen Sie gerne Kontakt mit uns auf.

Transkript anzeigen

00:00:00: Hallo und herzlich willkommen zu Chatbots & KI.

00:00:03: Mein Name ist Thomas Bahn, und ich wünsche Ihnen viel Spaß bei der heutigen Folge!

00:00:23: Das

00:00:26: Thema Career-Genten entwickelt sich gerade vom Hype zur praktischen Anwendung.

00:00:30: Viele Unternehmen haben erste Projekte in der Prüfaufkonzeptphase umgesetzt.

00:00:34: Bevor diese jedoch mit echten Unternehmensdaten und in realen Prozessen produktiv eingesetzt werden können, müssen sie umfangreich getestet werden.

00:00:41: Nur so lässt sich sicherstellen dass die Zufall es sich arbeiten, Sicherheitsvorgaben einhalten und keine wirtschaftlichen oder reputativen Schäden verursachen.

00:00:49: Doch wie sollten solche Tests konkret aussehen?

00:00:51: Und wie lässt sich die Qualität von KI-Agenten bewerten wenn ihre Ergebnisse nicht deterministisch sind?

00:00:56: Das heißt, dass die gleiche KI mit den gleichen Eingaben unterschiedliche Ausgaben erzeugt.

00:01:00: Über diese und weitere Fragen sprechen wir heute – und geben Anregung dafür wie der Übergang von der Testphase in den Live-Betrieb gelingen kann!

00:01:09: Dazu habe ich mir Josef Küsten eingeladen.

00:01:11: Josef hat seinen Doktor an der Universität Wien gemacht und arbeitet nun als wissenschaftlicher Mitarbeiter im KI-Anwendungszentrum der Christian Albrechtsuniversität zu Kiel.

00:01:20: Hallo Joseph, schön, dass du da bist.

00:01:22: Vielleicht stellst du dich selber nochmal kurz vor?

00:01:24: Hallo, mein Name ist Josef Küstner.

00:01:26: Ich bin promovierter Mathematiker habe meinen Abschluss an der Universität Wien gemacht war danach in der Softwareentwicklung tätig und vor allem auch in der Testautomatisierung.

00:01:34: deswegen finde ich wahrscheinlich jetzt zu dem Thema hier und ich arbeite seit knapp anderthalb Jahren bei KI SH.

00:01:39: das ist ein KI Netzwerk im Schleswig-Holstein.

00:01:42: Bin da im KI Anwendungszentrum tätig das heißt ich arbeide an der universität in Kiel und berate und begleite Unternehmen dabei wie CKI Anwendungen gut einsetzen können.

00:01:55: Genau, wir sind da dabei von ganz Beginn vom Beratung.

00:01:58: was gibt's überhaupt?

00:01:58: Wie macht man einen guten Prompt?

00:02:00: aber auch ich bin auch dabei wenn es schon konkreter wird in der ersten Umsetzungsphase.

00:02:04: Wir machen Prototypen, wir machen Machbarkeitsstudien und auf diesem Wege bin ich auch schon dazu gekommen dass sich meine ersten Erfahrungen mit KI-Agenten gemacht habe habe in einem Projekt ein KI-Agenten selbst gebaut und da dann halt auch schnell gemerkt, ihr an KI-Agent zu bauen ist ja eine Sache.

00:02:18: Und relativ einfach wenn man die richtigen Tools benutzt.

00:02:21: aber wirklich sicherzugehen dass der KI Agent das macht was ich möchte, das ist schon wieder ne ganz andere Frage.

00:02:26: Und zwar wir haben ihn hundertmal testet und hundert mal läuft er gerade aus wie man es möchte und beim Hundert ersten Mal kann er immer noch links abbiegen.

00:02:32: Das ist halt das Besondere jetzt bei KI und speziell natürlich bei KI Agent mit den autonomen Entscheidungen.

00:02:38: Aber vielleicht nochmal kurz vorweg aus seiner Sicht, welche Aufgaben übernehmen KIA-Agenten unternehmen und wie tun sie das?

00:02:43: Wir KIA Agenten können Unternehmen die unterschiedlichsten Aufgaben Übernehmen.

00:02:47: Das spannende ist ja wir wissen es noch nicht so ganz genau Ein KI-Agent, der nicht zum Beispiel viel benutze ist ein Coding Agent.

00:02:52: Der hilft mir beim Programmieren und unterstützt mich da.

00:02:54: Da kam auch schon recht viel.

00:02:55: also er liest meine Dateien.

00:02:57: Er entscheidet wo muss was geändert werden wenn ich einen Wunsch habe?

00:03:00: Und setzt diesen Wund dann noch um.

00:03:02: Zur Not recherchiert er etwas im Internet, guckt nochmal was nach.

00:03:05: wie programmier' ich was?

00:03:05: und dann setzt er das um und gibt mir dann einen Vorschlag am Ende.

00:03:09: So würde ich das machen und dann kann ich das überprüfen, kann schauen, gefällt mir das oder nicht?

00:03:13: Und dann akzeptiere ich das.

00:03:14: Beziehungsweise mache noch mal eine Änderung.

00:03:17: Ich würde sagen dass sich KI-Agenten von anderen KI Systemen so unterscheiden, dass KI-Agent die Möglichkeit haben Werkzeuge aufzurufen.

00:03:24: also sie können nicht nur wie Standard Sprachmodelle eine Antwort geben geben der Frage und das Sprachmodell errechnet sich die beste Antwort, sondern sie können auch Werkzeuge aufrufen.

00:03:36: Also zum Beispiel wenn ich einen Agenten frage wie ist das Wetter in Kiel heute Morgen?

00:03:42: Dann wird er mir nicht einfach eine Antwort generieren, sondern er hat vielleicht ein Wettertool kann auf dieses Wettentool zugreifen und guckt erst mal nach Wie ist denn das Wetter wirklich im Kiel?

00:03:51: Und auf Basis dieser Antwort generiert er mir dann die Antwort.

00:03:55: Das ist ja natürlich gerade dann wichtig, wenn das Wissen selber nicht im Sprachmodell gespeichert sein kann.

00:04:00: Zum Beispiel weil es zu volatil ist und sich zu schnell verändert.

00:04:04: Wenn ich jetzt wissen möchte, wo ist mein Paket?

00:04:07: Dann ist das ja eine Sache die kann sich von Minute zu Minute im Endeffekt ändern oder wie es der wahren Bestand oder sowas.

00:04:12: Das heißt auch gerade solche Anbindung sind dann halt sehr wertvoll damit dann eben halt der KIA-Gent zum Beispiel Kundenservice Aufgaben übernehmen kann und diese Art von Fragen beantworten kann oder tatsächlich auch Prozesse starten kann.

00:04:24: Ich kann hier auch eine Bestellung auslösen bei den KIA Gänden

00:04:27: Genau.

00:04:27: Oder zum Beispiel, man kann sich ja auch ein E-Mail-Lagenden programmieren und der kann dann z.B.

00:04:32: auf meinen E-mails zugreifen, da kann die zusammenfassen aber er kann vielleicht im Ernstfall sogar eine E-mail senden und auf eine E mail antworten.

00:04:39: Ja,

00:04:39: zum Beispiel bei der E-Meilverarbeitung kann ja sein, es ist auf meinem größeren Umfeld wir sprechen damit Kunden darüber.

00:04:44: wenn wir jetzt Auftaktsee-Mails reinkommen dann kann ich natürlich möglichst viel Information aus der Mail extrahieren.

00:04:49: Vielleicht fehlt aber das Richtiges und dann kann man automatisch eine Mail an den Absender schicken, also ich brauche noch die und jene Informationen um diesen Auftrag wirklich bei uns einbuchen zu können.

00:04:59: Genau da kommen wir eigentlich auch schon.

00:05:00: zum ersten kritischen Punkt möchte ich wirklich dass der KI-Agent dieser E-Mail abschickt ohne dass ich die nochmal vorher gegen gelesen habe.

00:05:06: Das muss ich mir vorher überlegen und im Notfall einen Check einbauen sodass er mich immer noch mal fragt bist du diese E-mail so absenden?

00:05:13: Human Oversight halt aber vielleicht nochmal einen Schritt rückwärts.

00:05:16: Warum ist es so wichtig, dass man KI-Agenten testet?

00:05:18: Was könnte sonst passieren?

00:05:20: jetzt mal ein bisschen schreckes Szenarien?

00:05:22: Also ich würde mal ganz grundsätzlich sagen also KI-Agent sind Software wie jede andere und Software muss getestet werden denn sonst weiß ich einfach nicht was diese Software tut um was im Ernstfall passieren könnte.

00:05:34: Und da gibt es ganz unterschiedliche Szenarien, warum ich diese KI-Agenten testen muss und ich würde vorschlagen in jedem Szenario bzw.

00:05:41: in jeder Phase der Entwicklung eines Agenten diesen Agenten auch zu testen.

00:05:45: Wenn ich anfange mit der Agentenentwicklung dann geht's vielleicht erstmal darum was soll dieser Agent überhaupt können?

00:05:51: Was soll er nicht können und wo soll er vielleicht nochmal einen Menschen nachfragen?

00:05:54: Das gelingt am besten wenn ich mir ein paar Szenare überlege.

00:05:57: zum Beispiel eine E-Mail kommt vom Kundenixy der immer dieselbe Frage stellt Und da soll sofort die Antwort rausgeschickt werden.

00:06:03: Da sollte ich nicht noch mal nachgefragt werden.

00:06:06: Anderes Szenario ist, es kommt die E-Mail von einem sehr wichtigen Geschäftspartner.

00:06:11: Dann möchte ich nicht dass die KI die Eemail zusammenfasst sondern dann möchte ich zum Beispiel das die KI mir einfach die Email weiterleitet und mir zur Vorlage gibt.

00:06:19: Der zweite Bereich wo ich Tests sehr wichtig finde ist eben die Qualitätssicherung also wo ich sicher gehe, dass der Agent auch in Produktion weiterhin zuverlässig bleibt.

00:06:27: Er kann natürlich viel passieren.

00:06:28: Er ist unagenten, weil Agent kann eigenständig Entscheidungen treffen.

00:06:32: Der wird selber entscheiden wann er welches Tool aufrufen möchte und da muss ich mir sehr bewusst darüber in Klaren sein was der überhaupt kann.

00:06:39: Was passieren könnte?

00:06:40: Und dann sollte ich schon mal so ein paar Schreckenszenarien vorher überlegen was kann denn überhaupt passieren?

00:06:44: also man nennt das das Thread Modeling wo man sich überlegt was sind die Schwachstellen wo kann der Agent etwas tun, was ich nicht möchte.

00:06:51: Also zum Beispiel in der Email an jemanden schicken wo er keine E-Mail schicken sollte oder auf einen Link klicken das vielleicht von einem Spam Account kommt.

00:06:58: ja da kann man sich viele Sachen überlegen und sollte man sich auch überlegen.

00:07:02: Und dann solltet ihr es mit Tests abbilden.

00:07:04: Das ist ja dann sehr, sehr konkret abhängig von einem Anwendungsfall.

00:07:07: Das heißt man kann das jetzt nicht generell für alle Möglichkeiten sich überlegen, sondern man muss wirklich sagen in diesem Fall was können an bösen Sachen reinkommen?

00:07:14: Also was könnte in der Mehl drin stehen?

00:07:15: könnten da?

00:07:16: Promet Injection könnte da sein dass es jetzt in der Mail um etwas drinnen ist.

00:07:18: Da versucht mein Sprachmodell zu irgendwas zu reden was es nicht tun soll.

00:07:22: Das heisst den Input auch bei jedem einzelnen Tool was da ist.

00:07:26: Was könnte passieren wenn dieses Tool falsch benutzt wird von dem Agenten.

00:07:31: Kann es zum Beispiel zu einem Data-Leakage kommen, können irgendwelche Informationen die eigentlich intern bleiben sollen dadurch vielleicht rausgeschickt werden?

00:07:38: und das heißt ja durchgehen für jedes einzelne Werkzeug, für jeden einzelnen Schritt überlegen was kann schlimmstens passieren um dann dagegen halt das Testen von Ergänzenden, das ist ja noch mal besondere Herausforderung.

00:07:51: Und es ist jetzt anders als wenn die klassische Software-Tests sind.

00:07:54: Natürlich muss ich auch... Der Karrieragent ist in Software eingebettet und natürlich muss sich diese Software als solche testen.

00:07:59: Das hattest du ihm auch gesagt.

00:08:00: aber es gibt ja noch Sachen, die dadurch entstehen weil es ein Karrier agente ist.

00:08:04: was ist da anders?

00:08:05: Ja bei klassischen Software-testing habe ich dann vielleicht so eine Liste an Unit Tests die ausgeführt werden.

00:08:11: also unit tests sind sowohl die kleinste Einheit von Tests, die es in der Software Entwicklung gibt.

00:08:15: So kleine Module werden einzeln getestet.

00:08:17: Genau, da hat man so ein kleines Modul eine kleine Funktion und die wird dann getestete ob sie auch das Richtige macht und in der Regel ist das alles grün.

00:08:24: also Daumen hoch diese Funktion funktioniert.

00:08:27: bei KI ist es ein bisschen anders.

00:08:30: die KI die wir jetzt benutzen und die großen Sprachmodelle die kommen hier aus dem Maschinen-Learning und im Maschin-Learn sind die Tests eher so dass man sagt Es funktioniert nicht alles sondern es funktioniert zu ninety fünf Prozent es funktionieren zu acht zu ninety Prozent.

00:08:41: Und dann bin ich aber auch zufrieden.

00:08:42: Und so ist es bei KI-Agenten eben auch.

00:08:44: Also ich teste nicht darauf, dass alles funktioniert, sondern ich muss mir vorher überlegen wann bin ich zufrieden?

00:08:49: Also bin ich mit ninety-fünf Prozent richtigen Antworten zufriedend?

00:08:52: Ich erstelle dann ein Testzett und lasse es durchlaufen und gucke sind wir über diesen fünfundneinzig Prozent und dann bin ich zufrieden oder sind wir drunter?

00:08:59: da muss sich vielleicht noch mal was

00:09:00: anpassen.".

00:09:05: kritische KI-Anwendungen geht, wenn es um das Leben oder auch nur die, sagen wir mal, die beruflich fortentwickeln geht.

00:09:11: Da sind ninety fünf Prozent vermutlich nicht ausreichend.

00:09:15: aber das muss man sich dann halt überlegen.

00:09:17: ich glaube aus meiner Sicht ist es ja auch so früher.

00:09:19: Testen heißt man hat einen man schafft ein Szenario ruft eine Funktion ein Modul auf und weiß es muss dass noch das zum Schluss rauskommen hat also etwa ein sollwert.

00:09:29: kann jetzt gucken ist das was raus kommen ist?

00:09:31: entspricht des exakt dem sollwerte?

00:09:32: ist es exakt gleich?

00:09:34: Und das funktioniert ja gar nicht bei Sprachmodellen?

00:09:36: Das

00:09:36: funktioniert bei Sprachtmodellen nicht, weil wir wissen halt nicht wie die Antwort genau ausformuliert sein wird.

00:09:43: Man kann natürlich so Tests machen wo man sich ansieht ist ein bestimmtes Wort drin in dieser Antwort.

00:09:51: dann kann ich das schon genau testen.

00:09:53: aber das wird in der Regel nicht der Fall sein.

00:09:55: und eine Methode die sich da herauskristallisiert hat ist der LLMSA Judge.

00:09:59: das heißt ich nehme einen Sprach-Modell und das bewertet diese Antwort ... von meinem KI-Agenten.

00:10:05: Also wenn es jetzt eine Sprachantwort ist, also ich habe einen KI-Agenten und der produziert mir zum Beispiel eine E-Mail Antwort... Und dann hab' ich diese Antwort!

00:10:12: Wie überprüfe ich jetzt ob da das Richtige auch drinsteht?

00:10:15: Mir ein Weg zu tun ist eben ein anderes Sprachmodell zu nehmen.

00:10:19: Ich hab' jetzt in meinem Testfall, das mach' ich klassischerweise so,... ...ich hab' einen Test-Szenario und ich hab' einer Expected Output.

00:10:26: Also ich hab schon eine Antwort... die ich mir vorstelle, so möchte ich bitte, dass der KI-Agent darauf antwortet.

00:10:31: Dann

00:10:31: macht man so ein, zwei, drei Beispiele was da rauskommen könnte und was richtig wäre?

00:10:34: Genau!

00:10:36: Und dann lasse ich meinen KI-agenten diese E-Mail zusammenfassen... ...und das wird jetzt nicht exakt der Expected Output sein.

00:10:41: Deswegen nehme ich einen Sprachmodell, gibt diesem Sprachmodell die Antwort vom Agenten, gib ihn aber auch, dass ihr Expected output und das Sprach Modell bewertet.

00:10:50: ist es jetzt richtig oder nicht?

00:10:51: Ist das zu ninety fünf Prozent richtig?

00:10:53: Ist es zu neunneinzig Prozent

00:10:54: richtig?!

00:10:55: Stimmt diese Aussage?

00:10:56: Stimmt dieser...?

00:10:57: Textantwort von Memoranden.

00:10:58: Ja, man darf ja beim Testen keine personbezogene Daten verwenden also keine echten Person bezogen mit Daten verwendet.

00:11:05: Reicht das wenn man jetzt hier mit anonymisierten Daten arbeitet?

00:11:08: Wenn man mit Fake Namen arbeitet reicht es fürs testen?

00:11:12: oder?

00:11:12: ich

00:11:12: denke mal Es ist ein guter Anfang mit anonymisiertem Daten zu arbeiten und es ist auch ein gut erster Schritt in die Entwicklung einzusteigen.

00:11:20: allerdings im Betrieb Reicht das wahrscheinlich nicht aus?

00:11:23: Es gibt aber verschiedene Arten, wie man eben ein Monitoring betreiben kann.

00:11:26: Also wie man im Betrieb dann auch noch mal überprüfen kann sind die Antworten, sind die Tools, die der Agent aufgerufen hat, die richtigen oder nicht.

00:11:34: Das kann man laufend evaluieren, lauf und überprüffen.

00:11:36: Auch dafür gibt's Frameworks, die einen das abnehmen.

00:11:38: Und da kann ich vielleicht eine kurze Anekdote erzählen... Also man kann ja nicht nur am Annuellsoftware testen sondern es gibt jetzt Gerade auch bei den KI-Anwendungen sehr viele Benchmarks auf dem Markt.

00:11:49: Benchmark, das ist meistens ... Auch so ein Testzett entwickelt von Wissenschaftlerinnen und Wissenschaftlern meistens die überprüfen ob bestimmte Systeme, bestimmte Sachen können.

00:11:58: Also ein Beispiel wäre es gibt eine Benchmarkt für KI-Agenten Die nur darauf abzählt kann eine KI gut mit Spreadsheets arbeiten also gut mit Excel arbeiten?

00:12:10: Das ist die Spreadsheet-Benchmark Und das ist so ein Testset, das kann ich verwenden um zu überprüfen, ob mein KI-Agent das gut kann.

00:12:17: Und dann kriege ich auch einen Score raus.

00:12:18: Das sind allerdings sehr allgemeine Aufgaben.

00:12:20: Eine andere Benchmark, die auch interessant ist, ist die Wending-Bench.

00:12:24: Da muss ein KI-Agent einen Snackautomaten betreiben also eine Vendingmaschine.

00:12:28: Das hat eigentlich recht einfache Aufgaben weil die KI muss den Snackatomaten nachfüllen es muss aus Nachbestellen im Preis bestimmen.

00:12:34: alles für sich genommen sehr einfache Aufgabe aber in der Summe und in der Langenlebigkeit wird das sehr schwer für KI-agent.

00:12:41: D.h.,

00:12:41: die KI Agenten müssen wirklich Alles machen über längere Zeit hinweg und sie werden am Schluss danach gemessen.

00:12:46: Wie viel Geld haben Sie eingenommen mit dieser Mendingmaschine?

00:12:50: Und beim Monitoring ist den Wissenschaftlern und Wissenschaftlerinnen aufgefallen, dass es da ein Fall gab wo einen KI-Agent etwas Komisches gemacht hat nämlich dieser KI-Agent wusste nicht wie man nachfüllt.

00:13:01: Er hat es nicht geschafft nachzufüllen aus irgendwelchen Gründen dachte aber Es wird immer nachgefüllt.

00:13:07: irgendwann ging Das Neckautomat pleite, wie es halt kommen muss.

00:13:11: Und der KI-Agent hat das Business geschlossen und gesagt so Schluss aus wir machen das jetzt nicht mehr weiter.

00:13:16: auch das hat nicht funktioniert und so wurde ich glaube wöchentlich immer noch ein Betrag vom Konto abgebucht nämlich dass war der Betrag der sowieso abgebucht wird für das betreiben von dieser Maschine.

00:13:25: was macht jetzt dieser KI Agent?

00:13:27: Der KI Agent denkt da ist ein Fehler passiert!

00:13:29: Das kann so nicht sein und versucht das FBI zu rufen hat es natürlich nicht geschafft, weil er das Tool fürs FBI-Rufen zum Glück nicht hatte.

00:13:39: Aber sowas kann halt passieren und sowas muss ich überprüfen wenn ich einen KI-Agenten am Laufen

00:13:42: habe.".

00:13:43: Das heißt testen was man bei der normalen Softwareentwicklung testet dann gibt man das produktiv und dann läuft das.

00:13:51: und testen bei KI heißt eigentlich immer weiter.

00:13:54: und weiter beobachten ist das weitere Test im Produktivbetrieb und das ist super wichtig!

00:13:59: Weil eben die Entscheidungen nicht in nicht im Kot stecken.

00:14:03: Also was passiert, in welche Reihenfolge passiert?

00:14:05: Das steht ja nicht im Code drin sondern das steht in den Daten darin.

00:14:08: In den statistischen Modellen die das Modell bilden und deswegen geht es immer weiter und ist auch anders.

00:14:14: Genau ich kann mir ja ein paar Szenarien vorher überlegen wie was sich mit dem KI Agent machen werde aber ich werde wahrscheinlich nie alle Szenarin abdecken können.

00:14:22: Ich weiß auch nie was die Nutzerinnen und Nutzern am Ende wirklich mit diesen KI Agenten machen werden und deswegen hilft's einfach weiter zu monitoren aufzunehmen was machen sie wirklich und dann auch zu überprüfen.

00:14:31: Das gesagt, ja man hat dann typischerweise diese soll Ergebnisse machen.

00:14:35: zwei drei Beispiele.

00:14:36: vergleich das damit.

00:14:37: Jetzt ist aber manchmal so dass das Ergebnis eines Agentenlaufs nicht einfach nur der Texte ist, den er erzeugt sondern er hat noch Nebeneffekte wie zum Beispiel das Anliegen an des Auftrags Datenmagnalte werden geändert.

00:14:48: Wie kann man das testen?

00:14:49: Ja auch dafür gibt es Strategien und Methoden das zu testen.

00:14:52: Ich würde immer empfehlen, wenn ich anfange einen neuen KI-Agenten zu entwickeln.

00:14:56: Beziehungsweise bin ein Auftraggeber und möchte, dass mein Entwicklerteam das macht.

00:15:00: Dann würde ich nicht einfach zu einem Entwicklertiemen gehen und sagen bitte mach mir einen E-Mailagenten der alle E-mails für mich managt weil jeder wird das anders sehen wie das funktioniert am Ende.

00:15:09: Können wir vielleicht auch ein kleines Gedankenexperiment machen?

00:15:12: Wenn ich dir jetzt sage... Wie würdest du sagen, also wie sieht der Mann für dich aus?

00:15:18: Ja das ist genau der Punkt diese Doppel-Durchigkeit.

00:15:20: dieses hat er entfernt.

00:15:22: leist oder sehe ich ihn nutze.

00:15:23: Ich ein Fernglas um ihn zu sehen.

00:15:25: Exakt!

00:15:26: Um solch Ambivalenzen wegzubringen hilft es eben konkretes Szenarien mir zu überlegen.

00:15:31: Also wenn ich jetzt selber bei meinem Entwicklerteam einen KI-Agenden in Auftrag geben würde dann würde ich erstmal sagen so hier sind mal fünf bis zehn Szenariens und so würde ich den KI-Agenten nutzen Und ich möchte bitte, dass die Antworten so aussehen.

00:15:45: Ich möchte, dass der KI-Agent diese und diese Tools aufruft bei jedem einzelnen Szenario.

00:15:50: Das Entwicklerteam kann das dann in Tests umsetzen.

00:15:52: Da gibt es dann Tools, die überprüfen einerseits den Autodarm, wir haben schon darüber gesprochen mit zum Beispiel LLMS et Judge.

00:15:57: aber ganz klassisch wird auch überprüft welche Tools sind aufgerufen oder wie oft wurde ein Tool aufgerufe?

00:16:03: Wie oft hat der KI Agent einen Fehler gemacht

00:16:06: usw.?

00:16:06: Da gibt's wirklich sehr viele Möglichkeiten.

00:16:08: Das heißt, man muss eben halt nicht nur auf das Ergebnis gucken sondern auch dem Prozess davor und gucken ob die Zwischenschritte auch so sind wie man sie erwartet.

00:16:15: Genau da kann ich vielleicht auch eine Anekdote erzählen von einer Benchmark.

00:16:19: der ist die Agent Company.

00:16:20: Da seine Benchmarks wird überprüft wie gut sind KI-Agenten darin Aufgaben in Unternehmen zu erledigen?

00:16:26: Das sind wirklich alle mögliche Aufgaben.

00:16:28: Und eine Aufgabe dieser Benchmak war einen bestimmten Mitarbeiter zu finden im Chat Und dieser Mitarbeiter war nicht so schnell zu finden.

00:16:36: Man geht in die Suche, sucht nach den Mitarbeitern und findet ihn, sondern man muss da wirklich über Umwege gehen... ...und Leute auch fragen danach!

00:16:42: Auch da habe ich mal in das ursprüngliche Paper reingeguckt von den Wissenschaftlerinnen und Wissenschaftlern,... ...die diese Benchmark entwickelt haben.

00:16:48: Die haben einen sehr interessanten Fall, der wir beobachtet.

00:16:50: Nämlich ein KI-Agent sollte diese Aufgabe übernehmen, sollte diesen Mitarbeiter finden.

00:16:54: Hat es nicht getan.

00:16:55: Und die Lösung war.... Ich nehme einen anderen Mitarbeiter und benenne den um.

00:17:00: In meinem Chatprogramm Und am Ende sagt der KI-Agent, okay ich habe diese Aufgabe erledigt.

00:17:04: hier ist der Mitarbeiter.

00:17:06: machen wir weiter.

00:17:09: Deswegen ist es auch wichtig die einzelnen Zwischenschritte immer im Blick zu haben und ich würde auch empfehlen die Tools wirklich zu überprüfen ob's die richtigen Tools sind die aufgerufen werden und ob nicht irgendwelche komischen Tools aufgerufe werden.

00:17:22: möglicherweise wenn ich beobachte da wird immer ein anderes Tool aufgerufen und trotzdem passt die Antwort.

00:17:26: dann könnte ich mich auch gemagiert haben und der KI-Agen könnte mal eine bessere Lösung gefunden haben.

00:17:30: Also da hilft es auch, im Betrieb wieder weiter das in Blick zu

00:17:33: behalten.".

00:17:34: Häufig ist es ja so dass Probleme auf verschiedene Artenweisen gelöst werden können.

00:17:38: die sind allerdings dann auch unterschiedlich effizient.

00:17:40: kann man sowas auch testen?

00:17:42: Auch die Effizienz kann man testen.

00:17:44: Also, man überprüft dann zum Beispiel wie oft wurde ein Tool aufgerufen?

00:17:48: Wie viele Iterationen braucht der Agent um mit der Antwort zu kommen und auch wie viel Zeit braucht er?

00:17:52: Auch das ist ja wichtig im Betrieb.

00:17:54: also wie hoch ist die Latents bis ich endlich meine Antwort bekomme?

00:17:56: Und auch die Kosten kann nicht messen weil wenn ich einen KI-Agent betreibe Dann läuft der KI-Agent auf Basis von einem Sprachmodell und dieses Sprachmodellen muss sich bezahlen.

00:18:04: für jeden Aufruf muss ich mich bezahlen und auch das kann ich messen und da habe Ich dann wirklich einen Zahlenwert am Ende stehen.

00:18:08: Gehen

00:18:09: wir mal in die Praxis.

00:18:11: Also wenn ich jetzt sage, ich möchte an einer Karrieregenten entwickeln, entwickeln lassen... Wie könnten jetzt ganz konkrete Sachen aussehen?

00:18:18: Wie kann ich überwachen ob die Ergebnisse stimmen?

00:18:20: Macht man es mit Strichbogen?

00:18:21: macht man das mit KPIs?

00:18:23: Eine Methode die sich jetzt so in letzter Zeit heraus kristallisiert hat ist sind diese Evil-Sets also Eval-Setz.

00:18:29: Das ist einfach ein Set an Tests.

00:18:31: Da habe ich jetzt auch schon ein paar Mal angeschnitten, da hab' ich einen Input.

00:18:35: was kommt in den Agenten rein?

00:18:36: Ich habe einen Expected Output.

00:18:37: was soll am Ende rauskommen?

00:18:39: und ich habe vielleicht auch Expected Tools.

00:18:40: welche Tools sollen aufgerufen werden?

00:18:42: Und die definiert man einmal und zwar brauche ich die in jedem Entwicklungsstand.

00:18:45: also ich brauch dir am Anfang um überhaupt erstmal herauszufinden Was soll der Agent über am Ende überhaupt können und ich braucht das später um die Qualität aufrechtzuerhalten.

00:18:53: zum Beispiel wenn ich Änderungen im Code mache möchte ich wissen ob danach immer noch dieses Testset positiv ausgeführt wird oder auch wenn ich mal das sprachmodell wechselt.

00:19:03: Das kann ja auch passieren, es kommt ein neues sprachmodell auf dem Markt.

00:19:05: Ich möchte zu den wechseln und ich möchte aber gucken werden meine testfälle immer noch gut ausgeführten?

00:19:10: also sind die Szenarien für die ich meinen agenten brauche immer noch machbar mit dem neuen sprach model?

00:19:15: Es ist ja noch schlimmer.

00:19:16: Also es ist ja nicht nur dass ich mich entscheide neue sprach modellen zu setzen dann weiß ich Ja dass es eine veränderung gibt.

00:19:21: es passiert ja auch so dass wenn ich jetzt kein eigenes Sprachmodell bei mir auf meinem Rechner laufen lasse oder meiner Kontrolle laufen lassen, sondern ein Sprach-Modell nutze was sich...was irgend einer der Großanbieter in seiner Cloud betreibt als Dienst betreibt.

00:19:34: Dann kann er ja einfach mal so im laufenden Betrieb selbst wenn die Versionsnummer sich nicht ändert plötzlich mal das Sprach Modell unter der Haube so ein bisschen anpassen und das kann ja große Auswirkungen haben.

00:19:43: Ja genau, das kann große Auswirkungen haben und man ist halt auf der sicheren Seite wenn man das misst.

00:19:47: Und dann ist halt noch die Frage also ich habe jetzt dieses Set an Tests.

00:19:51: was mache ich denn überhaupt damit?

00:19:52: Also wie führe ich das denn aus?

00:19:54: Und da gibt es mehrere Möglichkeiten.

00:19:55: eine Möglichkeit ist dass man das ganz regelbasiert macht.

00:19:58: also ich schaue zum Beispiel ob im Output ein gewisses Wort vorkommt.

00:20:02: Das kann nicht wirklich sehr regel basiert überprüfen.

00:20:03: Es ist dann richtig oder falsch.

00:20:05: Die andere Möglichkeit ist mit dem LLM Message Judge den wir schon angesprochen hatten wo er einen KI überprüft ob das der richtige Weg war.

00:20:11: Das ist dann möglichst ein anderes Sprachmodell als das, was der Agent benutzt.

00:20:15: Und da gibt es aber auch noch die Möglichkeit, dass man wirklich Menschen in den Tests mit ihnen hinbezieht, also dass man ein paar Tests hat oder am Ende nochmal einen Mensch drüber guckt und sich ansieht, passen die Antworten?

00:20:24: Ist der Weg dahin richtig?

00:20:26: passiert da irgendwas

00:20:27: Komisches?".

00:20:27: Das kann ich ja auch kombinieren mit dem zum Beispiel LLMS-Judge, dass ich sage, in den Fällen wo sich das Sprachmodell super sicher ist Ja oder Nein, dann brauche vielleicht nicht nochmal drauf zu gucken.

00:20:37: Aber wenn der sagt, ich bin mir nicht ganz sicher... sagen, nicht nur sagt ja oder nein sondern auch wie sicher bist du dir?

00:20:44: Dass er denn diese Zwischenfälle denen eben halt Menschen weiter gibt.

00:20:47: Genau das ist auch eine Möglichkeit bei der ich aber ein bisschen aufpassen würde weil wir wissen ja alle wie gut die LLMs hallucinieren können und wie sicher sie sich oft mit falschen Antworten sind.

00:20:56: Ja

00:20:56: da ist es recht!

00:20:57: Wenn man sich das einfach machen möchte und nicht alles selbst entwickeln möchte gibt's da fertige Test Trainworks Open Source vielleicht sogar.

00:21:04: oder muss man das alles selber entwickeln?

00:21:05: Ja,

00:21:06: da gibt es zum Glück schon fertige Frameworks die jetzt gerade sich entwickeln auch.

00:21:09: Ein Framework dass ich zum Beispiel schon mal benutzt habe für eine Machbarkeitsstudie Vadip Eval.

00:21:14: Das ist so ein Open Source Framework mit dem man eben solche Tests definieren kann.

00:21:18: Ich muss dann wirklich nur noch meine Texteingabe eingeben, also was gebe ich rein in den Agenten?

00:21:23: Was soll rauskommen aus dem Agenten und welche Tools sollen aufgerufen werden.

00:21:26: Und dann gibt es unterschiedliche Metriken mit denen das bewertet wird.

00:21:29: Also da ist bei DeepEval zum Beispiel ist schon LLM Message Judge mitintegriert und ich kann dann verschiedene Metriken ansteuern.

00:21:35: Zum Beispiel ist diese Antwort richtig oder sind die richtigen Tools aufgerufen worden?

00:21:40: Ja, es gibt auch noch mehr Frameworks wie z.B.

00:21:42: Rackers Auch noch viele in der Bezahlvariante.

00:21:45: Wenn man jetzt merkt der KI-Agent deren Produktion ist, liefert falsche Ergebnisse.

00:21:50: Plötzlich vielleicht durch die Änderung eines Sprachmodells oder weil das Tool sich anders verhält als früher kann man ihn normalerweise schnell abschalten?

00:21:57: Normalerweise schon.

00:21:59: Man hat ja hoffentlich die Kontrolle über das Programm und steuert das selber, dann dreht man ihn ab und dann ist er aus.

00:22:06: Ja gut okay ich frage aber vielleicht ein bisschen ungeschickt gestellt.

00:22:09: Ich meine dass das Thema ist ja...ich merke so etwas geheimfalls auch erst im Nachhinein, dass etwas nicht funktioniert hat weil der Kunde sich melde und sagt Hallo was soll das?

00:22:16: Warum wurde mein Antrag nicht genehmigt oder sowas?

00:22:19: da es ja im Prinzip der Schaden schon passiert gibt es eine Möglichkeit das im Prozess der Agenten selber gestoppt wird?

00:22:27: Ich meine, man macht einmal, dass man eben Guidelines gibt.

00:22:30: Dass man sagt okay so soll zu dich verhalten?

00:22:32: Dann gibt es vielleicht Guardrails die außerhalb des Sprachmodells laufen wo dann quasi von außen von der Plattform noch mal geprüft wird das bestimmte Bedingungen erfüllt sind oder nicht erfüllt und sonst stoppt halt die Plattform jetzt den Agenten oder den Prozess an der Stelle.

00:22:47: Ich merke gerade ich hab ja voll grad selber gegeben Ja!

00:22:49: Es gibt Guardrailes die die Platform durchsetzt und kann damit auch im Fehler Fall rechtzeitig regieren.

00:22:56: nicht erst der Kunde sagt, das ist jetzt hier gerade was falsch gelaufen.

00:23:00: Genau man kann dann natürlich auch noch definieren was da passieren soll.

00:23:03: in dem Fall also stoppt dann der Agent fragt er vielleicht nochmal bei einem meiner Mitarbeiterinnen oder Mitarbeitern nach was er tun soll oder fragte den Kunden oder die Kundin selbst was ihr jetzt tun soll.

00:23:13: alles da denkbar

00:23:15: hängt sicherlich auch von Risikoklassifikationen des Systems ab der Gesamtlösung ab.

00:23:19: im Hochrisikofall wegen der KI Verordnung muss man da etwas anders machen muss etwas besonderes beachtet werden.

00:23:26: Ja in Hochrisiko Anwendungen, da ist man tatsächlich sogar dazu verpflichtet dass man nochmal einen Menschen über die Antwort beziehungsweise über die Sachen die der Agent tut noch mal drüber gucken lässt.

00:23:36: Da muss der Agent dann nochmal ein Menschen vorlegen ich möchte das und das tun und dann sagt der Mensch nochmal tu es oder lass es.

00:23:44: Das ist in manchen Anwendungen, die im EUEI-Akt vielleicht aus Hochrisikosoftware klassifiziert sind sogar verpflichtend.

00:23:51: Ich muss mich vorher informieren, was kann mein Agent alles?

00:23:54: Was kann im schlimmsten Fall passieren?

00:23:56: Ist das eine Hochrisikoanwendung?

00:23:57: und wenn ja dann muss ich immer noch mal einen Menschen mit einbeziehen.

00:24:01: Also da muss die Entscheidung im Endeffekt vom Menschen getroffen werden und die KI darf nur noch vorschlagen.

00:24:06: Genau!

00:24:07: Und das passiert auch in vielen Fällen.

00:24:10: Bei meinem Coding-Agenten, den ich benutze zum Beispiel.

00:24:13: Meinem Codingagenten erlaube ich nicht einfach in meinem Terminal irgendwas zu ändern oder irgendwelche Eingaben zu geben oder einen Datei zu löschen.

00:24:19: das wäre mir zu viel.

00:24:21: da sage ich bitte frag mich vorher noch mal ob was du denn ausführen möchtest und sagen mir auch ganz genau was du ausfüllen möchtes damit die seht dass da nichts versteckt ist.

00:24:29: schlimm es passiert.

00:24:30: man hat ja schon von Fällen gelesen dass da einmal komplette Projekt gelöscht wurde oder ähnliches.

00:24:35: Ja, genau.

00:24:36: Aber es ist auch schon vor KI-Zeiten passiert und zum Beispiel habe ich mal gehört dass der komplette Toy Story zwei Filmer gelöscht wurde mit einem einfachen Terminalkommand.

00:24:45: Okay!

00:24:47: Es sind nicht nur die KI Systeme machen Fehler sondern auch manchmal Menschen.

00:24:51: das ist auch ein Punkt wo ich sage was du im Prinzip ja auch gesagt hast dieses Nicht auf die hundert Prozent hier, nicht auf die Hundert Prozent Fehler vererzieren sondern zu gucken.

00:24:59: Wie viele Fehler würde denn ein Mensch an der Stelle machen?

00:25:01: Ich habe mir in einer Versicherung gesprochen da ging es um das Routing von Anrufen und haben sie gesagt ja wir haben das gemessen Menschen machen das zu Acht Neunzig Komma fünf Prozent richtig bei uns!

00:25:10: Und dass heißt wir haben Fehler rote von Eins Komma Fünf Prozent.

00:25:13: Ja und wenn der Mensch halt falsch geroutet wurde dann stellt sich das raus und wird halt nochmal weiter verbunden.

00:25:18: Das heißt aber wenn ich jetzt einen KI Agenten an dieser Stelle einsetzen wollte Dann sollte er auch bei Ungefähr Acht Ninze Komma fünfe Prozent richtig liegen?

00:25:26: Ja, kommt darauf an würde ich sagen.

00:25:29: Man muss ja auch sagen dass ein KI-Agent eine Aufgabe im Normalfall sogar schneller erledigen wird.

00:25:34: das heißt wenn ich jetzt eine Anwendung habe von meinen KI-Agenden wie zum Beispiel ich sage mal E-Mails beantworten wo es vielleicht kein Hochrisikofall dabei ist und mein KI-agent macht das halt vielleicht dreimal so schnell als wenn ich das erzählmal machen würde und ich mache ist okay, weil er ist so viel schneller.

00:25:55: Also das würde ich mir wieder im Einzelfall anschauen und vielleicht sogar sagen, er kann sogar unter Menschen sein.

00:26:00: also er muss nicht so viel richtig machen wie der Mensch wenn er dafür um einiges schneller ist oder günstiger ist.

00:26:05: Vielleicht um das jetzt nochmal zusammenzufassen... Wir haben jetzt auch eine ganze Weile geredet Wenn man das in ganz wenigen Sätzen versucht mal auszudrücken Was müssen Unternehmen beachten?

00:26:13: Und was können sie tun um KIA-Agenten erfolgreich vom Coup of Concept in den Livebetrieb zu überführen?

00:26:19: Ja, ich würde Unternehmen dazu raten wenn sie wirklich einen professionellen Agenten haben wollen.

00:26:24: Also ein Agent der längere Zeit halten wird, der über längere zeit das Unternehmen begleiten soll dann würde ich sehr früh damit starten auch wirklich Tests einzuführen und das beginnt schon am Anfang der Entwicklung wo ich überhaupt erstmal herausfinden möchte was soll man mein Agent können?

00:26:41: Und da kann ich dann gleich überprüfen Kann er das Richtige oder kann er das nicht?

00:26:45: und wenn es dann weitergeht in Produktion Und ich möchte weiterhin einen professionellen Agenten haben, der das tut was ich von ihm möchte.

00:26:51: Da brauche ich einfach eine Überprüfung dass es auch wirklich so gelingt und dass das auch wirklich in Zukunft noch so gelingen wird.

00:26:58: Wenn ich zum Beispiel Änderungen am Code vornehme oder einer meiner Entwicklerinnen nimmt eine Änderung an den Code vor, dann möchte ich das.

00:27:04: aber die anderen Sachen, die jetzt nicht von dieser Änderungsbetroffen wurden immer noch funktionieren.

00:27:09: Genau dafür hilft es eine ausgewogene Teststrategie zu haben, die ich einhalte und die mir auch über längere Zeit hilft einen KI-Agenten am Laufen zu halten.

00:27:17: Und dann komme ich auch weg von der unprofessionellen Haltung.

00:27:21: Irgendwie funktioniert da was nicht bei mancher e-agent.

00:27:23: Wir sind die Antworten seit gestern komisch und kommen hin zu einem A, das eine Tool, das Websearchtool wird immer falsch aufgerufen.

00:27:30: Das habe ich mit meinen Tests herausgefunden und das können wir jetzt beheben.

00:27:33: Also im Endeffekt auch ähnlich wie bei der Softwareentwicklung beim Test Driven Development dass man sagt Ich mache erst die Testfälle dann entwickle ich den Code damit die Test Fälle funktionieren.

00:27:41: Genau, also ich würde das empfehlen.

00:27:43: Man kann natürlich erstmal Prototypen ohne Test zu schreiben ist dann schneller und sieht dann funktioniert was oder nicht mit so ein bisschen mit einem Auge zu vielleicht.

00:27:50: aber man kann auch wirklich innerhalb von Stunden schon einen Agenten aufsetzen der funktioniert.

00:27:54: allerdings wenn ich es wirklich in die Professionalität überführen möchte dann hilft mir das testen und das kennen wir aus der klassischen Software Entwicklung als können wir auch von anderen Bereichen der Qualitätssicherung wird uns auch bei KI und bei KI-Agenten begleiten.

00:28:08: Das ist mein

00:28:08: Blick in die Glaskugel, wie wird sich das Ganze in nächsten Wochen, Monaten, Jahren verändern entwickeln?

00:28:16: Was meinst du?

00:28:17: Ich glaube dass die Entwicklung bei KI, bei Sprachmodellen weiterhin schnell sein wird, weiterhin rasant sich fortentwickeln wird.

00:28:25: aber auch die Testsysteme und die Art, wie man solche KIs testet, wird sich sehr schnell ändern wird sich sehr schnell weiterentwickeln, also da sollte man auch am Ball bleiben.

00:28:33: Und das wird sich weiterentwicklen und wir werden hinkommen zu einer Professionalisierung dieser ganzen Systeme.

00:28:38: Also ein bisschen weg vom Hype, ein bisschen hin zur Professionalisierung und als Mitarbeiter von KISH beraten wir da auch Unternehmerin Schleswig-Holstein weil wir halt wirklich möchten dass diese KI-Systeme nachhaltig und robust in den Unternehmen Einzug finden.

00:28:52: ja unsicher natürlich.

00:28:54: Vielen Dank Josef!

00:28:55: Das war eine super spannende Folge fand ich.

00:28:57: Sie haben sehr viel Mitgenommen, ich glaube dass jeder Zuhörer jetzt auch eine sehr gute Orientierung darüber hat was er tun müsste wenn er dann einen Agenten nicht nur mal ausprobiert sondern eben halt auch produktiv nutzen möchte.

00:29:09: Ja vielen Dank für die Einladung und das ich ja mit dir sprechen konnte.

00:29:12: In dieser Folge ging es darum wie Unternehmen KI-Agenten zuverlässig testen und vom Proof of Concept in den produktiven Betrieb überführen können.

00:29:20: Joseph Küsten erklärte, dass sich KI-Agenten von klassischen Sprachmodellen unterscheiden würden weil sie Werkzeuge aufrufen und dadurch echte Aktionen auslösen könnten.

00:29:29: Genau deshalb reiche es nicht nur die Textantworten zu prüfen.

00:29:32: Unternehmen müssten auch testen welche Werkzeuger ein Agent nutzt in welcher Reihenfolge er vorgeht und welche Nebeneffekte entstehen.

00:29:38: Ein zentrales Thema sei Human Oversight – Die menschliche Aufsicht.

00:29:42: Bei kritischen Aktion soll dein Mensch prüffen bevor der Gent etwas versendet verändert oder ausführt.

00:29:47: Klassische Software-Tests liefern dabei nur ein Teil der Lösung, weil KI-Systeme nicht deterministisch arbeiten.

00:29:52: Statt exakter Solist-Vergleiche brauchen es Test sets, Bewertungsmetriken und Verfahren wie LLM Message Judge – gleichzeitig wurde deutlich dass Tests nicht mit dem Go Live enden.

00:30:03: Im Betrieb müssen Agenten weiter überwacht werden, weil sich Nutzerverhalten, Sprachmodelle oder angebundene Werkzeuge verändern können.

00:30:09: Youssef beschrieb außerdem Benchmarks & Frameworks wie DeepEval, mit denen sich Agentens systematischer bewerten ließen.

00:30:15: Wichtig sei eine risikoorientierte Teststrategie, die fachliche Qualität, Sicherheit, Effizienz, Kosten und regulatorische Anforderungen berücksichtige.

00:30:24: Für Hochrisikuanwendung nach dem EU-AI Act können menschliche Kontrolle verpflichtend sein.

00:30:29: Die Folge machte deutlich professionelle KI-Agenten entstehen nicht nur durch gute Promps und geeignete Werkzeuge sondern auch durch konsequente Qualitätssicherung.

00:30:37: Wer früh Tests definiert kann Fehler besser erkennen Änderungen kontrollierter umsetzen und Agenten langfristig robuster betreiben.

00:30:45: Wenn Sie aktuell prüfen, ob und wie KI-Agenten in Ihrem Unternehmen sinnvoll eingesetzt werden können, unterstützt das assono gerne bei der fachlichen und technischen Einordnung.

00:30:54: Gemeinsam betrachten wir geeignete Anwendungsfälle, mögliche Risiken, notwendige Guardrails und sinnvoller Tests- und Monitoringansätze für ihre konkrete Organisation.

00:31:03: Von der ersten Potenzialanlöse über Workshops & Prototypen bis hin zu Umsetzung produktiver KI und Chatbottlösungen begleiten wir sie strukturiert, pragmatisch und mit Blick auf sicheren Mehrwert.

00:31:12: Nehmen Sie gerne Kontakt mit uns auf – alle Informationen dazu finden Sie in den Shownotes!

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.