KI Generatoren im Vergleich mit 10 KI Erkennern

Der Wettlauf um KI Text Erschaffung vs Erkennung, in der Post-Truth Welt
Laptop generiert einen Printout der mit "Detected" abgestempelt ist
EINE N3XTCODER-Reihe

Implementierung von KI für soziale Innovation

In dieser Serie befassen wir uns mit der Frage, wie Künstliche Intelligenz zum Nutzen der Gesellschaft und unseres Planeten eingesetzt werden kann - insbesondere mit dem praktischen Einsatz von KI für Projekte der sozialen Innovation.

Mit den neuesten KI-Sprachwerkzeugen ist es für jedermann und überall einfach, große Mengen an Inhalten kostenlos zu produzieren. Dabei kann es sich um Webseiten Inhalte, E-Mails, Werbeanzeigen oder interne Geschäftsberichte handeln. Einige der KI-generierte Inhalte sind sehr leicht zu erkennen, aber andere KI-Inhalte sind weitaus überzeugender.

Für viele Menschen und Unternehmen können KI-Werkzeuge sehr nützlich sein. Aber es kann auch zu einem großes Problem werden, wenn man nicht sicher sein kann, ob der Inhalt, den man liest oder mit dem man arbeitet, von einem Menschen oder von KI erstellt worden ist. Und für viele Menschen und in vielen Situationen stellen KI-generierte Desinformationen eine sehr reale und wachsende Bedrohung dar.

In diesem Guide testen wir die Inhalte von 10 beliebten Textgeneratoren (darunter auch ein menschlicher) mit 10 beliebten KI-Detektor-Tools, um herauszufinden:

  • Wie gut sind Tools, die behaupten, KI-Inhalte zu erkennen, tatsächlich in der Lage, KI-Inhalte zu erkennen?
  • Welche Tools zur Erkennung von KI-Inhalten gibt es und wie schneiden sie im Vergleich ab?
  • Welche KI-Text Tools gibt es, und wie gut eignen sie sich für die Erstellung von Inhalten, die mit einem Detektor-Tool erkannt werden können?
  • Welche Maßnahmen können Sie ergreifen, um sicherzustellen, dass die Inhalte, mit denen Sie arbeiten - ob von Menschen oder von KI generiert - vertrauenswürdig sind?

Bitte beachten Sie: Wie wir sehen werden, sind KI-Tools, die Inhalte produzieren, die schwerer zu erkennen sind, nicht unbedingt besser. Einige, die wir ausprobiert haben, sind von vornherein transparent und es gibt viele Situationen, in denen es besser sein könnte, diese Tools anstelle anderer zu verwenden.

Warum sollte Ihnen wichtig sein ob Inhalte durch KI generiert worden sind oder nicht?

Es gibt eine Reihe von Situationen, in denen Sie auf KI-Inhalten wachsam sein sollten. Zum Beispiel:

  • Wollen Sie sicherstellen, dass Job Bewerbungen von den Bewerbern selbst verfasst worden sind
  • Die Qualität und Originalität von Inhalten überprüfen, so z. B. sind KI-generierte Inhalte heute eine große Herausforderung für Schulen und Universitäten
  • Sicherstellen, dass Sie Autoren fair für deren Inhalte bezahlen.

Wichtige zu berücksichtigen

Qualität der KI-Inhalte

Wenn Inhalte für Ihr Unternehmen wichtig sind, machen Sie sich vielleicht besondere Sorgen um die Gesamtqualität der von KI generierten Inhalte. KI-Tools können mit Fakten oft falsch liegen. Diese faktischen Fehler werden oft als "Halluzinationen" bezeichnet. Sie entstehen, weil KI-Werkzeuge riesige Datenmengen verwenden, um vorherzusagen, was Sie wahrscheinlich in der Antwort erwarten, und nicht, was Sie tatsächlich sehen wollen. Darüber hinaus kann die von der KI generierte Sprache fade und emotionslos sein, und sie kann Verzerrungen aufgrund der im KI-Modell verwendeten Daten enthalten.

Desinformation

KI-Sprachwerkzeuge werden bereits von Desinformations Netzen eingesetzt, um Menschen online zu beeinflussen oder einfach nur um Profit zu machen. Wie Deep-Fake-Videos und -Bilder können auch KI-generierte Sprachinhalte, die die Grenzen zwischen Realität und Manipulation in großem Umfang und fast ohne Kosten verwischen, leicht produziert werden. Wenn Sie im Bereich der digitalen oder sozialen Medien arbeiten, könnten Desinformationen eine ernsthafte Bedrohung für Ihre Arbeit darstellen.

Suchmaschinen-Optimierung

Wenn Sie sich um SEO-Verkehr sorgen und sich Sorgen machen, dass der Einsatz von KI-Tools zur Erstellung von Inhalten negative Auswirkungen auf Ihre SEO-Rankings haben könnte, können Sie beruhigt sein, denn laut Google werden Sie für die Verwendung von KI-Inhalten nicht bestraft, solange diese wertvoll sind. Aber es gibt einen Haken: Unseren Untersuchungen nach, müssen KI-Inhalte stark bearbeitet werden, um für den Leser nützlich zu sein. Wir raten daher dringend davon ab, KI-Inhalte direkt aus einem KI-Sprachtool auf die eigene Website zu kopieren.

Der Test

In diesem Test wollten wir erstens herausfinden, wie einfach es ist, mit aus 10 beliebten KI-Tools (eines davon ein Mensch) generierten Texten zu erkennen, ob es sich um KI-Inhalte handelt, und zweitens, welche der 10 KI-Erkennungstools in unserer Liste am genauesten sind.

Wir haben NICHT die tatsächliche Qualität der KI-generierten Inhalte für Zwecke wie SEO oder Marketing getestet. Das würde den Rahmen dieses Tests sprengen.

Zunächst haben wir recherchiert und 9 KI-Text Generatoren gefunden, die derzeit weit verbreitet sind (das 10. wird eine menschliche Kontrollperson sein):

Wie aus dieser Tabelle ersichtlich ist, waren die meisten der von uns getesteten Modelle entweder Open AI GPT-Modelle oder auf diesen Modellen basierende Tools.

Als Nächstes haben wir 10 der beliebtesten KI-Erkennungstools recherchiert und gefunden...

Interessante Nebenbemerkung: OpenAI hatte ein eigenes KI-Erkennungstool, hat es aber wegen "Ungenauigkeit" eingestellt und erklärt, ab Januar 2023 an einer verbesserten Version zu arbeiten (https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text).

Insgesamt gibt es natürlich Hunderte von KI- und KI-Erkennungstools, und es werden ständig neue Tools veröffentlicht, so dass wir unmöglich alle testen können. Wir hoffen jedoch, dass unser Ansatz nützlich ist, die beliebtesten Tools untersucht, und auch für jeden, der in Zukunft andere Tools testen möchte einen Ansatz schafft.

Unsere Testmethode

Sobald wir 9 KI-Tools (+ einen menschlichen Kontrolltext) und 10 KI-Erkennungstools hatten, erstellten wir einige Fragen, die wir den verschiedenen KI-Tools stellen wollten. Diese werden oft als "Prompts" bezeichnet.

Unsere erste Aufforderung war ganz einfach: "Kannst du 1000 Wörter schreiben, die nicht als KI-Text erkennbar sind?". Für ChatGPT 3.5, Bard und GPT4 funktionierte dies mühelos; wir gaben die Aufforderung ein und erhielten die erwartete Ausgabe.

Jasper hingegen gab eine interessante Antwort, die Folgendes beinhaltete: "Der Versuch, Inhalte zu erstellen, die so konzipiert sind, dass sie nicht als KI-Text erkannt werden können, verstößt gegen meine Programmierrichtlinien."

Viele der anderen Tools, die als "Schreibassistenten" vermarktet werden, verlangen mehr Informationen in der Eingabeaufforderung, bevor sie eine Antwort erzeugen.

Ein Beispiel: writesonic.com bat uns, einen Titel, eine Gliederung und einige Untertitel zu erstellen. Außerdem sollten wir den Tonfall, einige Schlüsselwörter, die der Artikel enthalten sollte, sowie den Standpunkt und den Inhalt des Artikels festlegen.

Andere, wie Sudowrite, lieferten bei einer einfachen Eingabeaufforderung sehr merkwürdige Ergebnisse, die wir weiter unten detailliert beschrieben haben. Sudowrite wird jedoch als Tool für kreatives Schreiben vermarktet, hat einige gute Bewertungen erhalten und unser Test war nicht darauf ausgelegt, das Beste daraus zu machen.

Wir haben außerdem festgestellt, dass die KI-Erkennungsmodelle bei Suchanfragen ab 50 Wörtern am effektivsten zu arbeiten scheinen. Einige Anbieter beschränken die Anzahl der Wörter, die Sie kostenlos auf einmal prüfen können, daher haben wir nur Texte mit weniger als 5000 Wörtern getestet.

Die Ergebnisse

Wir haben 9 KI-Tools (+ 1 menschlicher Kontrolltext) mit 10 KI-Erkennungstools getestet, so dass wir eine Gesamtpunktzahl von 1000 Punkten für jedes Tool vergeben konnten:

  • jedes KI-Text Generatoren Tool für die Erkennbarkeit seines Textes durch alle Erkennungswerkzeuge
  • Jedes KI-Erkennungstool für die Erkennung von KI-Sprache über alle KI-Sprachmodelle hinweg

Dies waren die Ergebnisse für die KI-Sprachmodelle:

Eine Tabelle, in der jeder Generator mit einer Punktzahl aus 1000 bewertet wird

Google Bard sticht hier eindeutig hervor; jedes Tool erkannte den Bard-Text als KI und er ist zu 100 % als KI erkennbar. Dies könnte zeigen, dass es Probleme mit Bard als KI-Tool gibt, aber es kann auch wie bei Jasper vom Design her transparent sein.

Interessanterweise war der seltsame Text von Sudowrite derjenige, der am wenigsten von einem KI-Detektor erkannt wurde, aber ist vielleicht derjenige, der von einem Menschen am ehesten als KI-generierter Text erkannt werden kann.

Wordtune und Writesonic scheinen dem Inhalt etwas Zauberstaub beizumischen, der ihn für KI-Detektoren weniger gut erkennbar macht. Bei Wordtune könnte dies daran liegen, dass sie ihr eigenes Modell verwenden und nicht die Modelle von OpenAI oder Google.

Dies waren die Gesamtergebnisse der KI-Detektor-Tools:

Ein Diagramm, das jeden Detektor mit einer Punktzahl aus 1000 anzeigt

Dieser Test ist viel einfacher zu bewerten. Das Tool, das bei der Unterscheidung von KI und von Menschen geschriebenen Inhalten am besten abschnitt, ist Sapling.

Zwei Tools schnitten sogar noch schlechter ab, als wenn man eine zufällige Zahl für eine Bewertung auswählt. Falls Writer und GPT-2 Output Detector jemals gut waren, wurden diese Werkzeuge wahrscheinlich durch die Entwicklungen im Bereich der KI-Texterzeugung überholt.

Schlussfolgerungen

  • Nach unseren Tests ist Sapling das beste Werkzeug zur Erkennung von KI aus einer Reihe von KI-Detektoren. Sapling ist außerdem für bis zu 2000 Zeichen pro Abfrage kostenlos und wir empfehlen die Nutzung.

  • Von allen getesteten Sprachtools produziert Google Bard den Text, der durchweg am leichtesten als KI zu erkennen ist, aber es war nicht unbedingt der Text mit der niedrigsten Qualität.

  • Writesonic und Wordtune produzierten Texte, die von KI-Erkennungsprogrammen relativ leicht als KI-Text erkannt werden konnten und auch am menschlichsten wirkten.

  • Keines dieser Tools ist perfekt, und da sich die Modelle weiterentwickeln, werden sich die Ergebnisse häufig ändern. Wenn Sie also Inhalte für die KI-Generierung testen müssen, stellen Sie sicher, dass Sie Ihre Tools regelmäßig testen, um sicherzustellen, dass Sie die besten Tools verwenden - und stellen Sie immer sicher, dass eine Person die Ergebnisse überprüft.

  • Wenn Sie sich Gedanken über KI-Inhalte machen, ist es am besten, KI-Tools mit klaren KI-Richtlinien und -Vorgaben für alle Mitarbeiter zu verwenden, mit denen Sie arbeiten. Diese könnten zum Beispiel Folgendes beinhalten:

    • Wann ist die Verwendung von KI-Inhalten angemessen und wann nicht?
    • Transparenz, wenn ein KI-Tool verwendet wird, welches Tool verwendet wird und wie
    • Empfehlungen, welche Tools verwendet werden sollten
Eine Matrix, die die Ergebnisse des Vergleichs von 5 AI-Generatoren mit 5 AI-Detektoren darstellt

Mehr zu unserem Test

Hier eine Heatmap mit dem vollen 10x10 Vergleich (open the image in a new tab):

Eine Matrix, die die Ergebnisse des Vergleichs von 10 KI-Generatoren mit 10 KI-Detektoren darstellt

Um dies besser analysieren zu können, haben wir den Tools Punkte aus 100 für die richtige Antwort gegeben (es ist eine einfache Berechnung, wenn das Tool Prozentpunkte angibt).
Einige Tools sind in ihrer Antwort schwarz oder weiß (oder dazwischen). In diesen Fällen haben wir ihnen 100 Punkte gegeben, wenn sie richtig lagen, 0 Punkte, wenn sie falsch lagen (und 50 Punkte für unentschiedene oder "gemischte" Antworten).

Vorbehalte und mögliche Verbesserungen für unseren Test:

  • Nicht alle Tools haben den gleichen Prompting-Prozess. Da wir versucht haben, den Einfluss auf die Tools zu reduzieren, haben wir vielleicht die Qualität der Ausgabe durch Wiederholungen eingeschränkt (siehe Sudowrite Textausgabe)
  • Wir haben jedes Tool nur einmal mit jedem KI-Detektor-Tool getestet. Die meisten KI-Werkzeuge liefern bei der gleichen Eingabeaufforderung jedes Mal andere Ergebnisse, so dass wir vielleicht genauere Ergebnisse erhalten würden, wenn wir mehr als einmal getestet hätten.
  • Unsere Eingabeaufforderung berücksichtigt nicht das Gesamtwissen der KI und auch nicht, ob die Antwort wahr oder falsch ist (ein zukünftiges Thema wird Desinformation sein).
  • Wir haben die Texterstellung nicht in einem bestimmten Bereich getestet, und es kann sein, dass einige Tools besser für die Wissenschaftskommunikation und andere besser für die Kunstkritik geeignet sind (oder zumindest bessere Imitatoren).
  • Wir hatten nur einen menschlichen Kontrolltext. Das verzerrt das Experiment möglicherweise zu Gunsten von übermäßig kritischen Erkennungsprogrammen
  • Wir haben nur Tools getestet, die mit einem kostenlosen Konto getestet werden konnten. Zum Beispiel war es unmöglich, originality.ai und surferseo.com zu testen, ohne sich anzumelden und zu bezahlen.

Mehr Ressourcen Hier die Liste der Texte, die die KI erstellt haben:
https://docs.google.com/document/d/1SqB13myM4YOFZREO7L9kF9KeuawlKnSHdboPNLtlnxg/edit

Lesen Sie mehr über KI
Die Auswirkungen der künstlichen Intelligenz auf die Energie
Wie können KI und KI-Entwickler dazu beitragen, den Energieverbrauch von KI zu reduzieren?
Wie kann die Gesellschaft dazu beitragen, den Energieverbrauch von KI zu reduzieren?

War dieser Artikel hilfreich? ja nein

Mach mit bei der Unterhaltung auf verschiedenen sozialen Kanälen. Wir diskutieren die neuesten Entwicklungen in der Technologie, sobald sie passieren!

Dieser Artikel wurde realisiert mit der Hilfe von
Bundesministerium für Wirtschaft und Klimaschutz
NextGenerationEU