Welche Rolle spielt KI für Bibliotheken?
Interview mit Clemens Neudecker - Head of Data Science der Staatsbibliothek zu Berlin
A EINE N3XTCODER-Reihe
Implementierung von KI für soziale Innovation
In dieser Serie befassen wir uns mit der Frage, wie Künstliche Intelligenz zum Nutzen der Gesellschaft und unseres Planeten eingesetzt werden kann - insbesondere mit dem praktischen Einsatz von KI für Projekte der sozialen Innovation.
Wir freuen uns sehr, in dieser Ausgabe mit Clemens Neudecker, dem Head of Data Science der Staatsbibliothek zu Berlin, zu sprechen.
Frage N3XTCODER: Clemens, kannst du uns bitte erklären, was du machst und warum KI wichtig für deine Arbeit ist?
Clemens Neudecker: "Ich bin Head of Data Science in der Abteilung Informations- und Datenmanagement der Staatsbibliothek zu Berlin - Preußischer Kulturbesitz (https://staatsbibliothek-berlin.de/). Hier leite ich ein Team von 10 Wissenschaftlern und Ingenieuren, in dem wir hauptsächlich in drittmittelfinanzierten Forschungs- und Entwicklungsprojekten arbeiten (siehe z.B. https://mmk.sbb.berlin/). Unsere Forschung konzentriert sich auf Computer Vision, Natural Language Processing und der Mustererkennung im Kontext von Digitalisierung und kulturellem Erbe, d. h. wir entwickeln und passen Algorithmen und KI-Modelle an, die zur Erkennung und Analyse von Inhalten in den Dokumenten verwendet werden können, die unsere Bibliothek besitzt und kontinuierlich digitalisiert. Anschließend stellen wir sie der Öffentlichkeit online auf möglichst vielfältige und nützliche Weise zur Verfügung und machen sie zugänglich. Das übergeordnete Ziel ist es, das gesamte in den Bücherregalen enthaltene Wissen digital und frei im Internet für jedermann zugänglich und nutzbar zu machen."
Frage N3XTCODER: Im letzten Jahr, natürlich mit der Veröffentlichung von ChatGPT, ist die Aufmerksamkeit für KI plötzlich explodiert. Siehst du das insgesamt als eine positive Entwicklung für Technologie und Gesellschaft oder hast du Bedenken?
Clemens Neudecker: "In unserem Team begannen wir bereits 2016 mit dem Einsatz von KI - oder besser gesagt von maschinellem Lernen/deep learning -. Zu diesem Zeitpunkt begannen vortrainierte neuronale Netze (CNNs) die meisten anderen Methoden bei Computer-Vision-Aufgaben zu übertreffen. Im Jahr 2018 haben wir nach dem Aufkommen von BERT und der Transformer Architecture mit Attention LLMs in unsere Arbeit integriert. Bislang erforderte dies Programmierkenntnisse und Fachwissen in Mathematik und/oder maschinellem Lernen sowie viel Lesen und Verstehen der einschlägigen wissenschaftlichen Arbeiten. Als ChatGPT eingeführt wurde, konnten wir beobachten, dass aufgrund der Einfachheit der Chat-Schnittstelle plötzlich jeder Kollege in der Bibliothek damit herumzuspielen begann. Das ist zwar in erster Linie eine positive Entwicklung, aber die Kommunikation rund um KI wird derzeit von Unternehmen dominiert, die ihre KI-Lösungen als magisch fähig vermarkten alles zu können. In Kombination führte dies dazu, dass die Erwartungen schnell in die Höhe schossen. Wir verbringen viel Zeit damit, diese Ansichten zu widerlegen und die Meinungen von Kollegen und Management über die tatsächlichen Fähigkeiten und Grenzen der KI im Hinblick auf unsere Daten und Anwendungsfälle zu ernüchtern. Hier habe ich nun einige Bedenken - dass wir in der Art und Weise, wie KI in unser Leben eingeführt wird, überfordert werden. KI wird von Big Tech in unser Leben eingeführt. Das bedeutet oft, dass wir uns nicht die Zeit und die Mühe nehmen, in einen integrativen, reflektierenden und demokratischen Prozess einzutreten, um die Kultur der KI zu bestimmen und zu etablieren, die wir als Gesellschaft tatsächlich wollen."
Question N3XTCODER: Wie unterscheiden sich die von Ihnen verwendeten KI-Modelle von den gängigen Modellen, die der Öffentlichkeit zur Verfügung stehen?
Clemens Neudecker: "Populäre KI-Modelle werden in der Regel auf der Grundlage von Daten trainiert, die im Internet zu finden sind, und arbeiten mit zeitgenössischen Inhalten, während die Dokumente, die wir digitalisieren, überwiegend historischer Natur sind. Aufgrund des Urheberrechts sind Bibliotheken, Archive und Museen an Gesetze gebunden, die es ihnen verbieten, Materialien zu digitalisieren und online zu verbreiten, die ursprünglich vor weniger als 70 oder sogar 100 Jahren veröffentlicht wurden. Das bedeutet, dass wir es bei unserer Arbeit mit Dokumenten und Quellen aus einer Zeitspanne von mehr als 400 Jahren zu tun haben, von Gutenbergs Erfindung des Buchdrucks bis zur ersten Hälfte des 20. Jahrhunderts. Und diese Inhalte weisen eine enorme Vielfalt an Sprache, Layout und anderen schwierigen Merkmalen auf. Dies hat uns dazu veranlasst, unsere eigenen Algorithmen zu entwickeln und gängige KI-Modelle so anzupassen, dass sie auch in den historischen und kulturellen Kontexten des digitalisierten Kulturerbes erfolgreich eingesetzt werden können. Dies eröffnet Forschern und Wissenschaftlern aus den digitalen Geisteswissenschaften die Möglichkeit, die digitalisierten und maschinenlesbaren Daten auf quantitative Weise mit Hilfe von Computermethoden zu analysieren. Nicht zuletzt stellen wir bei jeder Veröffentlichung eines Modells nicht nur den Quellcode zur Verfügung, sondern veröffentlichen auch immer die Daten, auf denen es trainiert wurde, ergänzt durch ein Datenblatt (vgl. https://doi.org/10.5334/johd.124), das dies dokumentiert, in Anlehnung an den in Gebru et al., 2018 (https://arxiv.org/abs/1803.09010) formulierten Ansatz. "
Frage N3XTCODER: Es hat mich interessiert, dass Sie über Bibliotheken schreiben, die bewusst versuchen, mit Vorurteilen umzugehen. Können Sie uns sagen, welche Praktiken Bibliotheken für den Umgang mit Voreingenommenheit verwenden und wie dies für den Umgang mit Voreingenommenheit in der KI genutzt werden kann?
Clemens Neudecker: "Fehler werden durch die Daten eingeführt, mit denen ein KI-Modell trainiert wird. Meiner Meinung nach ist dies der Kernaspekt, bei dem Bibliotheken wirklich eine wichtige Rolle bei der weiteren Entwicklung von KI spielen können. Buchstäblich seit Hunderten von Jahren beschäftigen Bibliotheken Fachexperten (Kuratoren) für alle wissenschaftlichen Disziplinen, deren Hauptaufgabe darin besteht, zu bestimmen, welche Informationen und welches Wissen in diesen Disziplinen relevant sind und es verdienen, in das gesammelte Gedächtnis der Menschheit und in die Bibliotheksregale aufgenommen zu werden. Aber das ist noch nicht alles: Sobald etwas in unsere Sammlung aufgenommen wurde, kuratieren wir es auch, d. h. wir indexieren, strukturieren, kommentieren und kontextualisieren die enthaltenen Informationen nach standardisierten Regeln des bibliothekarischen Informationsmanagements, die von einer weltweiten Gemeinschaft entwickelt wurden. Daher können wir die Auswahlkriterien für die Sammlung aus der Vergangenheit und die Vorurteile, die sich in ihnen und damit in der Sammlung widerspiegeln, überdenken und transparent machen. Und natürlich können wir die KI auch nutzen, um strittige Inhalte zu erkennen, wie in einem kürzlich durchgeführten Workshop. Außerdem versuchen wir immer dann, wenn unsere Arbeit im Bereich der KI auf Aufgaben abzielt, die von Menschen ausgeführt werden, die Auswirkungen mit Hilfe von Experten und Methoden wie der Ethical Foresight Analysis abzuschätzen. "
Frage N3XTCODER: Was ist "Ethical Foresight Analysis"? Und wie funktioniert das?
Clemens Neudecker: "Ethical Foresight Analysis ist eine Sammlung von "hermeneutischen" Methoden zur Unterstützung der vorausschauenden Identifizierung und Bewertung ethischer Risiken, die sich aus der Einführung neuer Technologien, Dienste oder Anwendungen für verschiedene Gruppen ergeben können. In einem unserer Projekte arbeiten wir zum Beispiel an einem KI-Tool, das Bibliothekaren helfen soll, indem es automatisch Schlüsselwörter für neue Dokumente vorschlägt, die für unsere Sammlungen erworben werden. Hier arbeiteten wir mit einem Wissenschaftler der Humboldt-Universität zu Berlin zusammen, der strukturierte Interviews mit Mitarbeitern aus verschiedenen Abteilungen unserer Bibliothek sowie mit Benutzern und KI-Experten durchführte. Diese Analyse half uns, verschiedene Perspektiven auf die zu erwartenden Projektergebnisse und deren wahrscheinliche Nutzung zu ermitteln, die wir dann besser in unseren Entwicklungsprozess einbeziehen konnten, z. B. durch Hinzufügen von Prüfungen und Einschränkungen oder durch die Feststellung, wo wir einen zusätzlichen Mitarbeiter benötigen."
Frage N3XTCODER: Sie haben einige Erfahrung mit selbst gehosteter Hardware für maschinelles Lernen, während Plattformen wie openAPI einen Preis-pro-Token-Ansatz verfolgen (Model-as-a-Service-Angebot). Quasi-Open-Source-Modelle wie Lama ermöglichen hingegen eine Feinabstimmung (aber man braucht Rechenleistung von irgendwoher) und eine Art Zwischenstufe der Autonomie. Wie sehen Sie die wirtschaftlichen Kompromisse dieser Ansätze? Sind einige von ihnen wirtschaftlich untragbar und gibt es eine politische Notwendigkeit, dies in irgendeiner Weise anzugehen?
Clemens Neudecker: "Wir sind in der Tat froh, dass wir eine kleine Anzahl von V100/A100-GPUs haben, mit denen wir lokal in der Bibliothek arbeiten können, was es uns ermöglicht, mit neuen Modellen herumzuspielen und Modelltraining durchzuführen, ohne dass wir uns zuerst um die potenziellen Kosten der Berechnung kümmern müssen. Ich halte dies für einen sehr wertvollen Vorteil für unser Team, da ich befürchte, dass unsere Entwickler sich sonst zu sehr damit einschränken oder belasten würden, die zu erwartenden Kosten für die Durchführung eines Experiments im Voraus zu bestimmen, da es sehr komplex und fehleranfällig sein kann, z. B. die Menge der Token in unseren Datensätzen genau zu schätzen. Außerdem können wir, wenn wir z. B. während des Trainings feststellen, dass wir die Hyperparameter anpassen müssen, dies einfach tun und einen neuen Trainingsprozess starten, ohne uns um die damit verbundenen Kosten zu kümmern. Andererseits können und sollten wir als Bibliothek nicht versuchen, mit der Geschwindigkeit und Veralterung der KI-Hardwareentwicklung in der Industrie Schritt zu halten. Stattdessen versuchen wir, für größere Trainingsaufgaben mit Supercomputing-Zentren zusammenzuarbeiten, die spezielles Cloud Computing für den akademischen und öffentlichen Sektor anbieten. Da wir in Sachen Datenschutz an unsere eigenen strengen Richtlinien, aber auch an Gesetze wie GDPR gebunden sind, bedeutet dies manchmal, dass unsere Daten unsere Räumlichkeiten oder unser virtuelles privates Netzwerk nicht verlassen dürfen, um mit KI verarbeitet zu werden. Wir führen daher auch Projekte in diesem Bereich durch, z.B. haben wir mit Gaia-X (https://gaia-x.eu/) zusammengearbeitet, um eine Umgebung zu schaffen, in der ein föderiertes Netzwerk mit eingebautem Vertrauen über das OceanProtocol (https://oceanprotocol.com/) es ermöglicht, die von der Gaia-X-Plattform zur Verfügung gestellten Berechnungen zu nutzen, um unsere Daten in großem Umfang zu bearbeiten, ohne dass diese jemals die gesicherte Umgebung verlassen müssen."
Frage N3XTCODER: In letzter Zeit gab es eine große politische Debatte über die Regulierung von KI. Glauben Sie, dass diese Debatte notwendig ist? Und wenn ja, haben Sie eine Vorstellung davon, auf welche Themen sich die Regulierung konzentrieren sollte?
Clemens Neudecker: "Ein Vorbehalt: Dies sind meine persönlichen und sehr subjektiven Ansichten zu diesem Thema. Ich denke, dass eine breite Debatte über die Regulierung von KI sinnvoll und notwendig ist, aber sie wird meiner Meinung nach derzeit zu sehr von extremen Ansichten beherrscht, sei es von KI-Hype oder KI-Verdrossenen. Wie bei jeder neuen und komplexen Technologie, die die Gesellschaft umkrempelt, müssen wir für möglichst umfassende demokratische und partizipative Prozesse sorgen, anstatt dies nur einigen wenigen zu überlassen. Generell bin ich der Meinung, dass wir nicht damit beginnen sollten, die Anzahl der Grafikprozessoren oder die Anzahl der Parameter eines Modells zu regulieren, sondern uns die Anwendungsfälle und Bedingungen ansehen sollten, unter denen KI eingesetzt wird und was reguliert werden muss. Zum Beispiel RAIL (Responsible AI Licences, https://www.licenses.ai/) versucht dies."
Frage N3XTCODER: Was würden Sie einem Website-Betreiber raten, der von KI abgeleitete Texte und Bilder auf seiner Website und in seiner Marketingkommunikation verwenden möchte?
Clemens Neudecker: "Full disclosure! Seien Sie mutig, aber gehen Sie offen damit um - und stellen Sie sicher, dass es Möglichkeiten gibt, Feedback von den Nutzern einzuholen."
Frage N3XTCODER: Welche Entwicklungen werden deiner Meinung nach in Zukunft im Bereich der KI sehen?
Clemens Neudecker: "Eine neuere Entwicklung in der KI sind multimodale Modelle, die sowohl mit Text- als auch mit Bilddaten umgehen können. Ich bin gespannt, was passiert, wenn wir die ersten Modelle sehen, die auch mit Audio- oder Videodaten trainiert sind und nahtlos damit arbeiten können. Dies sollte eigentlich nur eine Frage der Berechnung sein, aber es könnte eine Menge zusätzlicher Daten für das Training neuer und noch leistungsfähigerer KI-Modelle erschließen."
N3XTCODER: Clemens, vielen Dank für deine Zeit!