Was sind Basismodelle und warum sind sie im NLP so nützlich?
In den letzten Jahren wurde der Bereich der künstlichen Intelligenz (KI) und der Verarbeitung natürlicher Sprache (NLP) von den sogenannten „Basismodellen“ im Sturm erobert. Selbst wenn Sie keine KI-Updates verfolgen, haben Sie vielleicht Bilder gesehen, die von den kürzlich veröffentlichten DALL-E-2, Jasper, Stable Diffusion oder sogar der neuesten KI-App Lensa erzeugt wurden, die Social-Media-Plattformen mit KI-generierten „Avataren“ überschwemmt. Vielleicht haben Sie die Behauptung gelesen, dass ChatGPT automatisch Text auf nahezu menschlichem Niveau produzieren kann. Aber Basismodelle sind für viel mehr hilfreich als nur zur Unterhaltung der eigenen Follower in den sozialen Medien: Sie werden von vielen Unternehmen eingesetzt, um ihre datenbezogenen Aufgaben automatisch zu lösen.
Sprachmodelle wie ELMo oder BERT machen KI und datengesteuerte Lösungen für viel mehr Unternehmen zugänglich, als dies noch vor wenigen Jahren möglich war. Domänenspezifische Modelle, die von der größeren Grundlage abzweigen, erleichtern die Entwicklung effektiver Lösungen für Bereiche, die eine komplexe und spezifische Terminologie erfordern (wie BioBERT, biomedizinisches BERT; SciBERT, BERT für biomedizinische und computerwissenschaftliche Bereiche; clinicalBERT; Legal-BERT und andere). Darüber hinaus sind die Modelle der BERT-Familie in einer Vielzahl von Sprachen verfügbar, was die Entwicklung von KI-Lösungen ermöglicht, die nicht auf die Verwendung von Englisch beschränkt sind.
Das hört sich alles sehr vielversprechend an, aber welche Aufgaben können mit NLP tatsächlich gelöst werden, fragen Sie sich?
Obwohl NLP immer bekannter wird und inzwischen sogar im Trend liegt, ist es immer noch ein recht neues Wissensgebiet, und die Menschen kennen oft nicht seine wahren Fähigkeiten. Viele Unternehmen fühlen sich nicht bereit, NLP zu nutzen, weil sie nicht wissen, wie genau sie davon profitieren können.
Hier eine Handvoll konkreter Anwendungsfälle:
- Sammeln Sie Kundenfeedback in Form von Freitext (Notizen in einem CRM-System oder durch Online-Produktbewertungen), haben aber Schwierigkeiten, daraus einen Nutzen zu ziehen? NLP-Anwendungen wie die Sentimentanalyse können Ihnen helfen, dieses Feedback automatisch zu analysieren und zu verstehen, was von Ihren Kunden als gut oder schlecht empfunden wird.
- Bekommt Ihr Kundensupport-Team eine Menge ähnlicher Anfragen von Kunden? Anstatt sie manuell zu sortieren, können Sie Ihrem Team Zeit sparen, indem Sie ein Textklassifizierungsmodell verwenden, um automatisch die entsprechende Abteilung für jede Anfrage zu definieren. Immer noch zu viele E-Mails? Dasselbe Modell kann auch maßgeschneiderte automatische Antworten auf der Grundlage des Inhalts einer empfangenen E-Mail senden, um die Belastung des Support-Teams weiter zu verringern.
- Haben Sie eine Online-Plattform mit einem umfangreichen Katalog von Artikeln? Ihre Nutzer könnten sich freuen, wenn ihnen dank einer NLP-gestützten Empfehlungsmaschine ähnliche oder relevante Artikel vorgeschlagen werden, die sie bereits mögen oder kaufen.
- Sind Sie eine Versicherungsgesellschaft? Dann könnten Sie Entity Extraction bei der Bearbeitung von Schadensfällen einsetzen, um relevante Informationen zu extrahieren und Schadensformulare automatisch auszufüllen. So viel Zeit könnte gespart werden!
- Sind Sie ein Gesundheitsdienstleister? Auch Ihnen kann die Entity Extraction helfen, indem sie unstrukturierte Gesundheitsdaten in strukturierte Daten umwandelt, die dazu verwendet werden können, Muster zu finden und die Entwicklung von Krankheiten in jedem einzelnen Fall vorherzusagen.
Sie fragen sich vielleicht: Sind NLP-Algorithmen zuverlässig genug, um ihnen solche Aufgaben zu übertragen? Wir wären nicht in diesem Geschäft, wenn wir nicht fest davon überzeugt wären, dass sie es sind. Erwarten Sie jedoch nicht, dass KI-Modelle ab einer gewissen Komplexität jemals eine 100 %ige Vorhersagegenauigkeit erreichen (das tun nicht einmal Menschen). Der Hauptvorteil des Einsatzes von KI besteht nicht darin, alle Fehler zu vermeiden, sondern vielmehr darin, dass sie gängige und sich wiederholende Szenarien automatisch abwickelt (Automatisierung textbasierter Aufgaben im Falle von NLP-Modellen) und so die Arbeitsbelastung menschlicher Experten verringert, die ihre Zeit und ihr Wissen schließlich für die Bearbeitung komplexer Fälle einsetzen können.
Die gute Nachricht ist, dass es seit der Einführung von Basismodellen enorme Fortschritte bei der Genauigkeit von NLP-Aufgaben gegeben hat, so dass bei vielen wichtigen Anwendungen fast menschliche Leistungen erreicht wurden.
Was genau sind also Grundlagenmodelle in der KI?
Ein Modell der künstlichen Intelligenz ist ein Programm, das darauf trainiert ist, logische Entscheidungsprozesse auf der Grundlage verfügbarer Daten zu emulieren, mit dem Ziel, bestimmte Aufgaben zu erfüllen. Eine Aufgabe kann alles sein, von der Wettervorhersage auf der Grundlage historischer Daten bis hin zur Kategorisierung von Nachrichtenartikeln in Kategorien wie Sport, Politik, Musik usw.
Das Modell kann auf verschiedene Weise trainiert werden, hauptsächlich durch:
- Überwachtes Lernen, bei dem die Daten beschriftet sind und das Modell Muster im Text erkennt, die den einzelnen Beschriftungen entsprechen (z. B. gehören in Nachrichtenartikeln Wörter wie „Fußball“ oder „Tennis“ wahrscheinlich zu einer „Sport“-Beschriftung);
- Unüberwachtes Lernen, bei dem im Gegensatz dazu keine Bezeichnungen im Datensatz vorhanden sind und das Modell lernen muss, wie es Informationen auf der Grundlage der Ähnlichkeit zwischen Elementen in Gruppen zusammenfassen kann (es erkennt Muster im Text, um Daten zusammenzufassen);
- Selbstüberwachtes Lernen, das ebenfalls keine manuell beschrifteten Daten benötigt, sondern die Daten selbst verwendet, um die Beschriftungen zu erstellen (was besonders nützlich ist, da beschriftete Datensätze nur selten verfügbar, aber äußerst wertvoll sind). Bleiben Sie dran für unseren Artikel im nächsten Monat, in dem es um eine neue und leistungsstarke Anwendung dieser Trainingsmethode in Computer Vision Anwendungen geht.
Warum ist das so besonders?
Durch die Vorhersage von maskierten Wörtern in einer großen Menge von Texten lernt ein Modell viel darüber, wie Sprache funktioniert, sowohl auf der Ebene der Struktur (Grammatik) als auch der Bedeutung (Semantik). In unserem obigen Beispiel würde das Modell verstehen, dass das maskierte Wort ein Substantiv ist, dass es der Name einer Sprache ist, weil es auf das Verb „sprechen“ folgt, und dass es die Sprache ist, die der weiteren Bedeutung des Satzes entspricht, z. B. dem Herkunftsland des Sprechers. Auf diese Weise würde es lernen, das Wort „Französisch“ vorherzusagen.
Wenn es um Sprachanwendungen geht, wird ein Modell auf einer Menge von Rohtexten trainiert, die in der Regel aus verschiedenen Quellen im Internet stammen. „Roh“ bedeutet, dass die Texte nicht manuell von Menschen beschriftet wurden - dank dieser selbstüberwachten Lernmethode müssen wir also keine Ressourcen für einen langen und teuren Annotationsprozess aufwenden.
Dank des Internets können wir relativ leicht eine große Menge an Text zum Trainieren eines Modells erhalten. Wenn wir das Modell in einem bestimmten Bereich trainieren wollen (z. B. im juristischen, klinischen oder wissenschaftlichen Bereich), können wir oft auch Texte für diesen Bereich im Internet finden. Das hört sich trivial an, aber vor ein oder zwei Jahrzehnten war dies noch nicht der Fall, und das Trainieren solch großer Modelle war unmöglich.
Die nächste Stufe besteht darin, dass die vom Modell erfassten Informationen über die Sprache zur Grundlage für die Lösung spezifischerer Aufgaben wie Textklassifizierung oder Informationsextraktion werden, indem das Modell auf einer relativ kleinen Menge gelabelter Daten fein abgestimmt wird und Methoden des überwachten Lernens effizienter eingesetzt werden.
Warum haben sich die Stiftungsmodelle als ein solcher Durchbruch in NLP und KI erwiesen?
Künstliche Intelligenz umfasst mehrere Bereiche, aber einige davon haben am meisten von der Einführung von Grundlagenmodellen profitiert. Drei herausragende Beispiele sind: Natürliche Sprachverarbeitung (wie wir bisher gesehen haben, befasst sie sich mit allen textbasierten Aufgaben); automatische Spracherkennung (für die Transkription oder Übersetzung von Sprachdaten); und Computer Vision (alles, was mit visuellen Medien zu tun hat, fällt in diesen Bereich, z. B. die Erkennung von Objekten in Bildern und Videos).
NLP gab es schon lange vor dem Aufkommen von Stiftungsmodellen. Allerdings war es noch nicht so weit verbreitet: Nur wenige Unternehmen versuchten, NLP zur Lösung ihrer textbezogenen Aufgaben einzusetzen. Als es noch keine Basismodelle gab, die viel Sprachwissen kodieren, mussten menschliche Entwickler bei der Entwicklung von NLP-Lösungen dieses Sprachwissen irgendwie kodieren. Dies konnte in Form von lexikalischen Ressourcen, regelbasierten Systemen und manuell erstellten Merkmalen geschehen, die in maschinelle Lernmodelle eingespeist wurden. Solche Ansätze erforderten ein Expertenteam, das technisches und fachliches Wissen (und oft auch Sprachkenntnisse) miteinander kombinierte, sie waren sehr zeit- und arbeitsaufwändig und ließen sich nur schwer skalieren oder in einem anderen Bereich oder für eine andere Aufgabe wiederverwenden. Das bedeutet, dass nur wenige Unternehmen über die für die Entwicklung solcher Ansätze erforderlichen Ressourcen und Experten verfügten.
NLP-Lösungen, die auf grundlegenden Modellen basieren, übertreffen selbst die sorgfältigsten Algorithmen. Das bedeutet nicht, dass wir keine Experten mit technischem, sprachlichem und fachlichem Wissen mehr brauchen - das tun wir immer noch. Aber heutzutage sind KI-Basismodelle in der Lage, ein breites Spektrum von Fällen zu lösen, während sich Experten auf die Entwicklung komplexerer Lösungen für die komplexesten Anwendungen konzentrieren können.
Wer kann KI-Lösungen mit Hilfe von Basismodellen entwickeln?
Basismodelle sind derzeit ein Trendthema im Bereich der Datenwissenschaft. Das bedeutet, dass das Internet voll von Tutorials und Crash-Kursen ist, die behaupten, Ihnen beizubringen, „wie man ein Modell für <NLP-Aufgabe> in nur ein paar Zeilen Code trainiert“.
Dank der rasanten Entwicklung von NLP gibt es heute mehrere Softwarebibliotheken, die einen einfachen Zugang zu Basismodellen und die Entwicklung maßgeschneiderter Modelle durch Feinabstimmung auf spezifische Aufgaben und Daten mit weniger Code ermöglichen. Das bedeutet jedoch nicht, dass minimale Programmierkenntnisse ausreichen, um KI-Modelle zu entwickeln.
Zunächst einmal wird die Ausführung dieser „wenigen Codezeilen“ ein Basismodell hervorbringen, das zwar eine annehmbare Leistung aufweist, aber nicht in der Lage ist, einen Geschäftsfall effektiv zu lösen - Sie müssen über die wenigen Codezeilen hinausgehen, die man in einem Crashkurs lernen kann. Erfahrene Datenwissenschaftler sind in der Lage, die beste Modellarchitektur zu ermitteln (z. B. die geeignete Form der Ausgabeschicht für binäre, Mehrklassen- oder Multilabel-Einstellungen zu wählen) und aus einer breiten Palette verfügbarer Modelle (ELMo, BERT, DistilBERT, RoBERTa, domänenspezifische Versionen usw.) zu wählen, wobei sie die Rechenanforderungen und den Kompromiss zwischen Geschwindigkeit und Genauigkeit im Auge behalten, um die beste Leistung zu erzielen.
Zweitens müssen Sie das Modell so anpassen, dass es Ihren Zielen genau entspricht, und das erfordert hochwertige Daten. Selbst grundlegende Modelle, so leistungsfähig sie auch sein mögen, werden keine vernünftigen Ergebnisse liefern, wenn die für die Feinabstimmung verwendeten Daten unordentlich sind. In Crash-Kursen und Tutorien wird in der Regel gezeigt, wie man ein Modell anhand eines schönen und sauberen Datensatzes entwickelt, aber Daten aus der realen Welt sind nicht so: Sie enthalten immer Rauschen, fehlende Werte, unausgewogene Klassen... Es ist vielleicht nicht einmal offensichtlich, welche Daten Sie zur Lösung Ihrer Aufgabe verwenden können. Ein Spezialist mit praktischer Erfahrung in der Praxis kann die verfügbaren und geeigneten Daten ermitteln, sie bereinigen und für die Einspeisung in das Modell vorbereiten.
Schließlich ist es mit der Aufbereitung der Daten und dem Schreiben eines Trainingsskripts noch nicht getan, wenn man eine KI-Lösung entwickeln will. Sie müssen während der Entwicklung und nach der Bereitstellung geeignete Rechenressourcen ermitteln und nutzen können, eine geeignete Infrastruktur für die Bereitstellung auswählen, Modelle und Daten hosten usw. Dies sind Aufgaben, die eine Ausbildung erfordern, die nicht in einem Crash-Kurs in Datenwissenschaft vermittelt werden kann.
Manchmal ist es am besten, wenn man weiß, wann man Fundamentmodelle nicht verwenden sollte. Sie sind groß, benötigen viel Speicherplatz, brauchen viel Zeit zum Trainieren und sind nicht umweltfreundlich. In manchen Fällen lassen sich NLP-Aufgaben leichter ohne Basismodelle oder sogar ohne komplexes NLP lösen.
Wir haben KI-Modelle und speziell Basismodelle definiert; wir haben erörtert, wie sie trainiert werden und wie sie NLP-Aufgaben ausführen können; und schließlich haben wir erklärt, warum die Entwicklung und Verwendung dieser Modelle nicht für jedermann geeignet ist, auch wenn die Lösung komplexer Probleme jetzt viel leichter zugänglich ist.
Die Basismodelle haben zweifellos eine neue Ära im NLP eingeleitet und die bisherigen Methoden bei einer Vielzahl von Aufgaben übertroffen. Wir wissen das - wir haben Spezialisten in unserem Team, die schon vor diesen Modellen an der NLP-Entwicklung gearbeitet haben, und andere, die ihre Anwendung seit ihrer Studienzeit beherrschen. Wir haben vielen Kunden bei der Lösung von Problemen und der Steigerung der Effizienz geholfen, indem wir NLP-Anwendungen mit Foundation-Modellen entwickelt haben. So haben wir zum Beispiel ein Modell entwickelt, das Informationen aus einer spezialisierten juristischen Dokumentendatenbank extrahiert und dem Benutzer beim Verfassen von Unternehmenstexten hilft, indem es vorgefilterte, gebrauchsfertige Texte präsentiert. Andere Beispiele sind benutzerdefinierte Chatbots, virtuelle Assistenten und automatisierte E-Mail-Prozesse dank der Textklassifizierung. Dank unserer Erfahrung und der vielen Anwendungen, die wir kennen, wissen wir jedoch auch, wann wir unsere Kunden über Lösungen beraten müssen, die diese Modelle nicht beinhalten.
Wir hoffen, dass wir Ihnen ein besseres Verständnis der Grundlagenmodelle vermitteln konnten, und laden Sie ein, unsere Seite zu verfolgen, um auf dem Laufenden zu bleiben, wenn wir einen neuen Artikel veröffentlichen. Nächsten Monat werden wir uns mit dem selbstüberwachten Training für Computer Vision Anwendungen beschäftigen.
Artificialy
Artificialy ist ein führendes Kompetenzzentrum, das dank seiner Verbindungen zu renommierten KI-Wissenschaftsinstituten aus den besten wissenschaftlichen Erkenntnissen schöpft und die besten Talente im Bereich Data Science anzieht und bindet. Spitzen-Know-how wird gepaart mit der 25-jährigen Erfahrung der Gründer in der Durchführung von Projekten mit großen Firmen und der Lieferung messbarer Ergebnisse an Unternehmen.