Grosse Sprachmodelle

Siegfried Handschuh

Journal Article

Grosse Sprachmodelle

Handschuh S

Informationswissenschaft: Theorie, Methode und Praxis (2024) 8(1) 11-29

DOI: 10.18755/iw.2024.3

N/ACitations

8Readers

Get full text

Abstract

Der Artikel gibt einen umfassenden Überblick über den aktuellen Stand der Forschung zur generativen KI und insbesondere grossen Sprachmodellen (Large Language Models, LLMs). Es werden die Architektur, das Training und die emergenten Fähigkeiten von LLMs wie GPT-3 erläutert. Grosse Sprachmodelle basieren auf neuronalen Netzen und werden auf riesigen Textdatenmengen trainiert. Dabei lernen sie, basierend auf dem bisherigen Textverlauf das jeweils nächste Wort vorherzusagen. Obwohl dies eine einfache Aufgabe ist, ermöglicht dies komplexe sprachliche Fähigkeiten. Mit zunehmender Modellgrösse zeigen LLMs dabei unerwartete emergente Fähigkeiten wie Textzusammenfassung, mathematische Operationen oder räumliches Denken. Allerdings haben LLMs auch Schwächen wie die Tendenz zum Fabulieren bei Wissenslücken und mangelnde Kohärenz. Aktuell gibt es rasante Fortschritte durch neue Modelle wie GPT-3 und ChatGPT. Zukünftige Entwicklungen müssen ethische Aspekte berücksichtigen. Insgesamt eröffnen grosse Sprachmodelle faszinierende Möglichkeiten, aber weitere Forschung ist nötig. Der Artikel liefert eine umfassende Übersicht zu Chancen und Herausforderungen dieses rasanten Technologiefeldes.

Cite

CITATION STYLE

APA

Handschuh, S. (2024). Grosse Sprachmodelle. Informationswissenschaft: Theorie, Methode Und Praxis, 8(1), 11–29. https://doi.org/10.18755/iw.2024.3

Grosse Sprachmodelle

Abstract

Cite

Register to see more suggestions