Free AI web copilot to create summaries, insights and extended knowledge, download it at here

Abstract

inanzen und Spielen.Ich lade Sie ein, die Daten, mit denen Sie im Internet interagieren, genau zu beobachten. Viele von ihnen sind synthetisch, und wir bemerken es nicht immer.<h2 id="77eb">Das Zeitalter der synthetischen Daten</h2>Wir treten in das Zeitalter synthetischer Inhalte ein, in dem Texte, Bilder, Musik, Bücher und Videos von Maschinen generiert werden und die “Ära der generativen KI” vorantreiben.Diese Revolution, vergleichbar mit der Aufklärung, der Entstehung von Elektrizität, Computern und dem Internet, stellt bedeutende Herausforderungen dar.Diese Revolution birgt wichtige Herausforderungen in sich, die sorgfältige Herangehensweisen erfordern und eine Transformation von globaler Reichweite repräsentieren.Es ist von höchster Bedeutung, wachsam zu bleiben, um sicherzustellen, dass dieser Übergang im Interesse der gesamten Menschheit erfolgt.<h1 id="baa4">Abschnitt 4 — ChatGPT und die Grundlagenmodelle</h1><figure id="f2ee"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*JeJuIry2zGNRTv1bRlCo4g.jpeg"><figcaption>Impressionistisches Gemälde über Generative KI (Bildnachweis: MS Image Creator).</figcaption></figure>Die Anwendungen der Generativen KI werden durch die sogenannten Grundlagenmodelle angetrieben, ein kürzlich geprägter Begriff des HAI (Human-Centered Artificial Intelligence) der Stanford University, der rasch von der KI-Gemeinschaft übernommen wurde.Sie werden “Modelle” genannt, da sie einen Versuch darstellen, Aspekte der realen Welt basierend auf umfangreichen Datensätzen zu simulieren oder zu modellieren, die während ihres Trainings verwendet werden.Im Gegensatz zur klassischen KI, die gelabelte Daten und Tausende von Arbeitsstunden erforderte, um Bilder, Text oder andere Arten von Daten zu identifizieren und zu labeln, werden die Grundlagenmodelle mit ungelabelten Datensätzen trainiert, was eine Anpassung an verschiedene Aufgaben mit minimalen Anpassungen ermöglicht.Die Grundlagenmodelle setzen ein neues Erfolgsparadigma für den Aufbau von KI-Systemen. Nach umfassendem Training sind diese Modelle anpassungsfähig, um andere spezialisierte Modelle und mehrere Anwendungen zu generieren.Nach dem Training können auf diese Modelle über APIs zugegriffen werden, was Entwicklern die Erstellung neuer Anwendungen ermöglicht.<figure id="59e9"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*-QWfOesWBSaRAiMpaCWD-w.jpeg"><figcaption>Screenshot von ChatGPT, der fragt, was ein Grundlagenmodell ist.</figcaption></figure>Wir erleben die ersten Anzeichen des Potenzials dieser Modelle in der Welt von Sprache und Bildern, wie zum Beispiel ChatGPT, Gemini und DALL-E, die zeigen, wozu diese Technologie in der Lage ist.Das herausragende Merkmal dieser Modelle ist die Fähigkeit, das in früheren Aufgaben erworbene Wissen auf neue Aufgaben anzuwenden. Dieses selbstüberwachte Lernen und der Wissenstransfer legen eine Intelligenz nahe an der menschlichen nahe.Die durch diese Modelle geschaffenen Möglichkeiten erstrecken sich über verschiedene Branchen, einschließlich Gesundheit, Bildung, Übersetzung, soziale Netzwerke und Recht, und machen unsere Gesellschaft produktiver.Die Grundlagenmodelle, wie sie im GPT-3 von OpenAI und seinem Nachfolger, dem GPT-4, exemplifiziert sind, mit Billionen von Parametern, können beeindruckende Verhaltensweisen zeigen, aber auch unerwartete Fehler und Voreingenommenheiten, die noch wenig verstanden sind.OpenAI warnt vor möglichen Halluzinationen und betont die Bedeutung, die Risiken im Zusammenhang mit diesen Technologien sorgfältig zu bedenken.Trotz der Erweiterung menschlicher Fähigkeiten führen diese Modelle auch ethische Herausforderungen ein und können Voreingenommenheiten verstärken, was das Vertrauen in Informationen untergraben kann. Dies betont die Notwendigkeit eines vorsichtigen und reflektierten Ansatzes gegenüber diesen Innovationen.<h1 id="0e17">Abschnitt 5 — ChatGPT und die Modelle der LLMs (Large Language Models)</h1><figure id="3a88"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*RWHR9cem4nYO65S6x3o2_A.jpeg"><figcaption>Impressionistisches Gemälde über Große Sprachmodelle in KI-Anwendungen (Bildnachweis: MS Image Creator).</figcaption></figure>Die LLMs (Large Language Models) werden als eine der herausragenden Kategorien unter den Grundlagenmodellen anerkannt.LLMs sind maschinelles Lernen Modelle, die aus einer großen Anzahl von Datendokumenten lernen, um die Erzeugung von Sprache für allgemeine Zwecke durchzuführen.Sie entstanden aus der Verbindung von Linguistik und Informatik im Bereich der natürlichen Sprachverarbeitung (NLP — Natural Language Processing).Das Sprachmodell ist ein probabilistisches NLP-Modell, das Aufgaben wie Übersetzung, Grammatikprüfung und Textgenerierung für menschliche Aktivitäten ausführt.Diese Modelle spielen eine entscheidende Rolle bei der Bewältigung sprachlicher Herausforderungen, indem sie Algorithmen des Natural Language Processing (NLP) und die innovative Trainingsmethode namens ‘Transformers’ einsetzen.Die ‘Transformers’-Algorithmen arbeiten unbeaufsichtigt an einem umfangreichen Korpus natürlicher Sprachtexte während des Vor-Trainings, bevor sie durch menschliche Intervention angepasst werden.Der ChatGPT übernimmt diese Technik, bei der er Bedeutung für umfangreiche Textsequenzen zuweist, um die Beziehung zwischen verschiedenen Wörtern oder semantischen Komponenten zu verstehen.Dieser Prozess beinhaltet die Bestimmung der Wahrscheinlichkeit des nächsten Auftretens zwischen ihnen und stellt ein statistisches Spiel der Vorhersage auf der Grundlage des erlernten Wortschatzes und zuvor assimilierter Phrasen dar.Das Vor-Training repräsentiert die Phase, in der das System eigenständig die Beziehungen zwischen den Wörtern eines Textes assimiliert.LLMs spielen eine entscheidende Rolle bei der Entwicklung von Systemen, die in der Lage sind, Wissen zu verstehen und zu generieren, basierend auf dem, was mündlich oder schriftlich kommuniziert wird.Ein praktisches Beispiel für die Funktionsweise dieser Modelle findet sich in automatischen Formular- und SMS-Ausfüllungen, bei denen das System relevante Wortalternativen beim Tippen vorschlägt.Dies bedeutet, die nächste oder sogar die übernächste oder überübernächste Wortvorhersage zu treffen. Diese Fähigkeit, statistisch zu organisieren, wie viele Wörter dem Benutzer gezeigt werden können, hängt von der Kontextbreite der LLMs ab.Zum Beispiel erreicht das ChatGPT 3 bis zu 2048 Tokens, was durchschnittlich 300 Wörter entsprechen würde. Die aktuellen Modelle von LLMs haben jedoch viel größere Kontextbreiten von 16K, 32K, 64K, 128K, was die Anzahl der analysierten und beantworteten Tokens erhöht.Mit jedem Produktlaunch werden diese Mengen erhöht. Zum Beispiel kann das Google Gemini trotz der Bewältigung eines Kontextfensters von 128K Tokens bereits für 1 Million Tokens getestet werden.Das 128.000-Token-Kontextfenster im GPT-4 Turbo kann etwa 300 Seiten Informationen entsprechen.Das bedeutet, dass das Modell in der Lage ist, Prompts zu verarbeiten, zu analysieren, zu verstehen und zu beantworten, was einem Buch mit 300 Seiten in einem einzigen Kontextfenster entspricht.Diese erweiterte Fähigkeit ermöglicht es dem GPT-4 Turbo, einen breiteren Kontext zu bewahren, was zu kohärenteren und relevanteren Antworten führt.Zusammenfassend steigt die Fähigkeit dieser Systeme, Wörter vorherzusagen oder statistisch korrekte Antworten vorherzusagen, mit zunehmender Raffinesse, was ein entscheidendes Element in der Evolution von LLMs darstellt.<h2 id="b1a0">1 — Modelle, die in verschiedenen menschlichen Tätigkeiten geschult sind</h2>Es fällt auf, dass diese Modelle in jede Art menschlicher Tätigkeit passen können, wenn sie ordnungsgemäß trainiert sind. Zum Beispiel:<ul><li>Systeme, die mit Werken berühmter Künstler geschult sind, können neue Kunstwerke im Stil dieser Künstler generieren.</li><li>Systeme, die mit Mathematik- oder Chemie-Lehrbüchern geschult sind, können Ergebnisse mit neuen Ideen in diesen Bereichen generieren.</li><li>Systeme, die mit Rechtsfällen geschult sind, können lernen und zur Entwicklung und Lösung von Fällen in Gerichten und Gerichten beitragen.</li></ul>Es ist zu erkennen, dass diese Systeme in den kommenden Jahren in verschiedene Lebensbereiche eindringen wer

Options

den, und wir werden mit vielen von ihnen in unserem Bildungs-, persönlichen und beruflichen Leben interagieren.Aus diesem Grund erleben wir einen Wettlauf, um diese Technologie zu beherrschen und zu verbessern, die genauso wichtig sein kann wie das Internet und tiefgreifende Veränderungen in der Gesellschaft mit sich bringen kann, ähnlich wie die agrarische, industrielle und technologische Revolution.<figure id="f256"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*DWeRzlqPm7yeNuiUMGo3Bg.jpeg"><figcaption>Screenshot von ChatGPT, der nachfragt, was LLM in KI bedeutet.</figcaption></figure><h2 id="ccb9">2 — LLM-Algorithmus</h2>LLM (Large Language Models) ist ein tiefes Lernalgorithmus, das neuronale Netzwerke verwendet und in der Lage ist, Texte und andere Inhalte zu erkennen, zusammenzufassen, zu übersetzen, vorherzusagen und zu generieren. Diese Fähigkeiten basieren auf dem Wissen, das während des Trainings mit großen Mengen an Daten erworben wurde.Diese textbasierten Modelle sind nicht nur auf Unterricht oder die Übersetzung menschlicher Sprachen beschränkt. Sie können auch auf Textfragen antworten, die von Chatbots in einer Vielzahl von Anwendungen gestellt werden, wie zum Beispiel:<ul><li>Verständnis von Proteinen, Molekülen, DNA und RNA.</li><li>Schreiben von Computercode.</li><li>Erstellen von Text-Bild-Paaren für Bildgeneratoren.</li><li>Verbesserung von Suchmaschinen.</li><li>Komponieren von Musik, Schreiben von Gedichten, Geschichten und Büchern.</li></ul>Diese Modelle haben in den Bereichen Künstliche Intelligenz, wie zum Beispiel Schlussfolgerungen, gesunder Menschenverstand und Problemlösung, hervorragende Fähigkeiten gezeigt.Einige der bekanntesten LLM-Modelle sind:<ul><li>GPT (Generative Pre-Trained Transformer) von OpenAI, das im ChatGPT verwendet wird.</li><li>CODEX von OpenAI zur Generierung von Computercode. Sydney von Microsoft, entwickelt auf der Grundlage von ChatGPT für Bing.</li><li>Gemini von Google. Megatron von Nvidia.</li><li>Llama und RoBERTa (Robustly Optimized BERT Approach) von Facebook.</li><li>BLOOM (BigScience Large Open-science Open-Access Multilingual Language Model) der Europäischen Gemeinschaft, entwickelt von einem Konsortium aus Forschern, Regierungen und europäischen Unternehmen.</li><li>Jurassic von der israelischen AI21.</li></ul>Neben den bekanntesten setzen viele Unternehmen darauf, LLMs für den eigenen Gebrauch zu entwickeln oder auf dem Markt zu vermarkten, wie Baidu, DeepMind, Meta, AI21 Labs, LG AI Research, Anthropic, Huawei und viele andere.Der Wettlauf besteht darin, LLMs für das eigene Geschäft zu entwickeln oder zu kommerzialisieren, indem der Zugang zu trainierten Systemen über Software-APIs ermöglicht und für den Zugang und den Inhalt Gebühren erhoben werden.Alle wollen sich einen Platz auf dem Markt für generative KI sichern, da sie wissen, dass diese Revolution Produkte, Dienstleistungen und unsere gesamte Gesellschaft signifikant verändern wird.<figure id="1b74"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*QXnhRPO6TmShc3585RB3xQ.jpeg"><figcaption>Bildschirmaufnahme, die den ChatGPT nach den wichtigsten LLMs für KI fragt.</figcaption></figure><h1 id="28b1">Abschnitt 6 — Investitionen zur Entwicklung von Generativer KI</h1>Die Welt der Generativen KI ist auf die am besten finanzierten Akteure beschränkt.Microsoft investiert zusätzlich zu den bereits getätigten Investitionen 10 Milliarden in OpenAI, während Google, Meta, Amazon und Apple erhebliche Investitionen tätigen, um keinen Marktanteil zu verlieren.Da niemand alles alleine tun kann, gibt es auf diesem neuen Markt fast immer eine Partnerschaft zwischen:<ul><li>Denjenigen, die den Willen und das Talent haben. In diesem Fall Start-ups oder agile Technologieunternehmen (OpenAI, DeepMind, Stable Diffusion usw.).</li><li>Denjenigen, die die Inhalte haben. In diesem Fall Suchmaschinen, Enzyklopädien, Bibliotheken, Buchhändler usw. (Google, Microsoft Bing, Wikipedia, Meta usw.).</li><li>Denjenigen, die über Infrastrukturtechnologieressourcen verfügen, wie Cloud-Services (AWS, Google, Azure Microsoft).</li><li>Denjenigen, die die Hardware besitzen, in diesem Fall die Hersteller von GPUs (Nvidia, Intel, AMD).</li></ul>Google wird als der Elefant im Raum betrachtet, der einzige, der alles intern hat und daher unabhängig von Dritten entwickeln kann. Allerdings zögert das Unternehmen, Open-Source-Daten zu nutzen, da dies möglicherweise einen Rückschlag bedeuten könnte, indem eine Technologie populär gemacht wird, die direkt ihr wertvollstes Geschäft beeinträchtigen könnte: den Verkauf von Werbung in der Suchmaschine.Auf der anderen Seite suchen kleine und mittelständische Unternehmen nach Lösungen, indem sie die APIs dieser großen Systeme nutzen, um den Zugang und die Token-Kosten zu reduzieren, und auch Open-Source-LLMs verwenden, die keine Trainingskosten haben.Bei der Berücksichtigung von großen Rechenressourcen und Energieverbrauch ist eine interessante Anmerkung, dass das Training eines großen LLM-Modells die gleiche CO2-Bilanz hat wie das Fahren von fünf Autos während ihrer Lebensdauer.GPT-3.5 wurde mit 10.000 Nvidia-GPUs trainiert, zu einem Kostenpunkt von 10.000 US-Dollar pro GPU. GPT-4, so sagt man, hat 30.000 dieser GPU-Platten genutzt. Die Kosten für den Energieverbrauch oder die Gesamtkosten der von Microsoft in der Partnerschaft mit OpenAI verantworteten Technologieinfrastruktur sind nicht bekannt.<h2 id="a1d6">1 — Die APIs sind die Lösung, um keine Zeit zu verlieren.</h2>Die APIs (Anwendungsprogrammierschnittstellen) ermöglichen die Integration zwischen verschiedenen Systemen, Plattformen und Geräten durch den Aufruf von Funktionen und Routinen.Die OpenAI hat die Führung übernommen und bietet APIs für den Zugang zu ihren Systemen sowie Geschäftsmodelle für Einzelpersonen und Unternehmen an.Das Modell der API-Nutzung sollte sich auf andere Umgebungen ausweiten, wie zum Beispiel das Gemini von Google, Microsoft, Nvidia, BLOOM und andere LLMs, die kürzlich entstanden sind.Die größten Kosten, wie die Schulung der LLM und die Entwicklung der Algorithmen, sind bereits festgelegt. Der Zugang zur Anwendung kann zu Bruchteilen von Dollar pro Zugriff und Datenvolumen gegen Token-Kosten erfolgen.Ein ausgezeichnetes Geschäft, um die anfänglichen Kosten der LLMs zu decken und neue Anwendungen zu entwickeln, um sie auf dem Markt zu vermarkten.Die Kreativität wird in dieser neuen Welt der Generativen KI das Limit sein, mit dem wachsenden Angebot der LLMs und ihren umfangreichen Datenvolumenreichen Imperien.<h1 id="6495">Abschnitt 7 — Das letzte Wort</h1><figure id="6abe"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*AtU3GPvOZKWfmpHLfvN1_A.jpeg"><figcaption>Impressionistisches Gemälde über Große Sprachmodelle in KI-Anwendungen (Credits MS Image Creator).</figcaption></figure>Technologien, die am richtigen Ort und zur richtigen Zeit entstehen, werden oft einzigartig und exponentiell, prägen eine Ära des Wandels in der Menschheit.Mikrocomputer, Internet, Webbrowser, iPhone, Cloud Computing, und andere haben Verhaltensänderungen in der Gesellschaft verursacht und einen Einfluss auf den Markt gehabt.Der Einfluss der Generativen KI wird nur spürbar sein, wenn sie populär wird und einen Zugang für eine möglichst große Anzahl von Menschen ermöglicht.Mit dem ChatGPT neigt die KI dazu, populär zu werden und einen Zugang für Milliarden von Menschen in verschiedenen Bereichen des persönlichen oder beruflichen Lebens zu ermöglichen.Die grundlegenden Modelle mit ihren LLMs werden der Motor dieser Popularisierung sein, indem sie das Wissen für Benutzer entsprechend ihren Fragen und Anfragen anpassen.Ein Orakel, das das gesamte Wissen der Welt besitzt. Ein Meister, bereit, uns zu dienen, indem er Wissen produziert, um Probleme zu lösen.Unabhängig von Ihrem Alter werden Sie diese Technologie verwenden, die wir noch nicht vollständig kennen, und wir können ihre Risiken, Auswirkungen und Vorteile noch nicht vollständig bewerten.Als Gesellschaft müssen wir herausfinden und die besten Alternativen für ihre Nutzung und Anwendungen finden, in der Hoffnung, dass die Generative KI eine Technologie ist, die Vorteile für die gesamte Menschheit bringt.Autor: Jose Antonio Ribeiro Neto (Zezinho).1 Videos Sora — <a href="https://openai.com/sora">https://openai.com/sora</a></article></body>

DEUTSCH — CHATGPT UND KI-KURZARTIKEL

ChatGPT und die Kunst des Gesprächs: Eine Analyse des Potenzials der generativen künstlichen Intelligenz

ERKUNDUNG DER KÜNSTLICHEN INTELLIGENZ IN KLEINEN DOSIERUNGEN VON WISSEN

Impressionistisches Gemälde über die Generative Künstliche Intelligenz (MS Image Creator Credits).

Abschnitt 1 — Vorstellung

ChatGPT gehört zu einem Bereich der KI, der als Generative KI (Generative AI) bezeichnet wird.

Es handelt sich um Algorithmen, die verwendet werden, um Text-, Audio-, Bild-, Video- und Computercode-Inhalte zu generieren.

Mit Techniken des maschinellen Lernens, des Deep Learning und neuronaler Netzwerke generiert die Generative KI Inhalte auf der Grundlage statistischer Vorhersagen.

Sie wird als “generativ” bezeichnet, weil sie etwas schafft, das zuvor nicht existierte, basierend auf natürlicher Sprache wie:

Erstellen Sie ein Bild von einer Katze und einem Löwen, die nebeneinander sitzen.
Schreiben Sie einen Aufsatz über die Umwelt.
Generieren Sie einen Computercode für eine geschäftliche Routine.

Abbildung von einer KI generiert: Eine Katze und ein Löwe sitzen nebeneinander (Quelle: MS Image Creator).

1 — Generative AI-Modelle

Es ist üblich, auf Generative-AI-Umgebungen als “AI-Modelle” zu verweisen, da sie mit Daten trainiert wurden, um Aufgaben wie das Generieren von Text, Audio, Bildern und Computercode durchzuführen.

Anfangs waren die AI-Modelle textbasiert. Sie erhielten Fragen in Textform und antworteten auf die gleiche Weise. Sie wurden daher als “Unimodal” bezeichnet.

ChatGPT 4.0 und Gemini sind nun multimodal und können mit Text-, Bild- und Codeeingaben umgehen, was ihre Fähigkeit zur Generierung von Inhalten erweitert.

Diese Modelle werden in spezifischen Branchen wie Gesundheit, Bildung, Design, Unterhaltung, Biologie, Physik, Mathematik, Computercodierung usw. eingesetzt.

Sie können bei der Erstellung synthetischer medizinischer Bilder helfen, personalisierte Bildungsinhalte generieren, in Dutzenden von Sprachen übersetzen und bei der Entwicklung innovativer Designs zusammenarbeiten.

Profis und Unternehmen integrieren diese Modelle in eine Vielzahl von Produkten und Dienstleistungen, was die Nutzung verbreitet und das Anwendungsspektrum erweitert.

Bildschirmaufnahme, die ChatGPT fragt, was Generative KI ist.

Abschnitt 2 — Generative KI und die Produktion von Inhalten

Die generative KI entwickelt Antworten basierend auf Statistiken und Wahrscheinlichkeiten, die aus einem umfangreichen Korpus von Daten stammen, mit dem sie trainiert wurde.

Diese fortgeschrittene Form der KI hat die Fähigkeit zur Produktion von:

Texten wie Artikeln, Gedichten, Nachrichten, Drehbüchern, Code-Überprüfung, Präsentationen, Übersetzungen und vielem mehr.
Bildern wie einzigartigen Landschaften, Gesichtern, Gemälden, Avataren, virtuellen Umgebungen und mehr.
Audio, das Musik, Soundeffekte, Sprachaufnahmen und sogar die Konvertierung von Video- oder Audioinhalten in Text umfasst.
Synthetischen Videos, die aus vordefiniertem Text oder Bildern generiert werden.
Computercode in den beliebtesten Programmiersprachen wie Python, R, C und anderen.

Die Faszination dieses Prozesses liegt darin, dass die Produkte der generativen KI Antworten auf die vom Benutzer gestellten Fragen bieten, die durch einen einfachen Prompt, eine leere Zeile zur Entgegennahme von Befehlen in natürlicher Sprache, aktiviert werden.

Bildschirmaufnahme von DALL-E mit dem Befehlsfenster zur Anforderung der Generierung synthetischer Bilder.

Diese Herangehensweise ermöglicht es Benutzern, Laien und Experten auf der gleichen Kommunikationsebene zu interagieren, basierend auf Fragen und Antworten mit diesen Systemen.

Die Prompt-Zeile ist berühmt geworden, und die Neuigkeit für diejenigen, die lernen möchten, mit generativer KI zu sprechen, besteht darin, mehr über “Prompt-Engineering” zu erfahren, die neue Wissenschaft des Sprechens mit Maschinen.

Ich kann den ChatGPT bitten, einen Aufsatz über die Umwelt zu schreiben, oder den DALL-E bitten, ein impressionistisches Gemälde über Voreingenommenheit in unserer Gesellschaft zu generieren, oder den Sora bitten, ein Video basierend auf einfachen textbasierten Fragen zu generieren, wie:

ChatGPT, könnten Sie einen Aufsatz über die Umwelt schreiben?
DALL-E, könnten Sie ein impressionistisches Gemälde über die Umwelt erstellen?
Sora, könnten Sie ein Video von einem Mastodon, der im Schnee geht, generieren?

Die Content-Produktion wurde einfach und kann von jeder Person genutzt werden, die Zugang zu einem Computer, Smartphone oder anderen Geräten hat.

Zum Beispiel der Prompt-Befehl:

Eine elegante Frau spaziert durch eine von hellen Neonlichtern und animierten Schildern gesäumte Straße in Tokio. Sie trägt eine schwarze Lederjacke, ein langes rotes Kleid und schwarze Stiefel, dazu eine schwarze Handtasche. Sie trägt Sonnenbrille und roten Lippenstift. Ihr Gang strahlt Selbstbewusstsein und Gelassenheit aus. Die Straße ist feucht und spiegelt die bunten Lichter wider, was einen Spiegeleffekt erzeugt. Viele Fußgänger sind in der Gegend unterwegs.

Dieser Befehl generierte ein faszinierendes Video im neuen System „Sora“ zur Erzeugung von synthetischen Videos von OpenAI.

Video generiert von Sora (Quelle: OpenAI⁠1).

Abschnitt 3 — ChatGPT und synthetischer Inhalt

Impressionistisches Gemälde über Generative KI (Urheber: MS Image Creator).

Das Hauptprodukt, das von der Generativen KI erzeugt wird, wird als “Synthetischer Inhalt” bezeichnet, der von Maschinen und nicht von Menschen erstellt wird.

Diese Kreationen umfassen verschiedene Formen wie Text, Bild, Audio, Video und Code.

Eine Generative KI-Anwendung könnte beispielsweise darauf trainiert worden sein, Tausende von Artikeln über Politik zu lesen, um in der Lage zu sein, neue Fragen zu diesem Thema zu beantworten.

Eine andere Anwendung könnte impressionistische Gemälde produzieren, nachdem sie mit Hunderten von Gemälden von impressionistischen Malern trainiert wurde, wobei Text- und Bilddatenpaare miteinander verknüpft wurden.

Die Grundlage dieses Phänomens liegt im umfassenden Training, das von der Generativen KI durchgeführt wurde, wobei große Datenmengen absorbiert wurden, damit die KI intelligente Antworten auf einfache Fragen aus Prompts generieren kann.

Verschiedene Anwendungen veranschaulichen die Vielseitigkeit der Generativen KI:

ChatGPT: Produziert Texte, Bilder und Computercode.
MidJourney: Erstellt schöne Illustrationen.
DALL-E: Malt beeindruckende Gemälde.
MusicLM: Komponiert Jingles.
Sora: Generiert synthetische Videos.

Das endgültige Ergebnis der Generierung von synthetischem Inhalt ist oft so gut, dass wir in den meisten Fällen nicht unterscheiden können, ob er von Maschinen oder Menschen produziert wurde.

Neben der künstlerischen Innovation wirkt sich die Verbreitung von synthetischem Inhalt direkt auf die Gesellschaft aus. Ethik, Urheberrecht, Schaffung synthetischer Kunst und Wissensproduktion sind Bereiche im Wandel aufgrund dieser Technologie.

Ein aufkommender Trend ist die Verwendung von synthetischen Daten für das Training von KI-Systemen. Diese Praxis, motiviert durch Einschränkungen im Zusammenhang mit Plagiaten und Urheberrechten sowie den Kosten echter Daten, findet bereits Anwendung in spezialisierten Sektoren wie Gesundheit, Finanzen und Spielen.

Ich lade Sie ein, die Daten, mit denen Sie im Internet interagieren, genau zu beobachten. Viele von ihnen sind synthetisch, und wir bemerken es nicht immer.

Das Zeitalter der synthetischen Daten

Wir treten in das Zeitalter synthetischer Inhalte ein, in dem Texte, Bilder, Musik, Bücher und Videos von Maschinen generiert werden und die “Ära der generativen KI” vorantreiben.

Diese Revolution, vergleichbar mit der Aufklärung, der Entstehung von Elektrizität, Computern und dem Internet, stellt bedeutende Herausforderungen dar.

Diese Revolution birgt wichtige Herausforderungen in sich, die sorgfältige Herangehensweisen erfordern und eine Transformation von globaler Reichweite repräsentieren.

Es ist von höchster Bedeutung, wachsam zu bleiben, um sicherzustellen, dass dieser Übergang im Interesse der gesamten Menschheit erfolgt.

Abschnitt 4 — ChatGPT und die Grundlagenmodelle

Impressionistisches Gemälde über Generative KI (Bildnachweis: MS Image Creator).

Die Anwendungen der Generativen KI werden durch die sogenannten Grundlagenmodelle angetrieben, ein kürzlich geprägter Begriff des HAI (Human-Centered Artificial Intelligence) der Stanford University, der rasch von der KI-Gemeinschaft übernommen wurde.

Sie werden “Modelle” genannt, da sie einen Versuch darstellen, Aspekte der realen Welt basierend auf umfangreichen Datensätzen zu simulieren oder zu modellieren, die während ihres Trainings verwendet werden.

Im Gegensatz zur klassischen KI, die gelabelte Daten und Tausende von Arbeitsstunden erforderte, um Bilder, Text oder andere Arten von Daten zu identifizieren und zu labeln, werden die Grundlagenmodelle mit ungelabelten Datensätzen trainiert, was eine Anpassung an verschiedene Aufgaben mit minimalen Anpassungen ermöglicht.

Die Grundlagenmodelle setzen ein neues Erfolgsparadigma für den Aufbau von KI-Systemen. Nach umfassendem Training sind diese Modelle anpassungsfähig, um andere spezialisierte Modelle und mehrere Anwendungen zu generieren.

Nach dem Training können auf diese Modelle über APIs zugegriffen werden, was Entwicklern die Erstellung neuer Anwendungen ermöglicht.

Screenshot von ChatGPT, der fragt, was ein Grundlagenmodell ist.

Wir erleben die ersten Anzeichen des Potenzials dieser Modelle in der Welt von Sprache und Bildern, wie zum Beispiel ChatGPT, Gemini und DALL-E, die zeigen, wozu diese Technologie in der Lage ist.

Das herausragende Merkmal dieser Modelle ist die Fähigkeit, das in früheren Aufgaben erworbene Wissen auf neue Aufgaben anzuwenden. Dieses selbstüberwachte Lernen und der Wissenstransfer legen eine Intelligenz nahe an der menschlichen nahe.

Die durch diese Modelle geschaffenen Möglichkeiten erstrecken sich über verschiedene Branchen, einschließlich Gesundheit, Bildung, Übersetzung, soziale Netzwerke und Recht, und machen unsere Gesellschaft produktiver.

Die Grundlagenmodelle, wie sie im GPT-3 von OpenAI und seinem Nachfolger, dem GPT-4, exemplifiziert sind, mit Billionen von Parametern, können beeindruckende Verhaltensweisen zeigen, aber auch unerwartete Fehler und Voreingenommenheiten, die noch wenig verstanden sind.

OpenAI warnt vor möglichen Halluzinationen und betont die Bedeutung, die Risiken im Zusammenhang mit diesen Technologien sorgfältig zu bedenken.

Trotz der Erweiterung menschlicher Fähigkeiten führen diese Modelle auch ethische Herausforderungen ein und können Voreingenommenheiten verstärken, was das Vertrauen in Informationen untergraben kann. Dies betont die Notwendigkeit eines vorsichtigen und reflektierten Ansatzes gegenüber diesen Innovationen.

Abschnitt 5 — ChatGPT und die Modelle der LLMs (Large Language Models)

Impressionistisches Gemälde über Große Sprachmodelle in KI-Anwendungen (Bildnachweis: MS Image Creator).

Die LLMs (Large Language Models) werden als eine der herausragenden Kategorien unter den Grundlagenmodellen anerkannt.

LLMs sind maschinelles Lernen Modelle, die aus einer großen Anzahl von Datendokumenten lernen, um die Erzeugung von Sprache für allgemeine Zwecke durchzuführen.

Sie entstanden aus der Verbindung von Linguistik und Informatik im Bereich der natürlichen Sprachverarbeitung (NLP — Natural Language Processing).

Das Sprachmodell ist ein probabilistisches NLP-Modell, das Aufgaben wie Übersetzung, Grammatikprüfung und Textgenerierung für menschliche Aktivitäten ausführt.

Diese Modelle spielen eine entscheidende Rolle bei der Bewältigung sprachlicher Herausforderungen, indem sie Algorithmen des Natural Language Processing (NLP) und die innovative Trainingsmethode namens ‘Transformers’ einsetzen.

Die ‘Transformers’-Algorithmen arbeiten unbeaufsichtigt an einem umfangreichen Korpus natürlicher Sprachtexte während des Vor-Trainings, bevor sie durch menschliche Intervention angepasst werden.

Der ChatGPT übernimmt diese Technik, bei der er Bedeutung für umfangreiche Textsequenzen zuweist, um die Beziehung zwischen verschiedenen Wörtern oder semantischen Komponenten zu verstehen.

Dieser Prozess beinhaltet die Bestimmung der Wahrscheinlichkeit des nächsten Auftretens zwischen ihnen und stellt ein statistisches Spiel der Vorhersage auf der Grundlage des erlernten Wortschatzes und zuvor assimilierter Phrasen dar.

Das Vor-Training repräsentiert die Phase, in der das System eigenständig die Beziehungen zwischen den Wörtern eines Textes assimiliert.

LLMs spielen eine entscheidende Rolle bei der Entwicklung von Systemen, die in der Lage sind, Wissen zu verstehen und zu generieren, basierend auf dem, was mündlich oder schriftlich kommuniziert wird.

Ein praktisches Beispiel für die Funktionsweise dieser Modelle findet sich in automatischen Formular- und SMS-Ausfüllungen, bei denen das System relevante Wortalternativen beim Tippen vorschlägt.

Dies bedeutet, die nächste oder sogar die übernächste oder überübernächste Wortvorhersage zu treffen. Diese Fähigkeit, statistisch zu organisieren, wie viele Wörter dem Benutzer gezeigt werden können, hängt von der Kontextbreite der LLMs ab.

Zum Beispiel erreicht das ChatGPT 3 bis zu 2048 Tokens, was durchschnittlich 300 Wörter entsprechen würde. Die aktuellen Modelle von LLMs haben jedoch viel größere Kontextbreiten von 16K, 32K, 64K, 128K, was die Anzahl der analysierten und beantworteten Tokens erhöht.

Mit jedem Produktlaunch werden diese Mengen erhöht. Zum Beispiel kann das Google Gemini trotz der Bewältigung eines Kontextfensters von 128K Tokens bereits für 1 Million Tokens getestet werden.

Das 128.000-Token-Kontextfenster im GPT-4 Turbo kann etwa 300 Seiten Informationen entsprechen.

Das bedeutet, dass das Modell in der Lage ist, Prompts zu verarbeiten, zu analysieren, zu verstehen und zu beantworten, was einem Buch mit 300 Seiten in einem einzigen Kontextfenster entspricht.

Diese erweiterte Fähigkeit ermöglicht es dem GPT-4 Turbo, einen breiteren Kontext zu bewahren, was zu kohärenteren und relevanteren Antworten führt.

Zusammenfassend steigt die Fähigkeit dieser Systeme, Wörter vorherzusagen oder statistisch korrekte Antworten vorherzusagen, mit zunehmender Raffinesse, was ein entscheidendes Element in der Evolution von LLMs darstellt.

1 — Modelle, die in verschiedenen menschlichen Tätigkeiten geschult sind

Es fällt auf, dass diese Modelle in jede Art menschlicher Tätigkeit passen können, wenn sie ordnungsgemäß trainiert sind. Zum Beispiel:

Systeme, die mit Werken berühmter Künstler geschult sind, können neue Kunstwerke im Stil dieser Künstler generieren.
Systeme, die mit Mathematik- oder Chemie-Lehrbüchern geschult sind, können Ergebnisse mit neuen Ideen in diesen Bereichen generieren.
Systeme, die mit Rechtsfällen geschult sind, können lernen und zur Entwicklung und Lösung von Fällen in Gerichten und Gerichten beitragen.

Es ist zu erkennen, dass diese Systeme in den kommenden Jahren in verschiedene Lebensbereiche eindringen werden, und wir werden mit vielen von ihnen in unserem Bildungs-, persönlichen und beruflichen Leben interagieren.

Aus diesem Grund erleben wir einen Wettlauf, um diese Technologie zu beherrschen und zu verbessern, die genauso wichtig sein kann wie das Internet und tiefgreifende Veränderungen in der Gesellschaft mit sich bringen kann, ähnlich wie die agrarische, industrielle und technologische Revolution.

Screenshot von ChatGPT, der nachfragt, was LLM in KI bedeutet.

2 — LLM-Algorithmus

LLM (Large Language Models) ist ein tiefes Lernalgorithmus, das neuronale Netzwerke verwendet und in der Lage ist, Texte und andere Inhalte zu erkennen, zusammenzufassen, zu übersetzen, vorherzusagen und zu generieren. Diese Fähigkeiten basieren auf dem Wissen, das während des Trainings mit großen Mengen an Daten erworben wurde.

Diese textbasierten Modelle sind nicht nur auf Unterricht oder die Übersetzung menschlicher Sprachen beschränkt. Sie können auch auf Textfragen antworten, die von Chatbots in einer Vielzahl von Anwendungen gestellt werden, wie zum Beispiel:

Verständnis von Proteinen, Molekülen, DNA und RNA.
Schreiben von Computercode.
Erstellen von Text-Bild-Paaren für Bildgeneratoren.
Verbesserung von Suchmaschinen.
Komponieren von Musik, Schreiben von Gedichten, Geschichten und Büchern.

Diese Modelle haben in den Bereichen Künstliche Intelligenz, wie zum Beispiel Schlussfolgerungen, gesunder Menschenverstand und Problemlösung, hervorragende Fähigkeiten gezeigt.

Einige der bekanntesten LLM-Modelle sind:

GPT (Generative Pre-Trained Transformer) von OpenAI, das im ChatGPT verwendet wird.
CODEX von OpenAI zur Generierung von Computercode. Sydney von Microsoft, entwickelt auf der Grundlage von ChatGPT für Bing.
Gemini von Google. Megatron von Nvidia.
Llama und RoBERTa (Robustly Optimized BERT Approach) von Facebook.
BLOOM (BigScience Large Open-science Open-Access Multilingual Language Model) der Europäischen Gemeinschaft, entwickelt von einem Konsortium aus Forschern, Regierungen und europäischen Unternehmen.
Jurassic von der israelischen AI21.

Neben den bekanntesten setzen viele Unternehmen darauf, LLMs für den eigenen Gebrauch zu entwickeln oder auf dem Markt zu vermarkten, wie Baidu, DeepMind, Meta, AI21 Labs, LG AI Research, Anthropic, Huawei und viele andere.

Der Wettlauf besteht darin, LLMs für das eigene Geschäft zu entwickeln oder zu kommerzialisieren, indem der Zugang zu trainierten Systemen über Software-APIs ermöglicht und für den Zugang und den Inhalt Gebühren erhoben werden.

Alle wollen sich einen Platz auf dem Markt für generative KI sichern, da sie wissen, dass diese Revolution Produkte, Dienstleistungen und unsere gesamte Gesellschaft signifikant verändern wird.

Bildschirmaufnahme, die den ChatGPT nach den wichtigsten LLMs für KI fragt.

Abschnitt 6 — Investitionen zur Entwicklung von Generativer KI

Die Welt der Generativen KI ist auf die am besten finanzierten Akteure beschränkt.

Microsoft investiert zusätzlich zu den bereits getätigten Investitionen 10 Milliarden in OpenAI, während Google, Meta, Amazon und Apple erhebliche Investitionen tätigen, um keinen Marktanteil zu verlieren.

Da niemand alles alleine tun kann, gibt es auf diesem neuen Markt fast immer eine Partnerschaft zwischen:

Denjenigen, die den Willen und das Talent haben. In diesem Fall Start-ups oder agile Technologieunternehmen (OpenAI, DeepMind, Stable Diffusion usw.).
Denjenigen, die die Inhalte haben. In diesem Fall Suchmaschinen, Enzyklopädien, Bibliotheken, Buchhändler usw. (Google, Microsoft Bing, Wikipedia, Meta usw.).
Denjenigen, die über Infrastrukturtechnologieressourcen verfügen, wie Cloud-Services (AWS, Google, Azure Microsoft).
Denjenigen, die die Hardware besitzen, in diesem Fall die Hersteller von GPUs (Nvidia, Intel, AMD).

Google wird als der Elefant im Raum betrachtet, der einzige, der alles intern hat und daher unabhängig von Dritten entwickeln kann. Allerdings zögert das Unternehmen, Open-Source-Daten zu nutzen, da dies möglicherweise einen Rückschlag bedeuten könnte, indem eine Technologie populär gemacht wird, die direkt ihr wertvollstes Geschäft beeinträchtigen könnte: den Verkauf von Werbung in der Suchmaschine.

Auf der anderen Seite suchen kleine und mittelständische Unternehmen nach Lösungen, indem sie die APIs dieser großen Systeme nutzen, um den Zugang und die Token-Kosten zu reduzieren, und auch Open-Source-LLMs verwenden, die keine Trainingskosten haben.

Bei der Berücksichtigung von großen Rechenressourcen und Energieverbrauch ist eine interessante Anmerkung, dass das Training eines großen LLM-Modells die gleiche CO2-Bilanz hat wie das Fahren von fünf Autos während ihrer Lebensdauer.

GPT-3.5 wurde mit 10.000 Nvidia-GPUs trainiert, zu einem Kostenpunkt von 10.000 US-Dollar pro GPU. GPT-4, so sagt man, hat 30.000 dieser GPU-Platten genutzt. Die Kosten für den Energieverbrauch oder die Gesamtkosten der von Microsoft in der Partnerschaft mit OpenAI verantworteten Technologieinfrastruktur sind nicht bekannt.

1 — Die APIs sind die Lösung, um keine Zeit zu verlieren.

Die APIs (Anwendungsprogrammierschnittstellen) ermöglichen die Integration zwischen verschiedenen Systemen, Plattformen und Geräten durch den Aufruf von Funktionen und Routinen.

Die OpenAI hat die Führung übernommen und bietet APIs für den Zugang zu ihren Systemen sowie Geschäftsmodelle für Einzelpersonen und Unternehmen an.

Das Modell der API-Nutzung sollte sich auf andere Umgebungen ausweiten, wie zum Beispiel das Gemini von Google, Microsoft, Nvidia, BLOOM und andere LLMs, die kürzlich entstanden sind.

Die größten Kosten, wie die Schulung der LLM und die Entwicklung der Algorithmen, sind bereits festgelegt. Der Zugang zur Anwendung kann zu Bruchteilen von Dollar pro Zugriff und Datenvolumen gegen Token-Kosten erfolgen.

Ein ausgezeichnetes Geschäft, um die anfänglichen Kosten der LLMs zu decken und neue Anwendungen zu entwickeln, um sie auf dem Markt zu vermarkten.

Die Kreativität wird in dieser neuen Welt der Generativen KI das Limit sein, mit dem wachsenden Angebot der LLMs und ihren umfangreichen Datenvolumenreichen Imperien.

Abschnitt 7 — Das letzte Wort

Impressionistisches Gemälde über Große Sprachmodelle in KI-Anwendungen (Credits MS Image Creator).

Technologien, die am richtigen Ort und zur richtigen Zeit entstehen, werden oft einzigartig und exponentiell, prägen eine Ära des Wandels in der Menschheit.

Mikrocomputer, Internet, Webbrowser, iPhone, Cloud Computing, und andere haben Verhaltensänderungen in der Gesellschaft verursacht und einen Einfluss auf den Markt gehabt.

Der Einfluss der Generativen KI wird nur spürbar sein, wenn sie populär wird und einen Zugang für eine möglichst große Anzahl von Menschen ermöglicht.

Mit dem ChatGPT neigt die KI dazu, populär zu werden und einen Zugang für Milliarden von Menschen in verschiedenen Bereichen des persönlichen oder beruflichen Lebens zu ermöglichen.

Die grundlegenden Modelle mit ihren LLMs werden der Motor dieser Popularisierung sein, indem sie das Wissen für Benutzer entsprechend ihren Fragen und Anfragen anpassen.

Ein Orakel, das das gesamte Wissen der Welt besitzt. Ein Meister, bereit, uns zu dienen, indem er Wissen produziert, um Probleme zu lösen.

Unabhängig von Ihrem Alter werden Sie diese Technologie verwenden, die wir noch nicht vollständig kennen, und wir können ihre Risiken, Auswirkungen und Vorteile noch nicht vollständig bewerten.

Als Gesellschaft müssen wir herausfinden und die besten Alternativen für ihre Nutzung und Anwendungen finden, in der Hoffnung, dass die Generative KI eine Technologie ist, die Vorteile für die gesamte Menschheit bringt.

Autor: Jose Antonio Ribeiro Neto (Zezinho).

1 Videos Sora — https://openai.com/sora