Open-Source-KI: Aleph Alpha veröffentlicht Pharia-1-LLM

Autor
Themen
Screenshot der Aleph Alpha Website
Foto: Aleph Alpha
Mit Pharia-1-LLM erscheinen zwei neue Open-Source-Sprachmodelle des deutschen KI-Startups Aleph Alpha. Sie sind auf Englisch, Deutsch, Französisch und Spanisch spezialisiert und bieten optimierte Antworten für Branchen wie Automobil und Technik. Der Quellcode ist ebenfalls für nicht-kommerzielle Zwecke offen verfügbar.
Beitrag teilen

Mit der Veröffentlichung von Pharia-1-LLM des deutschen KI-Startup Aleph Alpha, in das unter anderem die Schwarz-Gruppe investiert ist, stellt ein weiteres Open-Source-Sprachmodell seine Fähigkeiten der Community zur Verfügung. Pharia-1-LLM umfasst zwei 7B-Basismodelle: Pharia-1-LLM-7B-control und Pharia-1-LLM-7B-control-aligned. Diese Modelle sowie der dazugehörige Quellcode sind nun für nicht-kommerzielle und Bildungszwecke öffentlich zugänglich.

Entwickelt, um prägnante und kontextuell präzise Antworten in mehreren Sprachen zu liefern, fokussiert sich Pharia-1-LLM besonders auf Englisch, Deutsch, Französisch und Spanisch. Mit einer starken Ausrichtung auf die Einhaltung von EU-Datenschutzrichtlinien soll es gleichzeitig Spitzenleistung in branchenspezifischen Anwendungen bieten.

Das deutsche Unternehmen zeigt sich auf LinkedIn begeistert über den Launch des Sprachmodells. In einem Blogpost, der nachfolgend zusammengefasst ist, stellt das Unternehmen das Sprachmodell und dessen Entwicklung ausführlich dar.

Mehrsprachige Optimierung und Transparenz

Pharia-1-LLM wurde auf einem Korpus in sieben Sprachen trainiert und legt besonderen Wert auf kulturelle und sprachliche Nuancen, insbesondere in den vier genannten Kernsprachen. Mit dem Ziel, prägnante und maßgeschneiderte Antworten zu liefern, setzt das Modell auf eine optimierte Token-Effizienz. Besonders in der Automobil- und Ingenieurbranche bietet Pharia-1-LLM-7B-control herausragende Möglichkeiten zur Anpassung an spezifische Nutzerpräferenzen, ohne die Gefahr eines sogenannten „Shutdown-Verhaltens“ bei kritischen Anwendungen.

Die Offenlegung des kompletten Quellcodes, der zur Modellierung genutzt wurde, hebt Pharia-1-LLM von anderen kommerziellen Angeboten ab. Diese Transparenz ermöglicht es Forschern und Entwicklern, eigene Anpassungen vorzunehmen und die Modelle für spezifische Anforderungen zu optimieren.

Technische Details und Architektur

Pharia-1-LLM setzt auf eine klassische GPT-Architektur mit Rotary Embeddings, die insbesondere für lange Textsequenzen von Vorteil ist. Im Vergleich zur Llama-2-Architektur zeigt sich die GPT-Variante besonders bei Aufgaben wie TriviaQA überlegen, wo eine höhere Genauigkeit erreicht wurde. Diese Erkenntnis führte zur Entscheidung, die GPT-Architektur für Pharia-1-LLM-7B zu nutzen. Eine weitere Optimierung wurde durch den Einsatz von Group-Query-Attention (GQA) erreicht, was zu einer signifikanten Reduktion des Speicherbedarfs und einer Steigerung der Verarbeitungsgeschwindigkeit führte.

Für die Langkontext-Fähigkeit wurde die Rotary-Basis auf 1e6 erhöht, was besonders bei Anwendungen mit großen Textmengen Vorteile bietet. Auch das Tokenisierungssystem wurde überarbeitet. Nach umfangreichen Tests entschied man sich für einen Unigram-Tokenizer mit einem Vokabular von 128.000 Tokens. Diese Kombination sorgt dafür, dass das Modell sowohl bei kurzen als auch langen Texten präzise arbeitet.

Training und Feinabstimmung

Das Training von Pharia-1-LLM-7B-control erfolgte unter Verwendung eines maßgeschneiderten Ansatzes, bei dem die Daten schrittweise skaliert wurden. Dabei wurde zunächst eine Basis mit 8192 Tokens trainiert und dann durch zwei weitere Trainingsphasen mit einem veränderten Datenmix ergänzt. Durch die Verwendung von 256 A100- und H100-GPUs konnte eine Trainingseffizienz erreicht werden, die es ermöglicht, auf insgesamt 7,7 Billionen Tokens zuzugreifen. Für die Feinabstimmung wurden speziell kuratierte Datensätze eingesetzt, um den Modellen eine optimale Leistung im multilingualen Kontext zu ermöglichen.

Pharia-1-LLM-7B-control-aligned erhielt zusätzliche Sicherheitsmaßnahmen durch Präferenzabstimmungen. Dabei wurden Daten verwendet, um sicherzustellen, dass das Modell auch bei unsicheren Eingaben zuverlässig antwortet. Dieser Schritt führt zu einer besseren Eignung für Chatbots und interaktive Anwendungen, bei denen Klarheit und Sicherheit entscheidend sind. Im Gegensatz dazu bleibt das nicht abgestimmte Modell Pharia-1-LLM-7B-control direkter und eignet sich besser für Aufgaben wie Extraktion und Zusammenfassungen.

Herausforderungen bei der Evaluation

Die Bewertung von generativen Modellen wie Pharia-1-LLM ist komplex, da sprachliche Aufgaben oft mehrdeutig sind und keine eindeutigen Bewertungsmetriken existieren. Kontextsensitive Aufgaben erfordern eine spezifische Datenauswahl, die repräsentativ für den realen Einsatz ist. Tests wie MMLU und Alpaca Eval zeigen dabei oft Diskrepanzen zu praktischen Anwendungen, weshalb die Modelle in Bezug auf ihre realen Einsatzmöglichkeiten evaluiert werden müssen.

Aleph Alpha hat sich auf die Entwicklung von KI-Systemen spezialisiert, die sowohl technische Spitzenleistung als auch ethische Standards gewährleisten. Das Unternehmen fokussiert sich besonders auf die Bereiche Transparenz, Datenhoheit und Compliance, was es zu einem führenden Anbieter von KI-Lösungen für kritische Anwendungen in Europa macht. Mit der Einführung von Pharia-1-LLM und weiteren Projekten demonstriert Aleph Alpha seine Ambitionen, KI-Lösungen anzubieten, die speziell auf die Bedürfnisse von Unternehmen und Regierungen zugeschnitten sind​

→ Jetzt auch auf LinkedIn oder X (Twitter) folgen und keine News verpassen!
ANZEIGE
Drei Faktoren: Was zeichnet (wirklich) einen erfolgreichen Online-Shop aus?

Drei Faktoren: Was zeichnet (wirklich) einen erfolgreichen Online-Shop aus?

Wer als Shop-Betreiber, E-Commerce Manager oder Gründer einer E-Commerce-Marke erfolgreich werden möchte, muss drei grundsätzliche Faktoren, Verkaufspsychologie, Außendarstellung und Design sowie Nutzererlebnis, verinnerlichen. Die ganzheitliche Sicht hilft dabei, die Kunden besser zu verstehen, die Zielgruppe effektiver anzusprechen und die Produkte erfolgreicher zu verkaufen.

Drei Faktoren: Was zeichnet (wirklich) einen erfolgreichen Online-Shop aus?

Drei Faktoren: Was zeichnet (wirklich) einen erfolgreichen Online-Shop aus?

Wer als Shop-Betreiber, E-Commerce Manager oder Gründer einer E-Commerce-Marke erfolgreich werden möchte, muss drei grundsätzliche Faktoren, Verkaufspsychologie, Außendarstellung und Design sowie Nutzererlebnis, verinnerlichen. Die ganzheitliche Sicht hilft dabei, die Kunden besser zu verstehen, die Zielgruppe effektiver anzusprechen und die Produkte erfolgreicher zu verkaufen.