LLM-Feinabstimmung: Best Practices und Anwendungsfälle

Bei der Feinabstimmung (Fine-Tuning) werden bereits vortrainierte große Sprachmodelle (LLM: Large Language Models) optimiert, um sie für spezifische Aufgaben oder Datensätze anzupassen. In der Vergangenheit war die Anwendung von Large Language Models in Unternehmen oft durch die generische Natur verfügbarer Modelle eingeschränkt, die nicht immer auf die spezifischen Herausforderungen und Daten einzelner Organisationen zugeschnitten waren. […]

Was ist Snowflake? Architektur, Vorteile, Kosten

Snowflake Architekturskizze

Snowflake ist eine Cloud-basierte Datenplattform, die Unternehmen dabei unterstützt, große Mengen an Daten zu speichern, zu verwalten und zu analysieren. Die Datenplattform ist speziell für die Verarbeitung von Big Data entwickelt wurden und ermöglicht es Unternehmen, Daten aus verschiedenen Quellen zu integrieren und komplexe Analysen durchzuführen.  In diesem Beitrag erklären wir Ihnen, was Snowflake ist, […]

Auto Loader von Databricks

Databricks Auto Loader ist eine optimierte Dateischnittstelle, die automatisch inkrementelle Datenladungen aus Ihrem Cloud-Speicher durchführen kann, um die geladenen Daten dann in Delta Lake Tables abzuspeichern. Wie genau der Databricks Auto Loader funktioniert erfahren Sie in diesem Artikel. Was ist der Databricks Auto Loader? Databricks Auto Loader ist eine Funktion, die es uns ermöglicht, schnell […]

Was ist ein ETL-Prozess?

Gesamter ETL-Prozess mit wichtigen Bestandteilen.

Ein ETL-Prozess setzt sich aus drei wesentlichen Einzelschritten zusammen. Dabei dient ein ETL-Prozess dazu, Daten aus verschiedenen Datenquellen nutzbar zu machen und in einem Data Warehouse für die Nutzung verfügbar zu stellen. Häufig kommt dieser Prozess zur Verarbeitung großer Datenmengen in Bereichen wie Big Data oder Business Intelligence zum Einsatz.  Im folgenden Beitrag erfahren Sie über die Bedeutung, Funktion und mögliche Anwendungsbereiche eines ETL-Prozesses.  Was […]

Was ist Databricks? Nutzen, Vorteile, Umgebung

Databricks ist ein Cloud-basiertes Tools, welches den gesamten Prozess der Datenverarbeitung vereinfacht: von Data Engineering, über Data Science bis zu Machine Learning. Unternehmen nutzen Databricks um große Datenmengen zu verarbeiten, veredeln und zu analysieren.    Aber was genau ist Databricks, welches sind die Top-Funktionen und woraus ergeben sich die diversen Vorteile? Diese und weitere Fragen wollen […]

Was ist Delta Lake? 

Der Delta Lake ist ein Open-Source-Speicherformat, welches das Parquet-Format um ACID-Funktionalität und weiteren Datenbankfeatures erweitert. Die Zuverlässigkeit, Sicherheit und Leistung des Data Lake wird durch das Delta Lake Format verbessert. Es unterstützt ACID-Transaktionen, skalierbare Metadaten, Zeitreise, Change Data Capture Funktionalitäten für Streaming und Batch-Datenverarbeitung. In diesem Beitrag beschäftigen wir uns damit, was das Delta Lake […]

Snowflake vs. Databricks: Was sind die Unterschiede?

Unternehmen stehen vor der Herausforderung Daten in kürzester Zeit für Analysen wie Machine Learning, Dashboards und Auswertungen vorzubereiten. Data Warehouses und Data Lakes haben sich zwar weiterentwickelt, dennoch benötigt es in der Zukunft eine Lösung, die Daten in großen Massen speichern und verwalten kann.  Sowohl Snowflake als auch Databricks bieten eine Lösung, um die Massen […]

Kostenoptimierung bei Databricks

Das Databricks Kostenmodell basiert auf einem Pay-as-you-go Modell, deshalb ist es wichtig zu wissen, wie Sie die Ausgaben auf Databricks kontrollieren und die Kosten somit optimieren können.  In diesem Beitrag erfahren Sie Tipps, wie Sie die Kosten bei Databricks optimieren können. Die Herausforderungen des Databricks-Zahlungsmodells Die Verwendung von Databricks bedeutet einen weiteren Kostenpunkt in der […]

Databricks: Kostenmodell einfach erklärt 

Sie möchten mit Databricks starten, sind sich aber nicht sicher, welche Kosten sich dadurch ergeben? Dieser Beitrag soll Ihnen als Guide für alle Kosten rund um Databricks dienen, damit Sie im Anschluss folgende Frage beantworten können: Ist Databricks wirklich kostengünstiger gegenüber anderen Datenplattformen?  Ist Databricks kostengünstig?  Die Antwort auf die Frage lautet: Wie viele Daten […]

Der Data Lakehouse Ansatz – eine moderne Cloud-Datenplattform 

Ein Data Lakehouse Ansatz bietet die Flexibilität und Skalierbarkeit eines Data Lakes in Kombination mit einer hohen Datenqualität, Transaktionssicherheit und der vereinfachten, vereinheitlichten Verwaltung bzw. Governance des Data Warehouses.  Somit vereint der Ansatz des Data Lakehouse die wichtigsten Funktionalitäten von Data Lakes und Data Warehouses.   Dadurch können Unternehmen das Datenarchiv des Data Warehouse Ansatz […]