Machine Learning
SageMaker

Was ist Amazon SageMaker?

Amazon SageMaker ist eine Everything-as-a-service-Cloud-Maschinenlernplattform von Amazon Web Services. Amazon SageMaker wird vor allem von Datenwissenschaftler und Entwicklern genutzt, um Modelle auf Basis von Machine Learning, in der Cloud zu erstellen, trainieren und einzusetzen.

Das Wichtigste auf einen Blick: 

  • Amazon SageMaker ist eine Everything-as-a-service-Cloud-Maschinenlernplattform 
  • Diese wird vorwiegend von Entwicklern und Datenwissenschaftlern genutzt 
  • SageMaker hilft bei der Erstellung, dem Training und der Implementierung von Machine Learning-Modellen 
  • Neben SageMaker Autopilot, SageMaker Studio oder SageMaker Ground Truth werden einige weitere Tools angeboten  
  • Das Abrechnungsmodell von SageMaker richtet sich nach den tatsächlich verwendeten Ressourcen 
  • Zu den Vorteilen gehören unter anderem der voll verwaltete Web-Servicedie schnelle und einfache Erstellung von Modellen, eine gute Skalierbarkeit, eine webbasierte Nutzeroberfläche und die Unterstützung einiger Deep-Learning-Frameworks

Was ist Amazon SageMaker? 

Amazon SageMaker stellt einen aus dem Jahre 2017 voll verwalteten Machine Learning-Service auf Basis der Cloud-Infrastruktur von Amazon dar. SageMaker wird im Rahmen von Amazon Web Services (AWS) angeboten und hilft beim Erstellen, Trainieren und Implementieren von Machine Learning-Modellen. SageMaker wird vorwiegend von Entwicklern und Datenwissenschaftlern genutzt und ist darüber hinaus über das Internet nutzbar.  

Amazon SageMaker unterstützt sämtliche Einzelschritte eines Machine Learning-Prozesses und vereinfacht vor allem die Datenaufbereitung, Erstellung und Integration eines Modells. Dabei stehen für alle Einzelschrittes eines Prozesses jeweilige Tools mit webbasierten Benutzeroberflächen zur Verfügung. Zudem wird ebenfalls der Einsatz maschinellen Lernmodellen auf Endgeräten unterstützt.  

Das Kostenmodell von Amazon SageMaker basiert auf einem nutzungsabhängigen Abrechnungsmodell. Es erfolgt lediglich die Berechnung der Kosten, die für tatsächlich verwendete Ressourcen entstanden sind.

Welche Leistungen bietet Amazon SageMaker? 

Entwicklung des Machine Learning Prozesses. Quelle: AWS

Durch SageMaker wird es Entwicklern und Datenwissenschaftlern ermöglicht, auf verschiedenen Abstraktionsebenen beim Training und der Bereitstellung von Machine Learning-Modellen zu arbeiten. 

  • Prepare: Datenvorbereitung für den Machine Learning Prozess. 
  • Build: Entwicklung und Erstellung von Algorithmen. 
  • Train & Tune: Optimierung sowie Organisation der Algorithmen. 
  • Deploy & Manage: Automatisierung des gesamten Machine Learning Prozesses 

Innerhalb der höchsten Abstraktionsebene lassen sich dank SageMaker vortrainierte Mo.delle finden, die direkt für den Einsatz bereit sind. Zusätzlich bietet SageMaker eine Vielzahl integrierter Machine Learning-Algorithmen, damit Entwickler ihre eigenen Daten trainieren können.  

Zudem ist es für Entwickler möglich, dass diese ihre Machine Learning-Algorithmen selbstständig durch verwaltete Instanzen wie TensorFlow und Apache MXNet neu erstellen können.  

Egal welche Abstraktionsebene der Entwickler nutzt, es lassen sich jederzeit Machine Learning-Modelle mit anderen Amazon Web Services verbinden. Dazu gehören beispielsweise für die strukturierte Datenspeicherung die Amazon-DynamoDB-Datenbank, für eine Offline-Batchverarbeitung AWS Batch, oder Amazon Kinesis im Rahmen der Echtzeitverarbeitung. 

Welche Hauptfunktionen bietet SageMaker? 

Amazon SageMaker Studio 

Amazon Sage Maker Studio bietet dem Nutzer eine webbasierte visuelle Oberfläche, mit dessen Hilfe man alle erforderlichen Machine Learning-Entwicklungsschritte ausführen kann, welche zur Vorbereitung, Erstellung, Training und Bereitstellung eines Modells erforderlich sind.  

Visuelle Nutzeroberfläche von Amazon Sagemaker Studio zur Vorbereitung, Erstellung und Training von Machine Learning Modellen.
Visuelle Oberfläche – SageMaker Studio. Quelle: AWS
  • Gemeinsam nutzbare Notebooks: Dank Amazon SageMaker Studio lassen sich Jupyter-Notebooks mit wenigen Klicks starten. Die damit verbundenen Rechenressourcen sind vollständig elastisch, sodass verfügbare Ressourcen mit wenig Aufwand hoch und runtergefahren werden können. Zudem lassen sich die Notebooks mit wenigen Klicks für andere Personen freigeben. Im Anschluss erhalten diese Personen genau das gleiche Notebook, welches man an einem anderen Ort gespeichert hat.  
  • Skalierbare Experimente: Während man mit verschiedenen Kombinationen zur Feinabstimmung von Modellen experimentiert, lässt sich gleichzeitig eine Ranglistete von Experimenten starten. Diese können mithilfe einer Übersicht eicht verglichen und je nach Leistung eingeordnet werden.  

Amazon SageMaker Autopilot

Mithilfe von Amazon Sage Maker Autopilot lässt sich der beste Algorithmus für eine jeweilige Prognose auswählen und erstellen. Zudem findet das Training und die Optimierung für Machine Learning automatisch statt. 

  • Automatische Datenvorverarbeitung: Amazon SageMaker Autopilot lässt sich auch dann verwenden, wenn gewisse Daten nicht vorhanden sind. SageMaker Autopilot ergänzt fehlende Daten automatisch und bietet statistische Einblicke in den Datensatz. Zudem extrahiert es automatisch Informationen aus nicht numerischen Spalten.  
Fehlende Daten werden automatisch ergänzt, sodass statistische Einblicke möglich sind.
Visuelle Oberfläche – SageMaker Autopilot. Quelle: AWS
  • Automatische ML-Modellauswahl: Amazon SageMaker Autopilot leitet automatische Prognosen ab, die zum Datensatz passen. Zudem untersucht SageMaker Autopilot leistungsstarke Algorithmen, die ebenfalls am geeignetsten zum bestehenden Datensatz passen. 
Amazon SageMaker Autopilot leitet automatisierte Prognosen ab, welche zum Datensatz passen.
Automatische Ableitung von Prognosen mithilfe von ML-Modellauswahl. Quelle: AWS
  • Modell-Rangliste: Es lassen sich alle Machine Learning-Modelle überprüfen, welche automatische für die Daten generiert werden. Darüber hinaus kann eine Liste der Modelle angezeigt werden, die nach Parametern wie Genauigkeit oder Präzision geordnet sind.  
Amazon SageMaker Autopilot hilft bei der automatisierten Notebook-Erstellung.
Liste von Modellen geordnet nach Genauigkeit und Präzision. Quelle: AWS
  • Automatische Notebook-Erstellung: Für jedes Modell lässt sich automatisch ein Amazon SageMaker Studio-Notebook erstellen. Dieses lässt sich im Anschluss nach Wunsch in seinen Details verändern.  
Amazon Sagemaker Autopilot hilft bei der automatisierten Notebook-Erstellung.
Automatisierte Notebook-Erstellung. Quelle: AWS

Amazon SageMaker Ground Truth

Amazon SageMaker Ground Truth bietet einen vollständig verwalteten Datenkennzeichnungs-Service, mit dessen Hilfe sich die Erstellung von Trainingsdatensätzen für Machine Learning einfach bewerkstelligen lässt.  

Die Kennzeichnung der Daten erfolgt dank der SageMaker Ground Truth-Konsole in wenigen Minuten mithilfe des benutzerdefinierten oder integrierten Workflows zur Datenkennzeichnung. Dank dieser Workflows werden eine Vielzahl von Anwendungsfällen wie 3D-Punkt-Cloud, Videos, Bilder oder Texte unterstützt.  

Welche weiteren Funktionen und Tools bietet Amazon SageMaker? 

Amazon SageMaker bietet folgende Funktionen: 

  • SageMaker Model Registry: Kontoübergreifende Unterstützung für den Einsatz von Machine Learning-Modellen 
  • Projects: Erstellen von durchgängigen Machine Learning-Modellen mit CI/CD mithilfe von SageMaker Projects 
  • SageMaker Data Wrangler: Daten in SageMaker importieren, analysieren, vorbereiten und mit jeweiligen Funktionen versehen. Zudem kann Data Wrangler mit wenig Programmieraufwand in jegliche Arbeitsabläufe für maschinelles Lernen integriert werden, sodass die Datenvorverarbeitung und das Feature-Engineering vereinfacht wird.  
  • SageMaker Model Building Pipelines: Erstellung und Verwaltung von Machine Learning-Pipelines die direkt in SageMaker integriert sind. 
  • ML Lineage Tracking: Verfolgung der Entwicklung von Machine Learning-Workflows.  
  • SageMaker Feature Store: Ein zentralisierter Speicher für eine Vielzahl an Features und zugehörige Metadaten, damit Features leicht gefunden und wiederverwendet werden können. Dazu lassen sich einerseits Online-Speicher und andererseits Offline-Speicher erstellen. Während der Online-Speicher für Anwendungsfälle mit niedriger Latenz und Echtzeit-Inferenz verwendet wird, eignet sich der Offline-Speicher für das Training und Batch-Inferenz. 
  • SageMaker Edge Manager: Optimierung von benutzerdefinierten Modellen für Edge-Geräte.  

Weitere Funktionen:  

  • SageMaker JumpStartFunktionen und Möglichkeiten von SageMaker lassen sich anhand von 1-Klick-Lösungen nutzen.  
  • SageMaker ClarifyVerbesserung von Machine Learning-Modellen, indem potentielle Verzerrungen erkannt werden. Zudem können die Vorhersagen der Modelle näher erklärt werden.  
  • SageMaker Studio NotebooksDie nächste Generation von SageMaker-Notebooks, mit dessen Hilfe die AWS Single Sign-On Integration, schnelle Startzeiten und Single-Click-Sharing unterstützt wird.  
  • Amazon Augmented AI: Erstellung der für die menschliche Überprüfung von Machine Learning-Vorhersagen erforderlichen Workflows.  
  • SageMaker Experiments: Verwaltung und Verfolgung von Experimenten. Es lassen sich genutzte Daten verwenden, um beispielsweise ein Experiment zu rekonstruieren.  
  • SageMaker Debugger: Überprüfung von Trainingsparametern und Daten während des gesamten Trainingsprozesses. Automatische Erkennung von häufig auftretenden Fehlern.  
  • SageMaker Model Monitor: Überwachung und Analyse von Modellen in der Produktionsphase, um Abweichungen der Modellqualität zu erkennen.  
  • Neo: Einmaliges Training von Machine Learning-Modellen, welche im Anschluss überall in der Cloud ausgeführt werden können.  
  • SageMaker Elastic Inference: Verringerung der Latenzzeit beim Abruf von Echtzeit-Inferenzen.  
  • Batch Transform: Vorverarbeitung von Datensätzen und Ausführung von Inferenzen. Verknüpfung von Eingabedatensätzen mit Inferenzen, um die Interpretation von Ergebnissen zu unterstützen.  
  • Preprocessing: Analyse und Vorverarbeitung von Daten, Feature, Engineering und Auswertung von Modellen.  

Wie funktioniert Machine Learning mit Amazon SageMaker? 

Im Rahmen von Machine Learning bringt man einem Computer bei, dass dieser Vorhersagen und Schlussfolgerungen trifft.  

Dazu wird zunächst ein Algorithmus sowie Beispieldaten verwendet, um ein Modell zu trainieren. Im Anschluss wird dieses Modell integriert, sodass sich Schlussfolgerungen in Echtzeit und in einem großen Umfang treffen lassen.  

Innerhalb der Praxis lernt ein Modell typischerweise aus Millionen von Trainingsdaten und erzeugt daraus Schlussfolgerungen in teils weniger als 20 Millisekunden.  

Die folgende Grafik verdeutlicht den Arbeitsablauf eines typischen Machine Learning-Modells: 

Generierung von Beispieldaten 

Amazon SageMaker verfügt über gehostete Jupyter-Notebooks, mit denen die in Amazon S3 gespeicherten Trainingsdaten visualisiert werden können. Zudem ist es möglich, dass Informationen in S3 direkt verbunden werden oder aber AWS Glue genutzt wird, um Daten aus Amazon Redshift und DynamoDB zur weiteren Verarbeitung in den eigenen Speicher zu verschieben.  

Um das Modell zu trainieren benötigt man Beispieldaten. Die benötigten Daten richten sich dabei je nach Art des Geschäftsproblems. Um die benötigten Daten vorverarbeiten zu können, sind folgende Schritte notwendig:  

  • Abrufen der Daten: Interne Beispieldaten oder öffentlich verfügbare Datensätze lassen sich verwenden.  
  • Bereinigung des Datensatzes: Um das Modelltraining zu verbessern, sollte man die vorliegenden Daten untersuchen und bereinigen. Ungleiche Daten sollten zudem einheitlich sein.  
  • Aufbereitung und Transformation der Daten: Um die Leistung zu steigern, können zahlreiche Datentransformationen durchgeführt werden. Dabei lassen sich beispielsweise verschiedene Attribute kombinieren, um ein leistungsstärkeres Modell zu erhalten. 

Training des Modells 

Das Training eines Modells umfasst einerseits das eigentliche Training und andererseits das Auswerten eines Modells. 

  • Training des Modells: Um ein Modell zu trainieren muss ein Algorithmus bestehen. Welchen Algorithmus man wählt, hängt vom vorliegenden Problem ab. Für eine schnelle und effiziente Lösung lässt sich beispielsweise ein Algorithmus verwenden, welcher von SageMaker bereitgestellt wird.  
  • Auswertung des Modells: Nach dem Training des Modells sollte man schauen, ob die Genauigkeit der Schlussfolgerungen akzeptabel ist. In SageMaker verwendet man entweder das AWS SDK für Python oder die High-Level-Python-Bibliothek, die SageMaker bereitstellt.  

Einsatz des Modells 

Bevor man das Modell integriert, sollte vorab eine Überprüfung stattfinden. Mit den SageMaker Hosting-Diensten können Sie ein Modell unabhängig einsetzen und Ihrem Anwendungscode entkoppeln.  

Da maschinelles Lernen ein kontinuierlicher Zyklus ist, ist es wichtig dass man das Modell nach dem Einsatz stetig überwacht, sodass Verbesserungen ersichtlich sind. Dadurch lässt sich auf lange Sicht die Genauigkeit eines Modells stark verbessern. Reichert man das Modelllangfristig mit immer mehr Beispieldaten an, so verbessert sich die Genauigkeit erheblich.  

Was sind die Vorteile von Amazon SageMaker?

Die Nutzung von Amazon SageMaker bietet dem Nutzer einige wertvolle Vorteile bei der Entwicklung dem Training und der Implementierung von Machine Learning Modellen. Zu diesen Vorteilen gehören unter anderem: 

  1. Schnellere und effizientere Abwicklung von der Erstellung, dem Training und der Bereitstellung von Machine Learning-Modellen 
  1. Komplett verwalteter Webservice 
  1. Amazon SageMaker ist komplett über das Internet nutzbar 
  1. Verschiedene Zyklen eines Machine Learning-Prozesses werden unterstützt 
  1. Ausgerichtet auf Entwickler und Datenwissenschaftler 
  1. Unterstützung von Deep-Learning-Frameworks sowie Jupyter-Notebooks 
  2. Abrechnungsmodell abhängig vom Nutzen 

Welche Anwendungsfälle von Amazon SageMaker gibt es? 

Amazon SageMaker bietet dank der Vielzahl an Funktionen und Tools ein breites Spektrum an Anwendungsfällen. Dazu gehören vor allem: 

Erstellung von Preisprognosen 

In Branchen wie der Finanzdienstleistungsbranche, Immobilienbranche oder der Energie- und Versorgungsbranche kommen Preisprognosen vermehrt zum Einsatz. Diese werden genutzt, um Preise von Aktien, Immobilien oder natürlichen Ressourcen im Vorhinein zu prognostizieren. Dank Amazon SageMaker Autopilot lassen sich diese Vorhaben umsetzen, sodass künftige Preise vorhersagt werden. Auf Basis historischer Daten wie Daten der Nachfrage, Trends oder historischen Preisen, lassen sich fundierte Investitionsentscheidungen der Zukunft ableiten. 

Prognosen zur Kundenabwanderung 

Kundenabwanderung stellt den Verlust eines Kunden für ein Unternehmen dar. Da Kundenabwanderung für Unternehmen mit vielen Nachteilen verbunden ist, versuchen viele Unternehmen, dieses Szenario zu verhindern. Amazon SageMaker Autopilot bietet die Möglichkeit, automatisch generierte Modelle zu erstellen, mit dessen Hilfe sich Abwanderungsmuster erkennen lassen. Dazu identifiziert man Muster in vorhandenen Datensätzen, welche sich im Anschluss auf neue Datensätze übertragen lassen. Somit erhält das Unternehmen eine Prognose derjenigen Kunden, die das höchste Abwanderungspotenzial besitzen.  

Risikobewertung

Potenzielle Ereignisse, die sich möglicherweise negativ auf Personen oder Unternehmen auswirken könnten, lassen sich im Rahmen einer Risikobewertung ermitteln sowie analysieren. Die von Amazon SageMaker Autopilot automatisch generierten Modelle sagen potenzielle Risiken im Vorhinein voraus. Modelle zur Risikobewertung lassen sich auf Basis bestehender Datensätze trainieren, um zur Risikoabwägung eines Unternehmens beizutragen. 

Fazit

SageMaker bietet Ihrem Unternehmen einen Service, der den gesamten Workflow von maschinellem Lernen abdeckt. Dadurch gestaltet sich die Arbeit langfristig effizienter und auch monetäre Kennzahlen lassen sich verbessern.  

Profilbild von Vinzent Wuttke Geschäftsführer Datasolut GmbH
Vinzent Wuttke
Geschäftsführer

Ihr Ansprechpartner

Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.

In diesem Gespräch erfahren Sie:

  • Wie Ihr Use-Case technisch am besten umgesetzt werden kann
  • Wie wir maximal sicher mit Ihren Kundendaten umgehen
  • Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte
Jetzt Erstgespräch vereinbaren

Weiterlesen

Clusteranalyse einfach erklärt

Clusteranalysen sind beliebte Methoden, um Daten nach einem Ähnlichkeitsmaß in homogene Gruppen einzuteilen. Sie finden Anwendung in Wirtschaft und Forschung. Dieser Artikel zeigt, was eine Clusteranalyse ist, welche Arten es […]

Was ist Unsupervised Learning (Unüberwachtes Lernen)?

Unsupervised Learning umfasst Methoden des maschinellen Lernens, bei denen das maschinelle Lernverfahren in nicht kategorisierten Daten nach bisher unbekannten Mustern und Zusammenhängen sucht. Dieser Prozess funktioniert mit minimaler menschlicher Intervention. […]

Künstliche Intelligenz einfach erklärt! Definition, Arten und wo KI eingesetzt wird

Künstliche Intelligenz (KI) ist ein Teilgebiet der Informatik und ermöglicht Maschinen autonom Probleme zu lösen und Entscheidungen zu treffen. Schon heute wird KI in vielen Anwendungen eingesetzt, um Prozesse zu […]

Was ist ein Algorithmus?

Woher weiß eine Software, wer die Liebe meines Lebens ist? Das versprechen zumindest die großen Dating-Portale – dabei hat das Programm keine Ahnung von Partnerschaft, geschweige denn von Liebe. Aber […]

Amazon Personalize: Funktionen, Anwendung und Vorteile

Der von Amazon Web Services (AWS) angebotene Service namens Amazon Personalize bietet Nutzern die Möglichkeit, die gleiche Machine Learning-Technologie zur Personalisierung zu verwenden, welche Amazon selbst nutzt. Dazu werden vom Nutzer keinerlei Erfahrungen […]

Was ist ein Machine Learning Engineer?

Ein Machine Learning Engineer ist ein wichtiger Bestandteil eines Data Science Teams. Er kümmert sich darum, dass Machine Learning Modelle in Produktion eingesetzt und das alle nötigen Prozesse dafür ineinander […]

Amazon Comprehend: Anwendung, Funktionen und Vorteile

Amazon Web Services (AWS) stellt einen voll verwalteten Natural Language Processing-Service namens Amazon Comprehend zur Verfügung. Amazon Comprehend bietet dem Nutzer die Möglichkeit, Informationen aus Texten zu extrahieren und Zusammenhänge zu erkennen. Durch Amazon Comprehend lassen sich zudem Bereiche wie die Extraktion von […]

AWS Transcribe

AWS Transcribe ist ein von Amazon angebotener Service, der zur Transkription von Audiodateien und gesprochener Sprache in Textform genutzt wird. Auf Basis von Deep-Learning-Prozessen agiert der Dienst automatisiert und hilft bei der […]

Was ist Supervised Learning (Überwachtes Lernen)?

Supervised Learning ist eine Methode des maschinellen Lernens, welche aufgrund einer Analyse von Eingangsdaten mit vorgegebener Zielvariable präzise Empfehlungen ausgibt und Prognosen macht. Dieser Prozess ist durch die notwendige Datenvorverarbeitung […]
Newsletter und Updates

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Erstgespräch vereinbaren