Einführung in maschinelles Sehen

Das computergestützte Sehen (Computer Vision) schreitet seit einigen Jahren rasant voran. Neuronale Netze und Deep Learning eröffnen zahlreiche Anwendungsmöglichkeiten, die unseren Alltag erleichtern und bereichern.

In diesem Artikel vermitteln wir Ihnen einen Überblick über den Begriff und die Anwendung des maschinellen Sehens.

Lassen Sie uns direkt einsteigen!

  1. Der Begriff des maschinellen Sehens
  2. Wie funktioniert das maschinelle Sehen?
  3. Welche sind die typischen Aufgaben von Computer Vision?
  4. Anwendungsbeispiele für maschinengestütztes Sehen
  5. Maschinelles Sehen im Beispielsfall Gesichtserkennung

Der Begriff des maschinellen Sehens

Maschinelles Sehen bezeichnet die Fähigkeit von Computern zu visuellem Erkennen. Beim maschinengestützten Sehen werden analoge Bildinformationen erfasst und in digitale Signale umgewandelt. Zu diesem Zweck kommen Videokameras sowie Technologien der Signalverarbeitung zum Einsatz.

Maschinelles sehen ist ein Teil von Deep Learning
Welches Objekt befindet sich auf dem Bild?

Der über das bloße computergestützte Sehen hinausgehende, aber teilweise synonym verwendete Begriff „Computer Vision“ umschreibt sämtliche Technologie-Formen, mit denen Bilder computergestützt digitalisiert und darin enthaltene Informationen zwecks Auslösung bestimmter Aktionen verarbeitet werden.

Wie funktioniert das maschinelle Sehen?

Grundlage der maschinellen Bilderkennung sind zum einen umfangreiche Bilddatenbanken, die der Maschine einen Abgleich mit in der Außenwelt befindlichen Objekten ermöglichen (Trainingsdaten) und die notwendigen künstlichen neuronalen Netzwerke liefern. Die daraus resultierenden Bildmodelle lernen grundsätzliche Strukturen (z.B. Rundungen, Kanten), Muster, Farben und Objekte.

Bildmodelle (mxnet, resnet50 etc.) enthalten also das notwendige Vorwissen, das vom Computer zur Identifizierung von Gegenständen genutzt wird. Dieses Vorwissen wird in einem komplexen Trainingsprozess genutzt, um bestehende Modelle für neue Problemstellungen zu nutzen. Dies nennt man auch Transfer Learning.

Die zur Klassifikation von Objekten, verwendeten Deep Learning Algorithmen vergleichen und klassifizieren die einzelnen zu untersuchenden Bilder. Der Deep Learning Algorithmus zerlegt das Bild in ein Raster (zahlreiche kleinste Quadrate) und extrahiert die Bildinformationen, die jeweils auf eine bestimmte Bildeigenschaft untersucht werden.

Objekterkennung durch maschinelles Sehen
Die Algorithmen beim maschinellen Sehen zerteilen das Bild in Raster.

Durch automatische Vergleiche mehrerer Bilder erkennt das System Muster und berechnet daraufhin die Wahrscheinlichkeit, ob es sich bei dem jeweiligen Bild um einen bestimmten Gegenstand handelt. Die visuellen Inhalte werden beim Computer-gestützten Sehen also unter Nutzung von Deep Learning und Neuronalen Netzen erkannt.

Welche sind die typischen Aufgaben von Computer Vision?

Die Möglichkeiten des digitalen Sehens werden beispielsweise eingesetzt für die Erkennung und Zuordnung von:

  • optischen Zeichen,
  • Mustern und
  • Objekten.
Machinelles Sehen
Objekterkennung durch Computer Vision

Zu den typischen Aufgabengebieten von Computer Vision gehören insbesondere

  • Klassifizierung von Objekten,
  • Lokalisierung von Objekten,
  • Durchsuchen großer Datenmengen,
  • Bewegungsanalyse,
  • Beschreibung von Bildern,
  • Aufbau von 3D-Bildern aus einzelnen 2D-Darstellungen und
  • Rekonstruktion von Bildinhalten.

Gratis White Paper

Künstliche Intelligenz optimiert Marketing und Vertrieb

In den KI-Fallstudien erfahren Sie:

Tragen Sie sich hier in unseren Newsletter ein und erhalten Sie gratis die KI-Fallstudien:

Mit der Anmeldung stimmen Sie unserer Datenschutzerklärung zu.

Anwendungsbeispiele für maschinengestütztes Sehen

Maschinelles Sehen wird beispielsweise genutzt für:

  • Identifizierung von Unterschriften oder Handschriften,
  • Überprüfung von Banknoten,
  • Materialprüfung,
  • Erkennung und Zuordnung von Pflanzen oder Pflanzenkeimlingen oder
  • Analyse medizinischer Abbildungen (Beispiel: Identifizierung einzelner Zellkerne, Erkennung von Hautkrebs).
Bilderkennung mit TensorFlow anhand von dem MNIST Datenset
Erkennung von Handschrift anhand von dem bekannten MNIST Datenset.

In natürlichen Umgebungen wird maschinelles Sehen beispielsweise in folgenden Fällen genutzt:

  • Identifizierung von Personen aufgrund biometrischer Daten,
  • Erkennung der Mimik oder Gestik von Personen oder
  • Erkennung von Fahrbahnen und von Fußgängern außerhalb einer Fahrbahn.

Industrielle Anwendungsbereiche sind unter anderem

  • Automatisierungstechnik (Beispiel: Steuerung von Schweißrobotern in eine gewünschte Arbeitsposition),
  • Qualitätssicherung (zum Beispiel die Überprüfung der Produktqualität zum Abschluss eines Herstellungsprozesses oder während der Nutzungsdauer eines Werkstücks oder einer Maschine)
    • Oberflächenkontrolle,
    • Messung von Schichtdicken,
    • Erkennung von Defekten auch unter der Oberfläche,
    • Prüfung von Lage, Maßen und Formen,
    • Überprüfung auf Vollständigkeit,

Sicherheitstechnik (Zutrittskontrollen und Erkennen von Gefahrensituationen) sowie

Verkehrstechnik (Qualitätssicherung und autonomes Fahren von „sehenden“ Fahrzeugen).

Maschinelles Sehen im Beispielsfall Gesichtserkennung

Aufgrund eines vorgegebenen Gesichtsmodells weiß die Maschine mithilfe eines Suchalgorithmus,

  • dass sich Nasen stets zwischen Mund und Augen befinden und
  • wo sich ausgehend von bereits identifizierten Augen und Nase in etwa der Mund befinden muss.

Die Gesichtserkennung kann nach dem Hochladen von Bildern auch in sozialen Netzwerken erfolgen. Bildklassifizierungen lassen sich (so beispielsweise bei Facebook praktiziert) zusätzlich mit Sprachfunktionen kombinieren.

  • Wird ein erkanntes Bild von einem Ausgabegerät der Maschine ausgesprochen, so ist es für Sehbehinderte möglich, die visuellen Inhalte zu verstehen.
  • Das Verfahren der Bilderkennung ermöglicht ebenfalls das Ablesen von Lippen und die anschließende Umwandlung in Sprachsignale.

Die Technologien des Computer-gestützten Sehens liegen auch der Google Fotos App und der Google Fotosuche zugrunde.

Ihr Kontakt: Laurenz Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Laurenz Wuttke

Auch interessant für Sie

Praxisbeispiele

Künstliche Intelligenz optimiert Marketing und Vertrieb

Tragen Sie sich hier in unseren Newsletter ein und erhalten Sie gratis die KI-Anwendungsfälle:

Mit der Anmeldung stimmen Sie unserer Datenschutzerklärung zu.