Einführung in maschinelles Sehen

Das computergestützte Sehen (Computer Vision) schreitet seit einigen Jahren rasant voran. Neuronale Netze und Deep Learning eröffnen zahlreiche Anwendungsmöglichkeiten, die unseren Alltag erleichtern und bereichern.

In diesem Artikel vermitteln wir Ihnen einen Überblick über den Begriff und die Anwendung des maschinellen Sehens.

Der Begriff des maschinellen Sehens

Maschinelles Sehen bezeichnet die Fähigkeit von Computern zu visuellem Erkennen. Beim maschinengestützten Sehen werden analoge Bildinformationen erfasst und in digitale Signale umgewandelt. Zu diesem Zweck kommen Videokameras sowie Technologien der Signalverarbeitung zum Einsatz.

Maschinelles sehen ist ein Teil von Deep Learning
Welches Objekt befindet sich auf dem Bild?

Der über das bloße computergestützte Sehen hinausgehende, aber teilweise synonym verwendete Begriff „Computer Vision“ umschreibt sämtliche Technologie-Formen, mit denen Bilder computergestützt digitalisiert und darin enthaltene Informationen zwecks Auslösung bestimmter Aktionen verarbeitet werden.

Wie funktioniert das maschinelle Sehen?

Grundlage der maschinellen Bilderkennung sind zum einen umfangreiche Bilddatenbanken, die der Maschine einen Abgleich mit in der Außenwelt befindlichen Objekten ermöglichen (Trainingsdaten) und die notwendigen künstlichen neuronalen Netzwerke. Die daraus resultierenden Bildmodelle lernen grundsetzliche Strukturen (z.B. Rundungen, Kanten), Muster, Farben und Objekte.

Bildmodelle (mxnet, resnet50 etc.) enthalten also das notwendige Vorwissen, das vom Computer zur Identifizierung von Gegenständen genutzt wird. Dieses Vorwissen wird in einem komplexen Trainingsprozess genutzt, um bestehende Modelle für neue Problemestellungen zu nutzen. Dies nennt man auch Transfer Learning.

Die zur Klassifikation von Objekten, verwendeten Deep Learning Algorithmen vergleichen und klassifizieren die einzelnen zu untersuchenden Bilder. Der Deep Learning Algorithmus zerlegt das Bild in ein Raster (zahlreiche kleinste Quadrate) und extrahiert die Bildinformationen, die jeweils auf eine bestimmte Bildeigenschaft untersucht werden.

Objekterkennung durch maschinelles Sehen
Die Algorithmen beim maschinelles Sehen zerteilen das Bild in Raster.

Durch automatischen Vergleich mehrerer Bilder erkennt das System Muster und berechnet daraufhin die Wahrscheinlichkeit, dass es sich bei dem Bild um einen bestimmten Gegenstand handelt. Die visuellen Inhalte werden beim Computer-gestützten Sehen also unter Nutzung von Deep Lerarning und Neuronalen Netzen erkannt.

Welches sind die typischen Aufgaben von Computer Vision?

Die Möglichkeiten des digitalen Sehens werden beispielsweise eingesetzt für die Erkennung und Zuordnung von:

  • optischen Zeichen,
  • Mustern und
  • Objekten.
Machinelles Sehen
Objekterkennung durch Computer Vision

Zu den typischen Aufgabengebieten von Computer Vision gehören insbesondere

  • Klassifizierung von Objekten,
  • Lokalisierung von Objekten,
  • Durchsuchen großer Datenmengen,
  • Bewegungsanalyse,
  • Beschreibung von Bildern,
  • Aufbau von 3D-Bildern aus einzelnen 2D-Darstellungen und
  • Rekonstruktion von Bildinhalten.

Anwendungsbeispiele für maschinengestütztes Sehen

So wird maschinelles Sehen beispielsweise genutzt zur

  • Identifizierung von Unterschriften oder Handschriften,
  • Überprüfung von Banknoten,
  • Materialprüfung,
  • Erkennung und Zuordnung von Pflanzen oder Pflanzenkeimlingen oder
  • Analyse medizinischer Abbildungen (Beispiel: Identifizierung einzelner Zellkerne, Erkennung von Hautkrebs).
Bilderkennung mit TensorFlow anhand von dem MNIST Datenset
Erkennung von Handschrift anhand von dem bekannten MNIST Datenset.

In natürlichen Umgebungen wird maschinelles Sehen beispielsweise in folgenden Fällen genutzt:

  • Identifizierung von Personen aufgrund biometrischer Daten,
  • Erkennung der Mimik oder Gestik von Personen oder
  • Erkennung von Fahrbahnen und von Fußgängern außerhalb einer Fahrbahn.

Industrielle Anwendungsbereiche sind unter anderem

  • Automatisierungstechnik (Beispiel: Steuerung von Schweißrobotern in eine gewünschte Arbeitsposition),
  • Qualitätssicherung (zum Beispiel die Überprüfung der Produktqualität zum Abschluss eines Herstellungsprozesses oder während der Nutzungsdauer eines Werkstücks oder einer Maschine)
    • Oberflächenkontrolle,
    • Messung von Schichtdicken,
    • Erkennung von Defekten auch unter der Oberfläche,
    • Prüfung von Lage, Maßen und Formen,
    • Überprüfung auf Vollständigkeit,

Sicherheitstechnik (Zutrittskontrollen und Erkennen von Gefahrensituationen) sowie

Verkehrstechnik (Qualitätssicherung und autonomes Fahren von „sehenden“ Fahrzeugen).

Maschinell Sehen im Beispielsfall Gesichtserkennung

Aufgrund eines vorgegebenen Gesichtsmodells weiß die Maschine mithilfe eines Suchalgorithmus,

  • dass sich Nasen stets zwischen Mund und Augen befinden und
  • wo sich ausgehend von bereits identifizierten Augen und Nase in etwa der Mund befinden muss.

Die Gesichtserkennung kann nach dem Hochladen von Bildern auch in sozialen Netzwerken erfolgen. Bildklassifizierungen lassen sich (so beispielsweise bei Facebook praktiziert) zusätzlich mit Sprachfunktionen kombinieren.

  • Wird ein erkanntes Bild von einem Ausgabegerät der Maschine ausgesprochen, so ist Sehbehinderten möglich, die visuellen Inhalte zu verstehen.
  • Das Verfahren der Bilderkennung ermöglicht ebenfalls das Ablesen von Lippen und die anschließende Umwandlung in Sprachsignale.

Die Technologien des Computer-gestützten Sehens liegen auch der Google Fotos App und der Google Fotosuche zugrunde.

Ihr Ansprechparnter: Laurenz Wuttke

Wir entwickeln Künstliche Intelligenz, mit der Sie mehr aus Ihren Kundendaten machen – für wachsende Umsätze und eine nachhaltig hohe Kundenzufriedenheit.

Auch interessant für Sie