Ein Routinier über die Trends im Bereich Machine Vision

Seit 2014 hat das maschinelle Sehen einen enormen Auftrieb erhalten: Neuronale Netze verstehen Bilder und Videos wesentlich besser, was unzählige (neue) Anwendungsmöglichkeiten rentabel macht. John Beuving, Machine-Vision-Spezialist und CTO bei SmarterVision, schildert den aktuellen Stand der Dinge. Was sind die wichtigsten Anwendungsbereiche, Entwicklungen und Trends? Und welche Ratschläge sollten Unternehmen beim Einstieg ins maschinelle Sehen beherzigen?

Seit 2003 Beschäftigung mit Computer Vision, Promotion über modellfreie Objektverfolgung und heute Entwickler von Computer-Vision-Lösungen mit gesellschaftlicher Relevanz bei SmarterVision: John Beuving kann man zu Recht als Routinier im Bereich Computer Vision bezeichnen. Für Spilberg hat er am 23. Juni dieses Jahres das Webinar „Machine vision: learning increasingly complex real-world scenarios with limited to no annotated data“ abgehalten. Darin erläutert er Technologien, durch die sich die Fähigkeit von neuronalen Netzen, Bilder und – vor allem – Videos zu verstehen, verbessert. Nach dem Webinar sprechen wir mit ihm über Machine Vision, den Einsatz von Computer Vision in der Praxis.

Von Qualitätskontrollen bis hin zur Beobachtung von Elefantenpopulationen

Es gebe immer mehr Situationen, in denen Machine-Vision-Systeme Aufgaben schneller, kostengünstiger oder besser erledigen könnten als Menschen, erläutert Beuving. „Dabei geht es insbesondere um repetitive Aufgaben, die wir regelmäßig ausführen und die sich in einer Sekunde erledigen lassen. Insbesondere in den Bereichen Gesundheitswesen, Sicherung und Infrastruktur gibt es jede Menge Möglichkeiten. Weitere Beispiele sind selbstfahrende Autos, Fließbandarbeit wie beispielsweise das Sortieren von Äpfeln und auf sogenannten automatischen Anomalieerkennungen basierende Qualitätskontrollen. Auffälligere Beispiele sind Drohnen, die Brücken und landwirtschaftliche Kulturen kontrollieren. Oder die Software, die wir bei Sensing Clues entwickeln, wo ich ehrenamtlich tätig bin, mit der beispielsweise Elefantenpopulationen anhand von Satellitenbildern beobachtet werden können.“

Trotz der raschen Fortschritte gebe es jedoch immer noch zahlreiche Einschränkungen für den Einsatz des maschinellen Sehens. „Man kann es beispielsweise in der Regel nicht für Aufgaben einsetzen, die länger als eine Sekunde dauern, und auch nicht für soziale Interaktionen. Denn Gruppendynamik ist sehr kompliziert, in erster Linie wegen der Datenmengen, aber auch insbesondere aufgrund der Komplexität der menschlichen Kommunikation. Die Situation wird sich übrigens in den kommenden Jahren verbessern – nicht unbedingt wegen der steigenden Mengen an annotierten Daten, sondern dank technologischer Verbesserungen.“

„Maschinelles Sehen kann immer mehr Dienstleistungsberufe ersetzen“

Den Erwartungen von Beuving zufolge werden in den kommenden Jahren immer mehr menschliche Aufgaben und sogar ganze Tätigkeiten von Machine-Vision-Systemen übernommen werden können. „Beispiele sind Taxi- und Lkw-Fahrer, die durch selbstfahrende Autos und Lkws überflüssig werden. Ich finde es auch interessant, über Dienstleistungsberufe wie Friseur und Helpdesk-Mitarbeiter nachzudenken, die vorwiegend mit Einzelpersonen interagieren. Interaktionen dieser Art können mehr und mehr übernommen werden.“

Trends: Edge Computing und kombinierte Daten

Den Vormarsch des maschinellen Sehens ermögliche das Edge Computing. Da die Daten statt in einem Rechenzentrum an der Datenquelle verarbeitet würden, verbessere sich die Reaktionszeit und reduziere sich die Bandbreite. Dies sei unter anderem für zeitkritische Machine-Vision-Anwendungen interessant, zum Beispiel im Bereich Sicherung, in Produktionsumgebungen und selbstfahrenden Fahrzeugen. Beuving: „Die Edge wird bei geringerem Stromverbrauch und immer kleineren Geräten immer preisgünstiger. Dadurch wird an der Edge, das heißt direkt auf dem Gerät, mehr und mehr möglich. Bei Drohnen beispielsweise erfolgt die Verarbeitung von Videos heute oft erst im Nachhinein. Doch wenn sie direkt auf dem Gerät stattfinden kann, ermöglicht dies Echtzeitanwendungen.“

Auch die breite Verfügbarkeit von Daten anderer Art als Bildern und Videos unterstütze die Machine-Vision-Revolution. „Beispiele sind Überwachungs- oder Wildkameras, die von Geräuschen ausgelöst werden. Daten anderer Art können nicht nur als Auslöser fungieren, sondern lassen sich auch mit Bildern kombinieren, um als Input für ein neuronales Netz zu dienen. Hat man bei der Vogelbeobachtung Videos mit Tonaufnahmen zur Verfügung, weiß man genau, um welchen Vogel es sich handelt. Ein Foto vom Eiffelturm verschafft in Verbindung mit Positionsdaten Klarheit über die Frage: Ist es der Turm in Paris oder die Nachbildung in Las Vegas? Auch bei selbstfahrenden Autos werden maschinelles Sehen und Daten anderer Art kombiniert.“

Deepfakes – sowohl ein Segen als auch Grund zur Sorge

Fernunterricht, Entwicklung von Filmcharakteren, Tatortrekonstruktion: Es seien genug positive Anwendungsfälle für Deepfakes vorstellbar. Derzeit stünden jedoch alle potenziellen negativen Folgen im Vordergrund. „Deepfakes basieren auf Machine-Vision-Technologien. Da sowohl die zugrunde liegende Technik als auch die Daten immer besser werden, wird es immer schwieriger zu beurteilen, was echt ist und was ein Deepfake. Ich weiß, worauf ich achten muss, aber bei den besseren Deepfakes erkennen es die meisten schon nicht mehr“, so Beuving.

Den Erwartungen von Beuving zufolge wird sich die ohnehin schon scharfe Diskussion über Deepfakes in den kommenden Jahren mit zunehmender Qualität und leichterer Herstellbarkeit der Deepfakes noch erheblich zuspitzen. Denn es gebe bereits unzählige Beispiele für Deepfake-Vorfälle, von CEO-Fraud bis hin zum Racheporno.

Schritt eins: mehr Daten

Dank der stark verbesserten Grafikprozessoren und Lernverfahren für Deep Learning in Verbindung mit größeren Datenbeständen erfahre das maschinelle Sehen seit 2014 einen enormen Auftrieb. Dies mache Investitionen in Machine Vision in immer mehr Situationen rentabel.

Planen Sie in Ihrer Organisation den Einsatz von maschinellem Sehen? Obwohl Beuving im Webinar spektakuläre Verfahren beschreibt, um mehr aus Daten herauszuholen, lautet seine Empfehlung an Unternehmen stets: Versuchen Sie dennoch zuerst, so viele Daten zu sammeln wie möglich. „Wir sind jedoch mit einem Datenproblem konfrontiert. Es werden riesige Mengen an Daten generiert; allein auf YouTube werden beispielsweise schon mehr als 80 Jahre Videoaufnahmen pro Tag hochgeladen. Diese sind jedoch vorwiegend nicht annotiert. Algorithmen benötigen aber – zumindest traditionell – annotierte Daten für ein tiefgreifendes Verständnis von Videoaufnahmen.“

Mehr aus weniger Daten herausholen

Selbstüberwachtes Lernen ist Beuving zufolge für die meisten Unternehmen das gängige Verfahren für die (bestmögliche) Lösung des Datenproblems, jedenfalls sofern Daten verfügbar sind. Beim überwachten Lernen müsse ein Mensch alle Datenpunkte labeln, mit denen anschließend das neuronale Netz trainiert werde. Dies sei nicht nur zeitaufwendig und teuer, sondern auch fehleranfällig. Beuving: „Selbstüberwachtes Lernen – momentan ein Hype im Machine-Vision-Bereich – verfolgt einen grundlegend anderen Ansatz: Daten müssen nicht mehr gelabelt werden. Es kommt automatische Annotation zum Einsatz, wobei sich die Daten selbst annotieren und von sich selbst lernen. So erhält man mit wenig Aufwand sehr reichhaltige neuronale Netze.“

Dem Machine-Vision-Experten zufolge ist eine Feinabstimmung des Ergebnisses über Meta Learning oder Active Learning empfehlenswert. Beim Meta Learning lerne das Modell anhand weniger oder sogar ohne Beispiele im Trainingsdatensatz. Active Learning bedeute, dass nur die schwierigen Datenpunkte von Menschen gelabelt werden, wonach das Modell unter Einbeziehung der neuen Datenpunkte erneut trainiert werde. Beuving: „Diese Vorgehensweise ist zum Beispiel eine Lösung für Organisationen, die das Problem haben, dass sie nur über eine begrenzte Menge an annotierten Daten verfügen, weil sie Roboter einsetzen. Ein weiteres Beispiel ist der medizinische Bereich, wo die Bilder zu unterschiedlich sind und die Verfügbarkeit aufgrund von Datenschutzvorschriften problematisch ist.“

Nutzen Sie die Stärken von Facebook und Google

Das Einstiegsniveau für Organisationen, die ins maschinelle Sehen einsteigen wollen, ist Beuving zufolge recht hoch: „Out-of-the-box-Lösungen sind nicht verfügbar und man benötigt dafür viel Erfahrung und Wissen. Zum Glück kann man dank Facebook und Google bereits auf einem relativ hohen Niveau einsteigen. Sie forschen intensiv in diesem Bereich und stellen diverse Standard-Open-Source-Frameworks für maschinelles Sehen auf GitHub zur Verfügung. Man kann also als Organisation mit den eigenen Untersuchungen dort beginnen, wo Facebook und Google aufgehört haben. Wir gehen bei SmarterVision und Sensing Clues auch so vor.“

Die schwierigste Frage: Wie ziehe ich den maximalen Nutzen aus den verfügbaren Daten? „Das ist einfach Erfahrung. Man muss ein Gefühl dafür entwickeln und es verfeinern, und das ist reine Übungssache. Denn jede Art von Daten ist wieder anders. Nehmen Sie zum Beispiel Facebook PyTorch. Das ist ein Framework, das aus einer Art Legosteinen besteht, die man zu einer Lösung zusammenstellen muss. Das Schwierige ist nicht nur, dass die Zusammenstellung perfekt sein sollte, sondern dass die verfügbaren Daten auch bestmöglich genutzt werden sollten.“

Ein Routinier über die Trends im Bereich Machine Vision

Von Qualitätskontrollen bis hin zur Beobachtung von Elefantenpopulationen

„Maschinelles Sehen kann immer mehr Dienstleistungsberufe ersetzen“

Trends: Edge Computing und kombinierte Daten

Deepfakes – sowohl ein Segen als auch Grund zur Sorge

Schritt eins: mehr Daten

Mehr aus weniger Daten herausholen

Nutzen Sie die Stärken von Facebook und Google

Vibe Group vermittelt die 10.000ste IT-Fachkraft

Bovib-Zertifizierung für Spilberg

Vibe Group eröffnet ein neues Büro in Rotterdam

Spilberg in 2022, wie war unser Jahr?