In Picnic’s vollautomatischem Fulfilment-Center in Utrecht bewegen sich täglich Tausende Kunststoffkisten über mehr als 50 Kilometer Förderbänder. Die hauseigene Steuerungssoftware weiß genau, wohin jede Kiste soll – doch sie sieht nicht, was in ihr passiert. Erst beim Kommissionieren, im Lieferfahrzeug oder schlimmstenfalls beim Kunden wird sichtbar, ob etwas schiefgelaufen ist.
Ein Joghurt im falschen Beutel, eine zerdrückte Tomate – diese Probleme sind selten, aber folgenreich. Mit statistischen Sicherheitsmechanismen und ausgefeilten Packalgorithmen versucht Picnic, sie zu vermeiden. Wie Picnic in einem Blog-Beitrag skizziert, soll künftig maschinelles Sehen helfen, Fehler in Echtzeit zu erkennen und problematische Kisten automatisch umzuleiten.
Vision-Systeme als Frühwarnsystem
Zwei Hauptarten von Kisten sind für Picnic besonders wichtig: Order-Totes, die direkt zum Kunden gehen, und Stock-Totes, die den Nachschub liefern. Kameras mit KI-Auswertung sollen künftig automatisch kontrollieren, ob die richtigen Produkte in der richtigen Menge und dem richtigen Zustand gepackt wurden.
So könnten Bestellkisten auf Falschbefüllung oder offensichtliche Produktverwechslungen geprüft werden. Bei Vorratskisten würde das automatische Zählen den manuellen Aufwand reduzieren und verdorbene Ware gezielt aussortiert werden. Der Effekt: weniger Fehlbestände, weniger Reklamationen, zufriedenere Kunden.
Gewinnen in der Plattform-Ökonomie
Technische Herausforderungen auf dem Band
Für eine zuverlässige Analyse braucht es hochwertige Bilder – bei 1,5 Metern pro Sekunde Bandgeschwindigkeit, reflektierenden Verpackungen und komplexen Beleuchtungssituationen keine leichte Aufgabe. Entscheidend ist: Jede Kiste muss scharf, vollständig und mit zugehörigem Barcode erfasst werden. Nur so kann das Bild dem Lagerbestand zugeordnet und für das Training genutzt werden.
2D oder 3D? Die Frage nach dem richtigen Kamera-Setup
Picnic startete mit 2D-Kameras: günstiger, farbecht und unkompliziert zu montieren. Sie reichen aus, um Barcodes zu erkennen und einfache Objektklassifikationen vorzunehmen. 3D-Kameras liefern mehr Informationen, vor allem bei überlappenden Produkten – sind aber deutlich teurer, komplexer und datenintensiver. Für die Pilotphase genügte die 2D-Variante, später könnte ein Upgrade erfolgen.
Edge oder Cloud: Wo läuft die KI?
Die Entscheidung, ob die Bilder direkt vor Ort (Edge) oder in der Cloud analysiert werden, hängt von Latenz, Hardwareverfügbarkeit und Skalierbarkeit ab. Auf Edge-Geräten wie dem Nvidia Jetson läuft etwa das bekannte YOLO-Modell für Objekterkennung – schnell und flexibel, aber limitiert bei komplexeren Aufgaben.
Für genaues Zählen könnte CountGD eingesetzt werden. Es erkennt Objekte anhand eines Prompts wie „Äpfel“ und liefert die Anzahl. Der Haken: Es klassifiziert keine Schäden und müsste durch weitere Modelle ergänzt werden.
Vision Language Models als Gamechanger?
Eine vielversprechende Alternative: Cloud-basierte Vision Language Models wie Google Gemini. Sie verarbeiten ein einziges Bild und liefern Objektanzahl, Position und Fehlerbeschreibung – alles über einfache Prompts. Die Modelle werden günstiger, leistungsfähiger und einfacher zu integrieren. Zwar dauert die Auswertung aktuell mehrere Sekunden, doch Picnic kann sich diese Zeit leisten, da der physische Materialfluss langsamer ist.
Herausforderungen wie Halluzinationen, Kosten bei großem Volumen und mangelnde Feinjustierung bleiben bestehen – doch Innovationen im Bereich VLM machen diese Hürden zunehmend kleiner.
Ausblick: Vom Prototyp zur Skalierung
Was als Testprojekt mit 2D-Kameras begann, hat sich zu einer strategischen Option für Picnic entwickelt. Das Ziel: Jeder Behälter wird zu einer digitalen Datenquelle. Fehler werden erkannt, bevor sie zum Problem werden. Egal ob YOLO, CountGD oder Gemini – Picnic analysiert derzeit, welches System in der Praxis überzeugt. Teil zwei des Projekts soll zeigen, welches Modell beim Zählen die Nase vorn hat.