Question 1

Wann sollten wir YOLO, SAM 2, CLIP oder ein eigens trainiertes Modell verwenden?

Accepted Answer

Es kommt auf die Aufgabe und die Daten an. YOLO v11 und YOLOv8 sind der Standard für Objekterkennung und Instanzsegmentierung, wenn Sie Bounding Boxes oder Masken haben; v11 ist schneller und genauer, v8 hat das größere Ökosystem vortrainierter Checkpoints. SAM 2 ist unsere Wahl, wenn Sie Segmentierungsmasken ohne Click-Level-Beschriftung benötigen, insbesondere für Video. CLIP und DINOv2 sind die erste Wahl für Zero-Shot-Klassifikation, Bildretrieval und visuelle Suche. Eigenes Training (Detectron2, MMDetection, benutzerdefinierte Heads auf ViT/Swin-Backbones) lohnt sich, wenn die Domäne weit von natürlichen Bildern entfernt ist: Röntgenaufnahmen, Satellitenbilder, Halbleiter-Wafer, Mikroskopie. Das erste Lieferergebnis ist stets ein schriftliches Modell-Auswahl-Memo, kein bereits gewähltes Modell.

Question 2

Soll das Modell am Edge oder in der Cloud laufen?

Accepted Answer

Latenz, Datenschutz und Stückkosten entscheiden. Edge (NVIDIA Jetson, OAK-D, Coral, mobile NPUs) gewinnt, wenn Sie eine Reaktionszeit unter 100 ms benötigen, die Bandbreite begrenzt ist oder das Senden von Video in die Cloud datenschutz- oder compliance-rechtlich nicht infrage kommt. Cloud (NVIDIA Triton auf GPU-Instanzen, AWS Rekognition für Standardaufgaben, GCP Vision, Azure Vision) gewinnt, wenn Sie zentralisierte Modell-Updates benötigen, Genauigkeit wichtiger ist als Latenz oder Geräte kein 200-MB-Modell hosten können. Viele Produktionssysteme nutzen beides: ein kleiner Detektor auf dem Gerät für die Vorfilterung, ein größeres Modell in der Cloud zur Verifikation. Wir benchmarken beide Pfade auf Ihren echten Frames, bevor wir eine Empfehlung aussprechen.

Question 3

Wie gehen Sie mit der Annotation um, wenn unser Team noch keine beschrifteten Daten hat?

Accepted Answer

Dreistufiges Playbook. Erstens: Vorab-Beschriftung mit Foundation-Modellen — SAM 2 für Masken, GroundingDINO für Bounding Boxes, CLIP für Klassifikation, Frontier-VLMs (GPT-4o, Claude 3.7) für schwierige Fälle. Das reduziert den Annotationsaufwand um 60 bis 80 Prozent. Zweitens: Human-in-the-Loop-Review in Label Studio, CVAT oder Roboflow mit einem Inter-Annotator-Agreement-Ziel über 0,85 (Cohen-Kappa), bevor ein Frame ins Training einfließt. Drittens: Active Learning — das Modell wählt den nächsten Batch zur Beschriftung anhand von Unsicherheit, nicht nach Zufallsstichproben. Wir können das Annotations-Team selbst stellen oder die Pipeline aufbauen und an Ihr Team übergeben.

Question 4

Wie überwachen Sie ein CV-Modell in der Produktion und erkennen Data Drift?

Accepted Answer

Drei täglich verfolgte Signale. Erstens, Ausgabeverteilung: klassenweise Konfidenz-Histogramme, Detection-Count-Drift, Mask-Area-Drift, aufgetragen gegen eine Sieben-Tage-Baseline in Grafana. Zweitens, Eingabe-Drift: Embedding-Shift im CLIP- oder DINOv2-Merkmalsraum via MMD- oder KS-Tests gegen den Trainings-Datensatz. Drittens, Ground-Truth-Feedback: ein einstellbarer Prozentsatz der Inferenz-Frames wird menschlichem Review zugeführt (oder einem nachgelagerten Geschäftssignal als Proxy für Ground Truth), und wöchentliche Precision/Recall-Reports je Datenscheibe. Alarme lösen bei Schwellwertüberschreitung aus und starten den Nachtrainings-Workflow in MLflow, mit dokumentiertem Rollback-Pfad.

Question 5

Was ist mit DSGVO und biometrischen Daten — können Sie Gesichts- oder Personenerkennung abdecken?

Accepted Answer

Ja, sofern der Compliance-Aufwand von Woche eins an eingeplant ist. Nach DSGVO Artikel 9 sind biometrische Daten besondere Kategorien personenbezogener Daten: Die Rechtsgrundlage muss ausdrückliche Einwilligung, lebenswichtige Interessen oder erhebliches öffentliches Interesse sein. Wir ko-verfassen die Datenschutz-Folgenabschätzung (DSFA) gemeinsam mit Ihrem Datenschutzteam, bevor ein Frame verarbeitet wird. Technische Schutzmaßnahmen umfassen On-Device-Inferenz wo möglich, gehashte Gesichtsvorlagen statt roher Embeddings, Aufbewahrungsfristen mit automatischem Ablauf und IAM-segmentierten Speicher. Für US-Deployments folgen wir BIPA (Illinois), CUBI (Texas) und Washington H.B. 1493. Wir sind DSGVO-konform, ISO-27001-bereit, SOC 2 Type II in Vorbereitung, HIPAA-fähig und CCPA-berücksichtigt.

Question 6

Wie lange dauert ein typisches CV-Pilotprojekt und was kostet es?

Accepted Answer

Die Machbarkeitsstudie ist zum Festpreis von 8.000 EUR in zwei bis drei Wochen abgeschlossen: Anwendungsfall-Scoping, Datensatz-Audit, Modell-Auswahl-Memo, Edge-vs-Cloud-Benchmark auf Beispiel-Frames und ein schriftlicher Lieferplan mit Kostenprognose. Ein Pilotprojekt — ein Modell, Datensatzkonstruktion, Training und Produktion auf einem Kanal (Edge-Gerät oder Cloud-Endpunkt) — kostet 42.000 EUR Festpreis über 10 bis 14 Wochen. Produktionssupport, Drift-Monitoring, periodisches Nachtraining und Modell-Upgrades laufen ab 14.000 EUR/Monat mit mindestens sechs Monaten Mindestlaufzeit. GPU-Rechenleistung, Annotationsarbeit und Edge-Hardware werden direkt auf Ihren Accounts abgerechnet.

Computer-Vision-Entwicklung für US- und EU-Industrie- und Produktteams

Was wir in einem Computer-Vision-Engagement liefern

Anwendungsfall-Scoping & Datenstrategie

Modellauswahl (YOLO/SAM/CLIP/eigenes)

Edge vs. Cloud Deployment

Annotations-Pipelines

MLOps & Drift-Monitoring

Datenschutz & Compliance für biometrische Daten

Stack, den wir einsetzen

Ablauf eines Computer-Vision-Engagements

Machbarkeit

Datensatz & Baseline

Training & Ablationen

Deployment & Monitoring

Engagement-Modelle

CV-Machbarkeitsstudie

CV-Pilot

Produktionssupport-Retainer

Ausgewählte Projekte

REHAU

xRouten

ANT

Warum US- und EU-Teams YuSMP für Computer Vision wählen

Zahlen vor Modellen

Annotation als Pipeline, nicht als Einmalauftrag

Biometrische Compliance richtig umgesetzt

Was Kunden sagen

Häufig gestellte Fragen

Haben Sie einen CV-Anwendungsfall und benötigen zuerst ein schriftliches Machbarkeits-Memo?

Aus dem Blog

KI-Integration in Unternehmenssoftware 2026

KI-Agenten für Enterprise im Jahr 2026

On-Device-KI in Mobile Apps: Leitfaden 2026

Kosten für individuelle Softwareentwicklung 2026

Angebot anfordern