Leistungen

Computer-Vision-Entwicklung für US- und EU-Industrie- und Produktteams

Wir entwickeln Computer-Vision-Systeme für Produkt-, Industrie- und Consumer-Anwendungsfälle — von der Fehlererkennung in der Produktion bis zur In-App-Objekterkennung mit p95 unter 80 ms. YOLO v11, SAM 2, CLIP, DINOv2 und benutzerdefinierte Heads auf ViT/Swin, wenn die Domäne es erfordert. Edge-Deployment auf Jetson und mobilen NPUs, Cloud-Serving auf NVIDIA Triton, vollständige Annotations-Pipelines auf Label Studio oder Roboflow, MLOps mit Drift-Monitoring. Machbarkeitsstudie ab 8.000 EUR, Pilot ab 42.000 EUR, Produktions-Retainer ab 14.000 EUR/Monat.

Computer-Vision-Projekte scheitern auf vorhersehbare Weise: Jemand wählt ein Modell nach einem Blog-Beitrag aus, bevor irgendjemand die echten Frames betrachtet hat, die Annotation wird als einmalige Kosten statt als laufende Investition behandelt, Edge vs. Cloud wird nach Präferenz statt nach Latenz und Stückkosten entschieden, und niemand überwacht Drift, bis die Genauigkeit in Monat vier still zusammenbricht. Wir arbeiten andersherum. Das erste Lieferergebnis ist ein schriftliches Modell-Auswahl-Memo gegen Ihre echten Frames. Die Annotation ist eine Pipeline mit Active Learning, kein einmaliger Auftrag. Edge vs. Cloud wird gebenchmarkt, nicht angenommen. Drift ist ein verfolgter SLO mit einem Nachtrainings-Workflow, der vor dem Launch bereit ist — keine Feuerwehraktion drei Monate später.

Was wir in einem Computer-Vision-Engagement liefern

Anwendungsfall-Scoping & Datenstrategie

Workshop zur tatsächlichen Geschäftsentscheidung, die das Modell unterstützen soll, Frame-Beschaffungsplan, Klassen-Taxonomie, Ziel-Precision und -Recall je Klasse sowie ein schriftliches Machbarkeits-Memo mit Go/No-Go zum Datensatz vor jedem Training.

Modellauswahl (YOLO/SAM/CLIP/eigenes)

Side-by-Side-Benchmark auf Ihren echten Frames: YOLO v11/v8 für Detection, SAM 2 für Segmentierung, CLIP/DINOv2 für Retrieval und Zero-Shot, Detectron2 oder benutzerdefinierte Heads wenn die Domäne es erfordert. Kosten, Latenz, Genauigkeit schriftlich.

Edge vs. Cloud Deployment

Benchmark auf echter Hardware: NVIDIA Jetson Orin, OAK-D, Coral, iOS Core ML, Android NNAPI für Edge; NVIDIA Triton auf T4/A10G/H100, AWS Rekognition, GCP Vision, Azure Vision für Cloud. Empfehlung gestützt auf Zahlen.

Annotations-Pipelines

Foundation-Modell-Vorab-Beschriftung (SAM 2, GroundingDINO, CLIP), Human-in-the-Loop-Review in Label Studio, CVAT oder Roboflow, Inter-Annotator-Agreement-Tracking (Cohen-Kappa > 0,85) und Active Learning für den nächsten Batch.

MLOps & Drift-Monitoring

Tracking der Ausgabeverteilung, Embedding-Space-Drift via MMD/KS in CLIP- oder DINOv2-Features, klassenbezogene Precision/Recall-Dashboards in Grafana, MLflow Experiment-Tracking, geplantes Nachtraining und dokumentierte Rollback-Pfade.

Datenschutz & Compliance für biometrische Daten

DSFA gemeinsam mit Ihrem Datenschutzteam verfasst, On-Device-Inferenz wo möglich, gehashte Gesichtsvorlagen statt roher Embeddings, Aufbewahrungsfristen mit automatischem Ablauf. DSGVO Artikel 9, BIPA, CUBI, Washington H.B. 1493 abgedeckt.

Stack, den wir einsetzen

PyTorch TensorFlow YOLO v11 YOLOv8 Detectron2 Segment Anything (SAM 2) CLIP DINOv2 OpenCV ONNX TensorRT NVIDIA Triton Roboflow CVAT Label Studio AWS Rekognition GCP Vision Azure Vision Modal Replicate MLflow

Ablauf eines Computer-Vision-Engagements

  1. 01

    Machbarkeit

    Wochen 1–3: Scoping-Workshop, Datensatz-Audit auf Ihren echten Frames, Modell-Auswahl-Memo, Edge-vs-Cloud-Benchmark, Ziel-Precision/Recall je Klasse, schriftlicher Lieferplan. Go/No-Go vor dem Pilot.

  2. 02

    Datensatz & Baseline

    Wochen 4–7: Annotations-Pipeline mit Foundation-Modell-Vorab-Beschriftung, Golden-Eval-Set, Baseline-Modell (YOLO/SAM/CLIP/eigenes) gegen den Datensatz trainiert. Klassenweiser Precision/Recall-Report vor der Iteration.

  3. 03

    Training & Ablationen

    Wochen 8–11: Ablationen zu Architektur, Augmentierung, Loss und Klassenbalance. Active Learning zur Fokussierung der Annotation auf unsichere Frames. TensorRT/ONNX-Quantisierung für das gewählte Deployment-Ziel.

  4. 04

    Deployment & Monitoring

    Wochen 12–14: Edge- oder Cloud-Deployment, Lasttest, Drift-Dashboards in Grafana, Nachtrainings-Workflow in MLflow, Runbooks, Rollback-Pfad, Übergabe. Optionaler Retainer für Produktionssupport.

Engagement-Modelle

CV-Machbarkeitsstudie

Zwei bis drei Wochen Festpreis. Anwendungsfall-Scoping, Datensatz-Audit, Modell-Auswahl-Memo auf echten Frames, Edge-vs-Cloud-Benchmark, schriftlicher Lieferplan mit Kostenprognose. Wird auf den Pilot angerechnet, wenn Sie fortfahren. 8.000 EUR Festpreis.

CV-Pilot

10–14 Wochen. Ein Modell, vollständige Annotations-Pipeline, Datensatzkonstruktion, Training und Ablationen, Deployment auf ein Ziel (Edge-Gerät oder Cloud-Endpunkt), Drift-Monitoring, Runbooks, 30 Tage Post-Launch-Support. 42.000 EUR Festpreis.

Produktionssupport-Retainer

Drift-Response, periodisches Nachtraining, Datensatz-Erweiterung, Modell-Upgrades, zusätzliche Klassen oder Anwendungsfälle, Edge-Fleet-Management, Bereitschaft. Ein Senior-CV-Engineer plus MLE-Support, mindestens sechs Monate. Ab 14.000 EUR/Monat.

Preise exkl. GPU-Rechenleistung, Annotationsarbeit für große Datensätze und Edge-Hardware — direkt auf Ihren Accounts abgerechnet. Typische GPU-Ausgaben im Pilot: 3.000–9.000 EUR.

Warum US- und EU-Teams YuSMP für Computer Vision wählen

DSGVO-konform · ISO-27001-bereit · SOC 2 Type II in Vorbereitung · HIPAA-fähig · CCPA-berücksichtigt

Zahlen vor Modellen

Kein Modell wird ausgewählt, bevor wir Kandidaten auf Ihren echten Frames benchmarken. Das erste Lieferergebnis ist ein schriftliches Modell-Auswahl-Memo mit Kosten, Latenz und klassenweiser Genauigkeit — keine Folie mit COCO-Benchmarks.

Annotation als Pipeline, nicht als Einmalauftrag

Foundation-Modell-Vorab-Beschriftung, Human-in-the-Loop-Review mit Inter-Annotator-Agreement-Gates, Active Learning für den nächsten Batch. Die Pipeline läuft nach dem Launch weiter, weil Drift Ihre Roadmap nicht pausieren wird.

Biometrische Compliance richtig umgesetzt

DSFA gemeinsam verfasst, bevor ein Frame verarbeitet wird. On-Device-Inferenz wo möglich, gehashte Vorlagen statt roher Embeddings, Aufbewahrungsfristen mit automatischem Ablauf. DSGVO Artikel 9, BIPA, CUBI und Washington H.B. 1493 gemeinsam mit Ihnen durchgearbeitet.

Für regulierte Workloads unterzeichnen wir HIPAA-BAAs, betreiben ausschließlich in HIPAA-geeigneten Regionen und integrieren uns in Ihre bestehende DLP- und Data-Governance — nicht parallel dazu.

Häufig gestellte Fragen

Wann sollten wir YOLO, SAM 2, CLIP oder ein eigens trainiertes Modell verwenden?

Es kommt auf die Aufgabe und die Daten an. YOLO v11 und YOLOv8 sind der Standard für Objekterkennung und Instanzsegmentierung, wenn Sie Bounding Boxes oder Masken haben; v11 ist schneller und genauer, v8 hat das größere Ökosystem vortrainierter Checkpoints. SAM 2 ist unsere Wahl, wenn Sie Segmentierungsmasken ohne Click-Level-Beschriftung benötigen, insbesondere für Video. CLIP und DINOv2 sind die erste Wahl für Zero-Shot-Klassifikation, Bildretrieval und visuelle Suche. Eigenes Training (Detectron2, MMDetection, benutzerdefinierte Heads auf ViT/Swin-Backbones) lohnt sich, wenn die Domäne weit von natürlichen Bildern entfernt ist: Röntgenaufnahmen, Satellitenbilder, Halbleiter-Wafer, Mikroskopie. Das erste Lieferergebnis ist stets ein schriftliches Modell-Auswahl-Memo, kein bereits gewähltes Modell.

Soll das Modell am Edge oder in der Cloud laufen?

Latenz, Datenschutz und Stückkosten entscheiden. Edge (NVIDIA Jetson, OAK-D, Coral, mobile NPUs) gewinnt, wenn Sie eine Reaktionszeit unter 100 ms benötigen, die Bandbreite begrenzt ist oder das Senden von Video in die Cloud datenschutz- oder compliance-rechtlich nicht infrage kommt. Cloud (NVIDIA Triton auf GPU-Instanzen, AWS Rekognition für Standardaufgaben, GCP Vision, Azure Vision) gewinnt, wenn Sie zentralisierte Modell-Updates benötigen, Genauigkeit wichtiger ist als Latenz oder Geräte kein 200-MB-Modell hosten können. Viele Produktionssysteme nutzen beides: ein kleiner Detektor auf dem Gerät für die Vorfilterung, ein größeres Modell in der Cloud zur Verifikation. Wir benchmarken beide Pfade auf Ihren echten Frames, bevor wir eine Empfehlung aussprechen.

Wie gehen Sie mit der Annotation um, wenn unser Team noch keine beschrifteten Daten hat?

Dreistufiges Playbook. Erstens: Vorab-Beschriftung mit Foundation-Modellen — SAM 2 für Masken, GroundingDINO für Bounding Boxes, CLIP für Klassifikation, Frontier-VLMs (GPT-4o, Claude 3.7) für schwierige Fälle. Das reduziert den Annotationsaufwand um 60 bis 80 Prozent. Zweitens: Human-in-the-Loop-Review in Label Studio, CVAT oder Roboflow mit einem Inter-Annotator-Agreement-Ziel über 0,85 (Cohen-Kappa), bevor ein Frame ins Training einfließt. Drittens: Active Learning — das Modell wählt den nächsten Batch zur Beschriftung anhand von Unsicherheit, nicht nach Zufallsstichproben. Wir können das Annotations-Team selbst stellen oder die Pipeline aufbauen und an Ihr Team übergeben.

Wie überwachen Sie ein CV-Modell in der Produktion und erkennen Data Drift?

Drei täglich verfolgte Signale. Erstens, Ausgabeverteilung: klassenweise Konfidenz-Histogramme, Detection-Count-Drift, Mask-Area-Drift, aufgetragen gegen eine Sieben-Tage-Baseline in Grafana. Zweitens, Eingabe-Drift: Embedding-Shift im CLIP- oder DINOv2-Merkmalsraum via MMD- oder KS-Tests gegen den Trainings-Datensatz. Drittens, Ground-Truth-Feedback: ein einstellbarer Prozentsatz der Inferenz-Frames wird menschlichem Review zugeführt und wöchentliche Precision/Recall-Reports je Datenscheibe erstellt. Alarme lösen bei Schwellwertüberschreitung aus und starten den Nachtrainings-Workflow in MLflow, mit dokumentiertem Rollback-Pfad.

Was ist mit DSGVO und biometrischen Daten — können Sie Gesichts- oder Personenerkennung abdecken?

Ja, sofern der Compliance-Aufwand von Woche eins an eingeplant ist. Nach DSGVO Artikel 9 sind biometrische Daten besondere Kategorien personenbezogener Daten: Die Rechtsgrundlage muss ausdrückliche Einwilligung, lebenswichtige Interessen oder erhebliches öffentliches Interesse sein. Wir ko-verfassen die DSFA gemeinsam mit Ihrem Datenschutzteam, bevor ein Frame verarbeitet wird. Technische Schutzmaßnahmen: On-Device-Inferenz wo möglich, gehashte Gesichtsvorlagen statt roher Embeddings, Aufbewahrungsfristen mit automatischem Ablauf und IAM-segmentierter Speicher. Für US-Deployments folgen wir BIPA (Illinois), CUBI (Texas) und Washington H.B. 1493. Wir sind DSGVO-konform, ISO-27001-bereit, SOC 2 Type II in Vorbereitung, HIPAA-fähig und CCPA-berücksichtigt.

Wie lange dauert ein typisches CV-Pilotprojekt und was kostet es?

Die Machbarkeitsstudie ist zum Festpreis von 8.000 EUR in zwei bis drei Wochen abgeschlossen: Anwendungsfall-Scoping, Datensatz-Audit, Modell-Auswahl-Memo, Edge-vs-Cloud-Benchmark auf Beispiel-Frames und ein schriftlicher Lieferplan mit Kostenprognose. Ein Pilotprojekt — ein Modell, Datensatzkonstruktion, Training und Produktion auf einem Kanal (Edge-Gerät oder Cloud-Endpunkt) — kostet 42.000 EUR Festpreis über 10 bis 14 Wochen. Produktionssupport, Drift-Monitoring, periodisches Nachtraining und Modell-Upgrades laufen ab 14.000 EUR/Monat mit mindestens sechs Monaten Mindestlaufzeit. GPU-Rechenleistung, Annotationsarbeit und Edge-Hardware werden direkt auf Ihren Accounts abgerechnet.

Haben Sie einen CV-Anwendungsfall und benötigen zuerst ein schriftliches Machbarkeits-Memo?

Discovery-Call buchen