Wir freuen uns riesig, bekannt geben zu können, dass unser neuer Photo Age Estimator offiziell auf unserer Website live ist.
Wenn du schon einmal mit Standard-Tools zur Altersschätzung herumgespielt hast, kennst du das Problem: Sie funktionieren großartig bei perfekten Passfotos, versagen aber sofort, sobald du ein echtes „In-the-Wild“-Foto hochlädst.
Um dieses Problem zu lösen, haben wir nicht einfach ein weiteres Standard-Modell gebaut. Wir haben die unglaubliche Arbeit der Forscher hinter MiVOLO (Multi-input Vision Outlooker) implementiert. Sie haben einen Weg gefunden, KI das Alter so „sehen“ zu lassen, wie Menschen es tun – indem sie das ganze Bild betrachten, nicht nur die Falten.
Hier ist der nerdige Deep-Dive, warum dieser neue Photo Age Estimator anders ist und warum wir so begeistert sind, ihn dir vorstellen zu können.
Das Problem mit dem „schwebenden Kopf“
Die meisten kommerziellen KI-Tools verwenden Convolutional Neural Networks (CNNs), die auf enge Ausschnitte von Gesichtern trainiert sind. Sie behandeln einen Kopf wie ein schwebendes Objekt im Nichts. Wenn dieses Gesicht unscharf ist, im Schatten liegt oder weggedreht ist, muss die KI raten. Aber du rätst nicht. Du nutzt Kontext.
Wie unsere neue Engine funktioniert (Der Nerd-Teil)
Wir betreiben jetzt eine Dual-Stream Transformer-Architektur. Sie zählt nicht nur Pixel in deinen Augen; sie modelliert mathematisch die Beziehung zwischen deinem Gesicht und deinem Körper.
1. Zwei Streams sind besser als einer Statt nur einer Eingabe verarbeitet das Modell zwei parallele Datenströme:
- Stream A (Gesicht): Analysiert biometrische Merkmale (Hauttextur, Gesichtsstruktur).
- Stream B (Körper): Analysiert den globalen Kontext (Haltung, Kleidung, Form).
2. Die Mathematik der „Aufmerksamkeit“ Die eigentliche Magie geschieht in einem Prozess namens Cross-Attention Fusion. Das Modell zwingt diese beiden Ströme dazu, miteinander zu „sprechen“, bevor eine Entscheidung getroffen wird. Technisch ausgedrückt fungieren die Körper-Daten als „Context Key“, der die Gesichts-Daten neu gewichtet.
- Wenn das Gesicht klar ist: Vertraut das Modell den biometrischen Details.
- Wenn das Gesicht unscharf ist: Verschiebt die Mathematik automatisch ihren Fokus (oder ihre „Attention“) auf die Körper-Tokens, um die Lücken zu füllen.
3. Hochauflösende Analyse Standard-KI-Modelle zerhacken Bilder in grobe Blöcke (wie ein Mosaik), meist 16x16 Pixel groß. Unsere Implementierung nutzt 8x8 Patch Embeddings. Das ist eine viel feinere Körnung als üblich und erlaubt es dem Modell, hochfrequente Details – wie Mikro-Texturen der Haut – zu erfassen, die gröbere Modelle einfach löschen würden.
Trainiert, um Halluzinationen zu vermeiden
Einer der coolsten Teile der MiVOLO-Forschung ist, wie sie das Modell während des Trainings „gequält“ haben, um es schlau zu machen. Sie nutzten eine Technik, die wir Anti-Hallucination Training nennen. Während der Lernphase haben sie Gesichter zufällig unscharf gemacht (in bis zu 70 % der Fälle). Das zwang die KI dazu, nicht mehr faul zu sein. Sie konnte Gesichter nicht einfach auswendig lernen; sie musste lernen, Körpersprache und Kontext zu nutzen, um das Rätsel zu lösen.
Probier es selbst aus
Wir haben diese leistungsstarke Architektur als High-Performance-Microservice direkt auf unserer Plattform bereitgestellt. Sie läuft mit voller Float32-Präzision – das bedeutet, wir komprimieren die Mathematik nicht und sparen nicht an der Genauigkeit. Lade ein Foto hoch (gerne auch ein schwieriges!) und sieh selbst, wie die Dual-Stream-Architektur damit umgeht.
https://longevity-germany.com/de/photo-age-test
Ein riesiges Dankeschön an die Forscher Kuprashevich und Tolstykh für ihr bahnbrechendes Paper „MiVOLO: Multi-input Transformer for Age and Gender Estimation“, das diesen Sprung in der Genauigkeit möglich gemacht hat.
Tags
Ähnliche Artikel

Werde Volunteer bei Longevity Germany!
22. Dez. 2025
Longevity Germany startet in Frankfurt!
12. Dez. 2025
Die betriebliche Gesundheitsförderung von innen heraus beeinflussen – Meine Erkenntnisse von der ISPO
7. Dez. 2025
