Hab letztens eine Erklärung bekommen für ein Modell das das überhaupt nicht brauchen würde, weiß nicht wie dieses hier funktioniert, aber die Erklärung war wie folgt;
Du hast zwei Schritte,
eine erste AI erstellt aus dem Bild eine textuelle Beschreibung
eine zweite AI überprüft die Textbausteine auf Zusammenhang mit CSAM.
So brauchst du keine Trainingsdaten von CSAM, sondern es genügt wenn die erste AI NSFW Bilder erkennen kann und Kinder erkennen kann und das beides als Output geben kann (gibt genügend harmlose Bilder von Kindern und genug NSFW Bilder von Erwachsenen als Trainingsdaten), die zweite muss dann den Zusammenhang auf den Textbausteinen erkennen.
Hab letztens eine Erklärung bekommen für ein Modell das das überhaupt nicht brauchen würde, weiß nicht wie dieses hier funktioniert, aber die Erklärung war wie folgt;
Du hast zwei Schritte,
So brauchst du keine Trainingsdaten von CSAM, sondern es genügt wenn die erste AI NSFW Bilder erkennen kann und Kinder erkennen kann und das beides als Output geben kann (gibt genügend harmlose Bilder von Kindern und genug NSFW Bilder von Erwachsenen als Trainingsdaten), die zweite muss dann den Zusammenhang auf den Textbausteinen erkennen.