Jost Alemann, Valentin Rieß
Evaluierung verschiedener DeepFake-Detektoren in Bezug auf deren Plausibilität (genutzter Datensatz, Klassifizierungsunterschiede, Modellkomplexität, Treffsicherheit, ...)
Detektor hat starke Probleme mit dem FakeAVCeleb Dataset. Die Fehler wurden bei den nachfolgenden Diagrammen und Metriken herausgerechnet.
Alle vortrainierten Mesonet-Varianten geben fast immer einen konstanten Prediction-Wert zurück (1 oder 0 je nach Variante). Mesonet scheint fine-tuning zu benötigen.
Wie oft war der Detektor mit seiner Annahme richtig? \(Accuracy = \frac{TP+TN}{TP+TN+FP+FN}\)
Bei DF_e2e dominiert Selimsef.
Bei FAVC sind die Detektoren an sich gleichauf aber Deepware hat nur 1/4 untersucht.
Wie viele erkannte Fakes sind tatsächlich Fakes? \(Precision = \frac{TP}{TP+FP}\)
Bei beiden dominiert Selimsef minimal.
Wie viele Fakes wurden tatsächlich als Fakes erkannt? \(Recall = \frac{TP}{TP+FN}\)
Selimsef erkennt Fake-Videos zuverlässiger als solche.
Wie beeinflussen sie den Recall/TPR der Detektoren?
Kompression und Artefakte haben einen messbar negativen Einfluss auf die korrekte Erkennung von Fakes
Wie beeinflussen sie den Recall/TPR der Detektoren?
Ethnie der abgebildeten Personen in den Fakes beeinflusst die korrekte Erkennung von Fakes.
Wie viele echte Videos werden als Fakes klassifiziert?
Unmodifizierte Videos werden mit hoher Zuversicht als nicht-Fakes klassifiziert.
Das Verknüpfen von TPR und FPR an den Threshold-Werten erlaubt die Erstellung einer ROC-Kurve. Qualitätsmaß, wie gut der Klassifikator zwischen Klassen unterscheiden kann.
Use a spacebar or arrow keys to navigate.
Press 'P' to launch speaker console.