TL;DR; Benutzt ResNet50. Es ist am schnellsten und günstigsten.
TS;WM – Too Short; Want More
Wenn ihr euch diese Frage auch stellt, dann schlage ich vor einmal auf Standfords DAWNBench vorbeizuschauen: https://dawn.cs.stanford.edu/benchmark/index.html.
Im Menü links unter Image Classification (ImageNet) oder Image Classification (CIFAR10) könnnt ihr jeweils sehen, welches Basismodell gerade auf ImageNet bzw. CIRFAR10 am schnellsten (Training Time), am günstigen (Training Cost: Kosten in USD) trainiert werden kann, für welches die Erkennungsgeschwindigkeit eines Bildes am höchsten (Inference Latency) und wie teuer die Erkennung von 10.000 Bildern im Licht aktuelle Clouddienstleisterkosten ist (Inference Cost).
Der klare Gewinner ist ResNet50.
Ich würde daher für den Bau eines Bilderkennungsmodells immer mit ResNet50 beginnen.
Ausnahme: Mobile Geräte. Wenn das Modell unbedingt auf einem Smartphone oder einem Raspberry Pi verwendet werden muss, weil der der Einsatz einer API nicht infrage kommt, gibt es spezielle andere Architekturen. Ein Beispiel ist Mobilenet V2.