Comfy UI ist eine grafische Benutzeroberfläche, die speziell für das Stable Diffusion Modell entwickelt wurde. Sie ermöglicht es, KI-generierte Bilder aus Textbeschreibungen zu erstellen, und zwar lokal auf dem eigenen Computer, ohne Cloud-Dienste. Comfy UI ist Open Source und somit kostenlos nutzbar, ohne Abonnementgebühren oder Nutzungslimits. Kleiner Haken: Es ist etwas nerdig.
Um einen Einblick in die Funktionsweise zu bekommen, hier ein Erklärvideo (englisch)
Ich habe das aktuelle Pre-built Package für Windows heruntergeladen und mit 7Zip in einen Ordner entpackt. Da in meinem Rechner eine Nvidia-Grafikkarte steckt, habe ich aus dem Ordner heraus die Batchdatei „run_nvidia_gpu“ ausgeführt. Es erscheint ein Dialog im CMD-Fenster, in dem z.B. Python usw. ausgeführt wird. Dann wird der Browser gestartet und man sieht die Matrix, die im Erklärvideo gezeigt wird – nicht so umfangreich, aber man kann damit schon Bilder erzeugen. Naja, nicht so ganz, denn es fehlt noch das Sprachmodell. Das ist natürlich nicht im Paket enthalten. Und ab hier wird es etwas gruselig.
Die Stable Diffusion Modelle sind bei Hugging Face erhältlich. Natürlich will man die aktuelle Version 3.5 haben. Auf der Homepage von Comfy gibt es eine kleine Anleitung, was man herunterladen muss und die entsprechenden Links. Aber ohne einen Hugging Face Account geht erst mal gar nichts. Den muss man sich anlegen. Ich benutze für Dienste, die ich nicht dauerhaft nutzen möchte, immer Fantasienamen und eine Mailadresse, die ich nicht aktiv nutze. Nachdem man ein Konto erstellt hat, sollte man meinen, dass man das entsprechende Sprachmodell einfach herunterladen kann, aber das ist nicht der Fall. Man muss zusätzlich eine Art Formular ausfüllen: Name, E-Mail-Adresse, Verwendungszweck usw. Und es gibt ein Pflichtfeld, in das man den Namen seiner Institution eintragen muss. Ich habe da einfach private reingeschrieben und das hat funktioniert.
Es ist nicht so, dass man ein komplettes Paket herunterlädt. Unter dem Reiter „files and versions“ wird der Verzeichnisbaum angezeigt. Aus diesem Verzeichnisbaum wählt man dann die benötigten Dateien aus und lädt sie herunter. Was man braucht und wohin man die Dateien kopieren muss, ist auf der Seite von Comfy UI beschrieben.

Je nach Internetverbindung dauert es eine Weile, da man ca. 25 Gig herunterlädt. Ich habe mich für die Stable Diffusion Version „sd3.5_large_turbo_safetensors“ entschieden. Nachdem ich diese und drei weitere Dateien heruntergeladen und lokal im Ordner in die richtigen Verzeichnisse kopiert hatte, startete ich Comfy UI über die Batchdatei, wählte das Modell aus und bekam die Fehlermeldung: „NoneType“ object has no attribute „tokenize“. Schaut man in das Hilfeforum, erhält man die Information: Selected checkpoint model is not a valid checkpoint model. Nun gut.
Ich habe mir dann als Modell sd3.5_large_fp8_scaled.safetensors heruntergeladen und in den Ordner /models/checkpoints kopiert. Und siehe da, damit funktioniert es prima. Und dafür braucht man nicht einmal einen Account bei Hugging Face.

Ja, das ist alles ein bisschen nerdig und ich kratze nur an der Oberfläche, aber mit Comfy UI ist wirklich sehr viel möglich. Das beschränkt sich nicht nur auf Text to Image, denn mit Stable Diffusion geht auch Audio und Video. Wenn ich die Matrix von Comfy sehe, fühle ich mich fast wie im Audiobereich, vor einem Eurorack mit vielen Modulen, die verkabelt werden müssen, um Sound zu erzeugen.
Comfy UI funktioniert auch unter Linux und MacOS.
Zu diesem Beitrag gibt es ein Update
Schreibe einen Kommentar