Bing Edwards / Ars Technica
Letzte Woche der Schweizer Software-Ingenieur Matthias Pullman Entdecken Das berühmte Fotomontagemodell stabile Verbreitung Es kann vorhandene Bitmaps mit weniger visuellen Artefakten als JPEG oder WebP bei hohen Komprimierungsraten komprimieren, obwohl es erhebliche Einschränkungen gibt.
Stable Spread ist eine Datei Fotomontagemodell der künstlichen Intelligenz die in der Regel Bilder basierend auf Textbeschreibungen generieren (sogenannte „Ansprüche“). Das KI-Modell hat diese Fähigkeit gelernt, indem es Millionen von Bildern aus dem Internet untersucht hat. Während des Trainingsprozesses stellt das Modell statistische Zuordnungen zwischen Bildern und verwandten Wörtern her, erstellt eine viel kleinere Darstellung grundlegender Informationen zu jedem Bild und speichert sie als „Gewichte“, bei denen es sich um mathematische Werte handelt, die das darstellen, was das KI-Bildmodell darstellt weiß, also treten sie auf.
Wenn die stabile Diffusion die Bilder analysiert und in eine Gewichtsform „komprimiert“, befinden sie sich in einem, was Forscher einen „latenten Raum“ nennen, eine Art zu sagen, dass er als eine Art verschwommenes Potenzial existiert, das in den Bildern wahrgenommen werden kann, sobald sie dekodiert sind . Mit Stable Diffusion 1.4 ist die Gewichtsdatei ungefähr 4 GB groß, aber sie enthält Hunderte Millionen Bilder.
Während die meisten Leute Stable Diffusion mit Textaufforderungen verwenden, hat Bühlmann den Textkodierer abgeschnitten und seine Bilder stattdessen durch den Stable Diffusion-Bildkodierungsprozess gezwungen, der ein Bild mit niedriger Auflösung von 512 × 512 nimmt und es in eine latente Darstellung mit 64 × 64 mit höherer Auflösung konvertiert des Raumes. An diesem Punkt existiert das Bild mit einer viel kleineren Datengröße als das Originalbild, aber es kann immer noch mit ziemlich guten Ergebnissen auf ein 512 x 512-Bild erweitert (dekodiert) werden.
Bei Tests stellte Bühlmann fest, dass mit Stable Diffusion komprimierte Bilder bei höheren Komprimierungsraten (kleinere Dateigröße) subjektiv besser aussehen als JPEG oder WebP. In einem Beispiel zeigt es ein Bild eines Süßwarenladens, das mit JPEG auf 5,68 KB, mit WebP auf 5,71 KB und mit Stable Diffusion auf 4,98 KB komprimiert wurde. Das stabile Diffusionsbild scheint feinere Details und weniger klare Komprimierungsergebnisse zu haben als die in anderen Formaten komprimierten.
Bühlmanns Methode ist jedoch derzeit mit erheblichen Einschränkungen verbunden: Sie eignet sich nicht für Gesichter oder Text und kann in einigen Fällen tatsächlich detaillierte Merkmale im decodierten Bild halluzinieren, die im Quellbild nicht vorhanden waren. (Sie möchten wahrscheinlich nicht, dass der Bildkomprimierer Details in einem Bild erfindet, das nicht vorhanden ist.) Außerdem erfordert die Dateidecodierung 4 GB stabile Ausbreitungsgewichte und zusätzliche Decodierzeit.
Obwohl diese Verwendung von Stable Diffusion unkonventionell und eher ein lustiger Hack als eine praktische Lösung ist, könnte sie auf eine neue, zukünftige Verwendung von Fotomontagemodellen hindeuten. Könnte ein Pullman-Symbol sein gefunden auf Google Colab, Weitere technische Details zu seiner Erfahrung finden Sie in Gepostet als KI.
„Typischer Fernsehpraktiker. Schriftsteller. Stolzer Musik-Nerd. Totaler Social-Media-Evangelist.“
More Stories
Destiny 2 ändert leise die Insignien von Vagina
Die Entwickler wollten Spieler mit dem Tod von NPCs „überraschen“.
Der Herr der Ringe: Gollum erscheint am 25. Mai für PS5, Xbox Series X, PS4, Xbox One und PC, später für Switch