this post was submitted on 10 Oct 2023
1 points (100.0% liked)

Informatica (Italy e non Italy 😁)

1234 readers
3 users here now

Ecco finalmente la comunità italiana Lemmy dedicata all'informatica!

Questo è il luogo in cui condividere post sul mondo dell'informatica: notizie su hardware e software, cybersecurity, cyberwarfare, hacking, nuovi prodotti, data breach!

Ricordiamo che esistono anche alcune comunità che si occupano di argomenti più specifici, quali:

Regole della comunità:

🏳️‍🌈 chiediamo educazione e rispetto per gli altri

🎃 anche se ci chiamiamo "Informatica" non banniamo gli utenti a caso 😁

🚫 trolling, shitposting e molestie sono vietati

💲 è vietato superare il confine che separa l'informazione dalla pubblicità

🔊 evitiamo il clickbait e il sensazionalismo

📖 per il resto valgono le regole dell'istanza al link https://feddit.it/post/6

founded 2 years ago
MODERATORS
 

Ciao a tutti amici, giocando con SD negli ultimi giorni mi è sorta una curiosità sul funzionamento dei prompt.

Fermatemi quando sbaglio.

Queste AI si basano su modelli, che suppongo siano una lunghissima serie di immagini appropriatamente taggate (che suppongo significhi descritte in maniera testuale nella forma e nel contenuto).

Nel creare un prompt per la generazione di un'immagine suppongo quindi sia necessario avere un'idea di come sia stato allenato il modello. Molto banalmente, se viene allenato in inglese, dubito che restituisca risultati significativi se il prompt è in spagnolo.

Ho l'impressione che la scelta dei prompt sia mossa un po' dalla superstizione: guardando diverse community online in cui vengono condivise immagini generate dall'AI con relativi prompt, ho notato che ovunque si leggono prompt tipo "best quality", "masterpiece" (o vicecersa, nei prompt negativi, "low quality", "artifacts" etc etc). Lo scopo è chiaro, ovvero ottenere genericamente "belle" immagini. Ma... siamo sicuri che i modelli siano stati allenati per questo genere di parole chiave? Magari sottovaluto io il dettaglio dei tag di certi modelli, ma non riesco a immaginarmi come un modello possa (premesso che le abbia in primis) estrapolare il concetto di "masterpiecità" da 10-100-1000 immagini taggate come "masterpiece" ed applicarlo in modo sensato ad una nuova immagine.

Prendo un esempio a caso da civitai:

Positive Prompt: (masterpiece, best quality, high quality, highres, ultra-detailed, ((detailed background))), 1girl, looking at viewer, ((peace sign)), portrait, pink hair, (freckles:0.75), blush, happy, smile, medium hair,

Negative Prompt: badhandv4, easynegative, (worst quality, low quality, normal quality), bad-artist, blurry, ugly, ((bad anatomy)),((bad hands)),((bad proportions)),((duplicate limbs)),((fused limbs)),((interlocking fingers)),((poorly drawn face))

Tra questi tag ne vedo tanti che rimbalzano di prompt in prompt, ma di cui non sono certo dell'efficacia (soprattutto se a priscindere dal modello su cui vengono utilizzati), tipo masterpiece, best quality, high quality, worst quality, low quality, normal quality, bad-artist, bad proportions, duplicate limbs, fused limbs (in che mondo a qualcuno verrebbe mai in mente di taggare un'immagine con "fused limbs"?)

Si capisce quel che intendo? Sono io che sottovaluto l'AI e il suo training o c'è effettivamente dietro un sacco di broscience e superstizione?

EDIT: e a questo punto la domanda che sorge natuale è: ma quindi come si possono vedere i tag usati in un modello, in modo da usare solo tag rilevanti nella costruzione di un prompt?

no comments (yet)
sorted by: hot top controversial new old
there doesn't seem to be anything here