Comprensione della compressione delle immagini

Julius Uy

Apr 19, 2019 – 7 min read

Negli anni ’80, Microsoft ha sviluppato una soluzione di resa delle immagini agnostica al dispositivo per le bitmap: il formato di file BMP.Coloro che hanno usato Microsoft Paint in precedenza avrebbero apprezzato le gigantesche dimensioni del file prodotte da semplici tratti e riempimenti di colore.

L’idea dietro il formato di file BMP è che ad ogni pixel viene assegnato un valore di colore. Quindi se ho una bitmap 480×360 che supporta 16 milioni di colori (24 bit), la bitmap finirebbe per essere da qualche parte a nord di 4MB di dimensione.

Figura 1 – La struttura del file immagine bitmap (https://en.wikipedia.org/wiki/BMP_file_format)

Questo naturalmente non è ideale se si desidera rendere più immagini di alta qualità. Quindi, la domanda deve essere posta. “C’è un modo per ottimizzare la rappresentazione bitmap in modo che si possa ancora preservare l’integrità visiva dell’immagine ma con meno risorse da usare?”

La risposta è sì. Si scopre che per la maggior parte, gli utenti sono più interessati alle immagini come aiuto visivo piuttosto che alla completezza. Per esempio, supponiamo che mi venga data un’immagine del Golden Gate Bridge come mostrato qui sotto:

Nel caso di 4:4:4, significa che in un pixel 4×2, la prima fila (a) deve avere 4 colori e così la seconda fila. Nel caso di 4:2:2, significa che in un pixel 4×2, la prima riga deve essere rappresentata da due colori e così la seconda riga. Nel caso di 4:2:0, significa che in un pixel 4×2, la prima riga dovrebbe essere rappresentata da due colori e la seconda riga copia ciò che è sulla prima riga.

Come potete vedere, attraverso il sottocampionamento del croma, si è in grado di ridurre la gamma di colori fino al 75%.

Passo 3. Discrete Cosine Transform

La compressione JPEG è fatta tagliando l’immagine originale in pezzi di 8×8 pixel. In questo passo, assegniamo i coefficienti per il pezzo 8×8 basati sui segnali mostrati sotto.

Figura 6 – Trasformata discreta del coseno (DCT). L’immagine di sinistra è un riferimento di segnale 8×8 usato per dare peso all’immagine originale. L’immagine di destra è il pezzo risultante dopo essere passato attraverso la DCT.

L’idea qui è che come l’occhio umano si sposta dalla parte superiore sinistra del riferimento DCT alla parte inferiore destra, più è difficile da percepire. Quindi di solito, quello che succede è che nell’assegnazione dei coefficienti, l’alto a sinistra ottiene un valore molto alto e scende man mano che ci si sposta in diagonale.

Ecco come potrebbero apparire le cose in formato numerico:

Comprensione della compressione delle immagini

Passo 1. Conversione dello spazio colore

PASSO 2. Chroma Subsampling

Passo 3. Discrete Cosine Transform

FASE 4. Quantizzazione

FASE 5. Codifica Entropia usando la Codifica Huffman

Che cosa c’è dopo?

Lascia un commento Annulla risposta