Sony Interactive Entertainment – Soluzioni per migliorare immagini e prestazioni

Il brevetto di Sony Interactive Entertainment si concentra sul fornire una soluzione simile a “DLSS” per una migliore qualità delle immagini.

Sembrerebbe che la divisione gaming di Sony Interactive Entertainment stia esaminando alcune soluzioni per il miglioramento dell’immagine e delle prestazioni sulla falsariga del DLSS di Nvidia e dell’AMD Fidelity FXSR, poiché il loro ultimo brevetto esplora metodi per migliorare la qualità dell’immagine e riempire i dati mancanti tramite una combinazione di machine learning e implementazione basata su computer.

Depositato lo scorso aprile, e reso pubblico alla fine del mese scorso, l’ultimo brevetto di Sony Interactive Entertainment descrive in dettaglio una potenziale soluzione per offrire agli utenti una migliore qualità dell’immagine:

Le immagini digitali possono contenere regioni di dati immagine mancanti o danneggiati. Le regioni mancanti o danneggiate sono indicate nell’arte come “buchi”. I buchi sono normalmente indesiderabili e vengono impiegati metodi per dedurre quali informazioni mancano o sono corrotte per riempire i buchi. Il riempimento dei buchi nelle immagini è indicato anche come completamento dell’immagine o ripristino della pittura.

Esiste una varietà di processi per riempire i buchi nelle immagini. Le tecniche di inferenza dell’apprendimento automatico, che si basano su processi addestrati, possono riempire i buchi nelle immagini con risultati di alta qualità. Tuttavia, le tecniche di apprendimento automatico richiedono elevate prestazioni, richiedono hardware potente e una grande quantità di tempo.

I buchi nelle immagini si verificano nei sistemi di rendering basati su immagini. Ad esempio, dove sono presenti due o più immagini che rappresentano prospettive dello stesso ambiente, potrebbero non esserci dati immagine corrispondenti a una prospettiva intermedia che un utente vorrebbe vedere. In alternativa, potrebbero mancare alcuni dati dell’immagine da una delle prospettive. I processi di apprendimento automatico possono essere utilizzati per dedurre la prospettiva intermedia e per dedurre i dati dell’immagine mancanti. L’esecuzione di processi di apprendimento automatico per ottenere i dati mancanti è costosa dal punto di vista computazionale e richiede tempo.

Un esempio di sistema di rendering basato su immagini è un dispositivo di realtà virtuale che visualizza un ambiente di realtà virtuale. Un utente che indossa un visore per realtà virtuale viene presentato, da due monitor nell’auricolare, con una rappresentazione di una scena tridimensionale. Quando l’utente muove la testa, viene generata e visualizzata una nuova scena in base alla nuova posizione e orientamento dell’auricolare. In questo modo, un utente può guardare intorno a un oggetto nella scena. Le aree della scena iniziale che diventano visibili nella nuova scena a causa del movimento sono descritte come precedentemente “occluse”. Le scene visualizzate possono essere generate dall’hardware del computer in un personal computer o console collegata all’auricolare o da un servizio di rendering basato su cloud remoto dall’auricolare. La velocità con cui i dati dell’immagine vengono forniti all’auricolare è limitata dalla larghezza di banda della connessione tra l’auricolare e il computer, la console o il sistema di rendering basato su cloud. Di conseguenza, a volte, non tutti i dati necessari in un dato momento per costruire e visualizzare interamente una scena sono disponibili a causa di limitazioni o interruzioni della larghezza di banda. I buchi nei dati dell’immagine che compongono la scena sono un risultato indesiderato e hanno un impatto negativo significativo sull’immersione vissuta dall’utente.

Continua affermando che un vantaggio di ciò ridurrebbe il carico su un processore di detto hardware:

Ciò consente vantaggiosamente di riempire il foro in modo rapido ed efficiente, aumentando nel contempo la probabilità di ottenere un risultato di alta qualità. I pixel vicini con identificatori di materiale diversi rispetto al pixel del foro hanno maggiori probabilità di apparire diversi dai dati del pixel mancante, rispetto a quelli con identificatori di materiale corrispondenti. Pertanto, l’utilizzo di pixel con gli stessi identificatori di materiale riduce vantaggiosamente l’onere computazionale su un processore, mentre si ottiene più da vicino un pixel adeguatamente riempito. La determinazione della media può includere valori di ponderazione dei pixel circostanti da mediare.

Ciò consente ad alcuni pixel circostanti di contribuire maggiormente alla media rispetto ad altri, aumentando vantaggiosamente la versatilità del processo di riempimento in funzione dell’immagine in elaborazione. Il secondo processo di riempimento può includere un processo di inferenza di apprendimento automatico. I processi di inferenza dell’apprendimento automatico forniscono risultati di riempimento delle immagini di alta qualità. Fornendo un processo di inferenza di apprendimento automatico come secondo processo di riempimento, si ottiene vantaggiosamente un migliore equilibrio tra velocità e qualità dell’elaborazione delle immagini.

Sono state fornite alcune immagini, per delineare il flusso del processo insieme a una vetrina di alcune immagini prima e dopo:

 

 

Questo va da sé, essendo questo un brevetto e tutto il resto, non significa necessariamente che lo vedremo mai accadere. Tuttavia, la società non è estranea alla tecnologia basata sull’intelligenza artificiale poiché l’ultima novità della linea di TV Bravia, Bravia XR, supporta quella che viene chiamata “intelligenza cognitiva”La spiegazione di seguito:

Il modo in cui percepiamo il mondo si basa sulle informazioni che arrivano dai nostri occhi e dalle nostre orecchie al cervello allo stesso tempo. L’intelligenza artificiale convenzionale può rilevare e analizzare solo elementi come colore, contrasto e dettagli individualmente. Cognitive Processor XR può analizzare in modo incrociato ogni elemento contemporaneamente, proprio come fa il nostro cervello.

Per creare questa sensazione più vicina alla realtà, Cognitive Processor XR divide lo schermo in centinaia di zone e riconosce i singoli oggetti in queste zone meglio che mai. Inoltre, possono analizzare in modo incrociato circa alcune centinaia di migliaia di elementi diversi che compongono un’immagine in un secondo, nello stesso modo in cui funziona il nostro cervello.

Con il crescente supporto di DLSS e AMD Fidelity FXSR, non pensiamo che sia inverosimile che Sony stia sviluppando le proprie soluzioni. Immagino che dovremo solo aspettare e vedere cosa potrebbe riservarci il futuro!

Voi cosa ne pensate? Fateci sapere la vostra nei commenti qui sotto!

Alessia Lara Padawan
Alessia Lara Padawan – Romana, youtuber, nerd fino al midollo, adora film, serieTV, cartoni animati ed è malata da anni di una grave forma di dipendenza dai videogames. Il suo motto è: “Se credi anche lontanamente che ne valga la pena… allora GIOCALO!”