Saltar la navegación

4.2 Visión estereoscópica

Las imágenes captadas por cada ojo son comparadas por nuestro cerebro. Cada ojo percibe una proyección 2D de un entorno 3D. El cerebro ha aprendido a “reconstruir” la escena tridimensional a partir de dichas imágenes. 

El ojo humano funciona como una cámara estenopeica, haciendo en la retina una proyección cónica lineal del entorno en la que el tamaño relativo de los objetos es inversamente proporcional a la distancia a la que se encuentran de nosotros.

Figura 7: El ojo humano funciona como una cámara estenopeica. Fuente: Antonio Bautista Bailón Morillas (CC BY-NC-ND)

En cada ojo se genera una imagen 2D de la perspectiva captada por cada uno, siendo ambas ligeramente diferentes. El cerebro utiliza diferentes mecanismos para reconstruir en su interior la escena 3D, reconociendo formas y distancias.

Vídeo 1: La separación entre los ojos hace que cada uno perciba una proyección distinta. Fuente: Antonio Bautista Bailón Morillas  (CC BY-NC-ND)

El reconocimiento de dichas distancias es lo que nos genera la percepción de profundidad. El cerebro emplea varios mecanismos para estimar las distancias:

  • Comparación de imágenes. Sabiendo que las imágenes captadas por cada ojo proceden de la misma escena 3D, el cerebro las compara y determina las distancia de los objetos de la escena. Los objetos más lejanos generan proyecciones muy parecidas en cada ojo mientras que las diferencias crecen en objetos más cercanos. 
  • Enfoque. Cambiando el grosor del cristalino se altera la distancia focal y esto permite cambiar la distancia a la que percibimos los objetos enfocados, información que es empleada por el cerebro para estimar la distancia. 
  • Convergencia. A cortas distancias los ojos no apuntan perfectamente al frente, sino que convergen las direcciones a las que apuntan (bizqueamos). De nuevo, la dirección en que apuntan los ojos es usada por el cerebro para estimar la distancia.

Estos mecanismos permiten apreciar pequeños cambios de distancia de una forma bastante acertada, pero solo funcionan a distancias cortas, por debajo de unos 6 metros. Para distancias superiores el cerebro emplea mecanismos globales de interpretación de escenas, aprecia el cambio de paralaje al movernos y compara lo que percibe con los tamaños y formas que recuerda de objetos conocidos.

Un HMD utiliza el mecanismo de comparación de imágenes para engañar al cerebro. Cada ojo recibe una imagen ligeramente distinta, correspondiente a la proyección de dos cámaras que perciben la escena 3D. Las dos cámaras se sitúan en la escena apuntando en la misma dirección (paralelas) pero separadas entre sí unos 6 centímetros para simular la distancia que separa nuestros ojos. La sensación de inmersión en el mundo virtual depende de la calidad de las imágenes generadas para cada ojo y de cómo son percibidas.

El campo visual de cada ojo abarca unos 120 grados en horizontal y 90 grados en vertical. En conjunto, con ambos ojos abarcamos unos 180 grados en horizontal. 

Figura 8: Ángulos de visión horizontal. FuenteRheto / ES translationː GALoPaX

Si un ojo no percibe una imagen que abarque todo su campo de visión, quien juega tiene la sensación de ver el mundo a través de un túnel, limitando la sensación de inmersión.

Figura 9: Visión de túnel provocada por ángulos de visión inferiores a los del ojo humano. Fuente: Antonio Bautista Bailón Morillas (CC BY-NC-ND)

Otros detalles que considerar son la frecuencia de actualización de las imágenes, su resolución y densidad (PPI) y la distancia interpupilar (IPD).

Considerando la reducida distancia entre la imagen y el ojo, que suele ser de unos 2 o 3 centímetros, para que el ojo humano no aprecie los píxeles individuales es necesario que la imagen tenga una densidad cercana a 100 PPD (píxeles por grado).

Ejemplo

Meta Quest 3 ofrece imágenes de 2064x2208 píxeles por ojo, abarcando un ángulo de visión de 110 grados en horizontal. Considerando que se emplean lentes que adaptan la imagen de forma no uniforme, los PPD efectivos que se alcanzan están en el rango 18.8 – 25 PPD, valores aún muy lejanos al valor mínimo de 60 PPD, a partir del cual se estima que empezará a ser difícil distinguir los píxeles. A grandes rasgos podríamos decir que actualmente los HMD comerciales ofrecen una resolución 2K por ojo, pero para obtener una mejor calidad la industria se dirige a ofrecer resoluciones 4K e incluso 8K por ojo. Pero no se trata tan sólo de ofrecer unos paneles con una densidad de puntos muy alta, porque también será necesaria una potencia de proceso capaz de generar con fluidez las imágenes que se mostrarán. Pensemos en una GPU que sea capaz de trabajar generando 2 imágenes de resolución 8K con una frecuencia suficientemente alta y la calidad adecuada.

Otro factor que hay que considerar es la frecuencia de actualización o tasa de refresco. Cuanto mayor sea la frecuencia menor será la latencia, es decir, se reducirá el tiempo que pasa desde que se hace un movimiento hasta que nuestros ojos perciben los efectos. En juegos que demanden movimientos bruscos será en los que más se aprecie la fluidez mostrada por frecuencias altas. Actualmente se considera que un mínimo de 90 hz ofrecerá una experiencia general fluida.

Por último, la distancia interpupilar (IPD) es la distancia que hay entre nuestras pupilas. Las pantallas de los HMD deben alinearse correctamente con los ojos para obtener una visión óptima y evitar incomodidades. En adultos esta distancia está comprendida aproximadamente entre 58 mm y 72 mm, pero se puede apreciar como el sexo y el grupo étnico son factores que afectan de modo importante. Los valores medios se encuentran alrededor de 63 mm.

Los HMD suelen ofrecer mecanismos hardware o software para adaptarse a la distancia interpupilar de quien juega. Cuanto mayor sea la diferencia con respecto a su IPD, mayores serán las distorsiones visuales, fatiga ocular y mareos debidos al sobreesfuerzo que es necesario hacer para que nuestro cerebro sea capaz de apreciar la escena 3D. Una diferencia muy alta hará imposible que se perciba la imagen estereoscópica y comenzarán a apreciarse imágenes dobles y borrosas, rompiendo por completo la sensación de inmersión.