Desde os primórdios, os modos semióticos se fazem importante na leitura de um texto. Como exemplo dos tempos antigos as imagens em paredes de caverna e atualmente na TV, computadores e outros. O texto multimodal está presente em diversos espaços, desde outdoors a materiais didáticos. Com a globalização e o surgimento de tecnologias digitais, a utilização de diferentes modos como a imagem, sons e cores se tornaram ainda mais constante e hoje o vídeo legendado é uma ferramenta que pode englobar esses modos. A popularidade dessa ferramenta vem crescendo a maneira em que eles são utilizados desde o lazer até o ensino (GOMES, 2017; LERTOLA, 2017; SILVA E GOMES 2017). As modificações no texto também acarretam em mudanças na leitura que está diretamente ligada ao letramento, que agora se tornaram multiletramentos para abarcar tais mudanças. Com isso, em uma pesquisa recente de minha autoria acerca das percepções de alunos sobre vídeos legendados no ensino de Língua Inglesa, a maioria apontou essa ferramenta como benéfica, entretanto, uma parcela dos pesquisados tinham percepções negativas, pois não conseguiam ler legendas e acompanhar as imagens ao mesmo tempo. Essa questão me motivou a realizar uma nova pesquisa com o objetivo de investigar de que modo aspectos como a falta de familiaridade com vídeos legendados e o nível de letramento influenciam na realização da leitura de textos audiovisuais (imagens e legendas).