O Facebook ensinou a um sistema de visão computacional como supervisionar seu próprio processo de aprendizagem

4 de março de 2021 0 308

As técnicas que ensinaram IA para traduzir a fala estão sendo aplicadas a tarefas visuais

Tão impressionantemente capaz quanto os sistemas de IA são hoje em dia, ensinando máquinas a realizar várias tarefas, seja traduzir a fala em tempo real ou diferenciar com precisão entre chihuahuas e muffins de mirtilo. Mas esse processo ainda envolve certa quantidade de mãos dadas e curadoria de dados pelos humanos que os treinam. No entanto, o surgimento de métodos de aprendizagem auto-supervisionada (SSL), que já revolucionou o processamento da linguagem natural, pode ser a chave para imbuir a IA com o necessário senso comum. A divisão de pesquisa de IA do Facebook (FAIR) agora, pela primeira vez, aplicou SSL ao treinamento de visão computacional.

“Nós desenvolvemos o SEER (SElf-supERvised), um novo modelo de visão computacional autossupervisionado de bilhões de parâmetros que pode aprender com qualquer grupo aleatório de imagens na internet, sem a necessidade de curadoria cuidadosa e rotulagem que vai na maioria da visão computacional treinamento hoje ”, escreveram pesquisadores de IA do Facebook em um blog na quinta-feira. No caso dos SEERs, o Facebook mostrou a ele mais de um bilhão de imagens públicas do Instagram, aleatórias, não rotuladas e não curadas.

Sob esquemas de aprendizagem supervisionados, o cientista-chefe da IA ​​do Facebook, Yann LeCunn, disse ao Engadget, “para reconhecer a fala, você precisa rotular as palavras que foram pronunciadas; se você quiser traduzir você precisa ter um texto paralelo. Para reconhecer imagens, você precisa ter rótulos para cada imagem. ”

A aprendizagem não supervisionada, por outro lado, “é a ideia de um problema de tentar treinar um sistema para representar imagens de maneiras adequadas, sem exigir imagens rotuladas”, explicou LeCunn. Um desses métodos é a incorporação conjunta, em que uma rede neural é apresentada com um par de imagens quase idênticas – um original e uma cópia ligeiramente modificada e distorcida. “Você treina o sistema para que quaisquer vetores produzidos por esses dois elementos fiquem o mais próximos possível um do outro”, disse LeCunn. “Então, o problema é ter certeza de que quando o sistema mostra duas imagens diferentes, ele produz vetores diferentes, ‘embeddings’ diferentes, como os chamamos. A maneira mais natural de fazer isso é escolher aleatoriamente milhões de pares de imagens que você sabe que são diferentes, exibi-los pela rede e torcer pelo melhor. ” Contudo,

Aplicar as mesmas técnicas SSL usadas na PNL para a visão computacional apresenta desafios adicionais. Como observa LeCunn, os conceitos de linguagem semântica são facilmente divididos em palavras e frases discretas. “Mas com imagens, o algoritmo deve decidir qual pixel pertence a qual conceito. Além disso, o mesmo conceito varia muito entre as imagens, como um gato em diferentes poses ou visto de diferentes ângulos ”, escreveu ele. “Precisamos olhar muitas imagens para compreender a variação em torno de um único conceito.”

E para que esse método de treinamento fosse eficaz, os pesquisadores precisavam de um algoritmo flexível o suficiente para aprender com um grande número de imagens não anotadas e de uma rede complicada capaz de classificar os dados gerados por algoritmos. O Facebook encontrou o primeiro no recém-lançadoSwAV, que “usa clustering online para agrupar rapidamente imagens com conceitos visuais semelhantes e potencializar suas semelhanças”, seis vezes mais rápido do que o estado da arte anterior, de acordo com LeCunn. Este último pode ser encontrado em RegNets, uma rede complicada que pode aplicar bilhões (senão trilhões) de parâmetros a um modelo de treinamento enquanto otimiza sua função dependendo dos recursos de computação disponíveis.

Os resultados deste novo sistema são bastante impressionantes. Depois de sua sessão de pré-treinamento de bilhões de parâmetros, a SEER conseguiu superar os sistemas auto-supervisionados de última geração na ImageNet, alcançando 84,2 por centoprimeira precisão. Mesmo quando foi treinado usando apenas 10 por cento do conjunto de dados original, o SEER alcançou 77,9 por cento de precisão. E ao usar apenas 1 por cento do conjunto de dados OG, o SEER ainda conseguiu uma precisão respeitável de 60,5 por cento top-1.

Essencialmente, essa pesquisa mostra que, assim como no treinamento em PNL, os métodos de aprendizagem não supervisionados podem ser aplicados de forma eficaz às aplicações de visão computacional. Com essa flexibilidade adicional, o Facebook e outras plataformas de mídia social devem estar mais bem equipadas para lidar com conteúdo banido.

“O que gostaríamos e o que já temos até certo ponto, mas precisamos melhorar, é um sistema universal de compreensão da imagem”, disse LeCunn. “Então, um sistema que, sempre que você faz upload de uma foto ou imagem no Facebook, calcula um desses embeddings e a partir disso podemos dizer que se trata de uma foto de gato ou é, você sabe, propaganda terrorista.”

Tal como acontece com suas outras pesquisas de IA, a equipe de LeCunn está lançando sua pesquisa e a biblioteca de treinamento da SEER, denominada VISSL, sob uma licença de código aberto. Se você estiver interessado em dar uma chance ao sistema, vá para oSite VISSL para documentação adicional e para obter seu código GitHub.

Facebook