top of page

Visão Computacional: 5 Exemplos Atuais

A visão computacional é fundamental para inúmeras inovações, incluindo carros autônomos, drones, realidade aumentada, reconhecimento facial, e muito mais. Novas e surpreendentes aplicações da visão computacional são desenvolvidas todos os dias, graças aos rápidos avanços da Inteligência Artificial (IA) e ao Deep Learning (aprendizado profundo). O Deep Learning para a visão computacional ensina os conceitos e ferramentas para construir sistemas inteligentes e escaláveis que podem identificar e reagir a objetos, imagens, vídeos e na própria vida real.


A visão computacional é fundamental para inúmeras inovações, incluindo carros autônomos, drones, realidade aumentada, reconhecimento facial, e muito mais.
A visão computacional é fundamental para inúmeras inovações, incluindo carros autônomos, drones, realidade aumentada, reconhecimento facial, e muito mais.

Conheça 5 exemplos atuais da Visão Computacional:


1. Google Translate


Google Translate: Serviço de tradução instantânea que utiliza a visão computacional através de câmeras de smartphones.
Google Translate: Serviço de tradução instantânea que utiliza a visão computacional através de câmeras de smartphones.

Em 2015, o líder tecnológico Google lançou seu serviço de tradução instantânea que utiliza a visão computacional através de câmeras de smartphones. A Neural Machine Translation, um sistema que impulsiona a tradução instantânea e precisa baseada na visão computacional, foi incorporada aos resultados do Google Translate na web em 2016.


Quando o aplicativo é aberto em dispositivos habilitados para internet com câmeras, as câmeras detectam qualquer texto no mundo real. O aplicativo então detecta automaticamente o texto e o traduz para o idioma de escolha do usuário. Por exemplo, uma pessoa pode apontar sua câmera para um outdoor ou cartaz que tenha texto em outro idioma e ler o que ele diz no idioma de sua escolha na tela de seu smartphone.


Além do Translate, o Google também usa a visão computacional em seu serviço Lens. Ambos os serviços são capazes de traduzir instantaneamente mais de 100 idiomas. Os serviços de tradução do Google já estão beneficiando os usuários em toda a Ásia, África e Europa, com inúmeros idiomas concentrados em diversas áreas geográficas.


Nos últimos anos, mais da metade dos idiomas do kit de ferramentas de tradução do Google foi disponibilizada para uso offline. Como tal, não é necessária nenhuma conexão de rede para essas traduções alimentadas por redes neurais.


2. Facebook 3D Photo


Facebook 3D Photo: Aplicação que transforma fotografias bidimensionais comuns em imagens 3D.
Facebook 3D Photo: Aplicação que transforma fotografias bidimensionais comuns em imagens 3D.

Para não ficar para trás, o gigante da tecnologia Meta (anteriormente conhecido como Facebook) também está apostando na visão computacional para várias aplicações interessantes. Um desses usos é a conversão de imagens 2D em modelos 3D.


Lançado em 2018, o Facebook 3D Photo requeria originalmente um smartphone com câmeras duplas para gerar imagens 3D e criar um mapa de profundidade. Embora isto originalmente tenha limitado a popularidade deste recurso, a disponibilidade generalizada de telefones com duas câmeras a preços econômicos aumentou, desde então, assim como o uso deste recurso.


A fotografia 3D transforma fotografias bidimensionais comuns em imagens 3D. Os usuários podem girar ou inclinar seus smartphones para visualizar estas imagens de diferentes perspectivas. O aprendizado de máquina é usado para a extrapolação da forma 3D dos objetos retratados na imagem. Através deste processo, um efeito 3D de aparência realista é aplicado à imagem.


Os avanços nos algoritmos de visão computacional utilizados pelo Meta permitiram que o recurso de foto 3D fosse aplicado a qualquer imagem. Hoje, é possível usar telefones de médio alcance Android ou iOS para transformar imagens em 3D, tornando este recurso popular entre os usuários do Facebook.


Meta não é a única empresa que explora a aplicação da visão computacional na conversão de imagens 2D para 3D. O DeepMind apoiado pelo Google e a líder de mercado de GPU Nvidia, estão ambos experimentando sistemas de IA que permitem que os computadores percebam as imagens de ângulos variados, semelhante ao que fazem os humanos.


3. YOLO


YOLO: Modelo de detecção de objetos pré-treinado que alavanca o aprendizado por transferência.
YOLO: Modelo de detecção de objetos pré-treinado que alavanca o aprendizado por transferência.

YOLO, que significa You Only Look Once (você olha apenas uma vez), é um modelo de detecção de objetos pré-treinado que alavanca o aprendizado por transferência. Você pode usá-lo para inúmeras aplicações, incluindo a aplicação de diretrizes de distanciamento social.


Como uma solução de visão computacional, o algoritmo YOLO pode detectar e reconhecer objetos em uma entrada visual em tempo real. Isto é feito usando redes neurais convolucionais que podem prever diferentes caixas de delimitação e probabilidades de classe simultaneamente.


Como seu nome indica, o YOLO pode detectar objetos passando uma imagem através de uma rede neural. O algoritmo completa a previsão de uma imagem inteira dentro de uma única execução do algoritmo. Ele também é capaz de 'aprender' coisas novas rápida e efetivamente, armazenando dados sobre representações de objetos e aproveitando esta informação para a detecção de objetos.


A aplicação de medidas de distanciamento social durante o auge da pandemia de COVID-19 foi crítica, mas extremamente difícil para jurisdições com recursos limitados e grandes populações. Para resolver este problema, as autoridades em algumas partes do mundo adotaram soluções de visão computacional, como o YOLO, para desenvolver ferramentas de distanciamento social.


A YOLO pode rastrear pessoas dentro de uma área geográfica específica e julgar se as normas de distanciamento social estão sendo seguidas. Ele aplica princípios de detecção e rastreamento de objetos em tempo real para detectar violações de distanciamento social e alertar as autoridades relevantes.


Na prática, a YOLO trabalha capturando cada pessoa presente na entrada visual, utilizando caixas de delimitação. O movimento dessas caixas é rastreado dentro do quadro, e a distância entre elas é constantemente recalculada. Se for detectada uma violação das diretrizes de distanciamento social, o algoritmo destaca as caixas de delimitação ofensivas e permite que outras ações sejam acionadas.


4. Faceapp


Faceapp: Aplicação de manipulação de imagem que modifica as entradas visuais de rostos humanos para visualmente mudar o gênero, idade e outras características.
Faceapp: Aplicação de manipulação de imagem que modifica as entradas visuais de rostos humanos para visualmente mudar o gênero, idade e outras características.

Faceapp é uma aplicação popular de manipulação de imagem que modifica as entradas visuais de rostos humanos para visualmente mudar o gênero, idade e outras características. Isto é feito através de redes adversas generativas profundas e convolutivas, um subtipo específico de visão computacional.


O Faceapp combina princípios de reconhecimento de imagem, um aspecto chave do reconhecimento facial, com aprendizagem profunda para reconhecer características faciais, tais como maçãs do rosto, pálpebras, ponte do nariz e linha do maxilar. Uma vez que estas características são delineadas no rosto humano, o aplicativo pode modificá-las para transformar a imagem.


O Faceapp funciona coletando amostras de dados dos smartphones de múltiplos usuários e alimentando-os nas redes neurais profundas. Isto permite ao sistema 'aprender' cada pequeno detalhe da aparência do rosto humano. Estes aprendizados são então usados para reforçar a capacidade preditiva do aplicativo e permitir que ele simule rugas, modifique linhas de cabelo e faça outras mudanças realistas nas imagens do rosto humano.


O Faceapp depende da visão computacional para reconhecer padrões. Suas capacidades de inteligência artificial lhe permitiram imitar imagens com crescente eficiência ao longo do tempo, usando os dados que recebe de inúmeras fontes. O app transfere informações faciais de uma imagem para outra no nível micro. Isto leva a capacidades impressionantes no nível macro, permitindo consequentemente que o aplicativo crie um grande banco de dados processando milhões de fotos de usuários.


5. SentioScope


SentioScope: Sistema inteligente de rastreamento físico e esportivo.
SentioScope: Sistema inteligente de rastreamento físico e esportivo.

O SentioScope é um sistema de rastreamento físico e esportivo desenvolvido pela Sentio. Ele opera principalmente como uma solução de rastreamento de jogadores para futebol, processando entradas visuais em tempo real de jogos ao vivo. Os dados gravados são carregados em plataformas analíticas baseadas na nuvem.


O SentioScope depende de uma configuração de câmera 4K para capturar entradas visuais. Ele então processa essas entradas para detectar os jogadores e obter insights em tempo real de seus movimentos e comportamentos.


Esta solução de visão computacional cria um modelo conceitual do campo de futebol, representando o jogo em um mundo bidimensional. Este modelo 2D é dividido em uma grade de células espaciais densas. Cada célula representa um ponto de solo único no campo, mostrado como um patch de imagem fixo no vídeo.


O SentioScope é alimentado pela aprendizagem de máquina e treinado com mais de 100.000 amostras de jogadores. Isto lhe permite detectar células de 'jogadores' nas filmagens dos jogos de futebol. O algoritmo probabilístico pode funcionar em inúmeros tipos de condições de visibilidade desafiadoras.


Sentio é uma das muitas empresas que trabalham para combinar visão computacional com regimes de treinamento esportivo. Estas soluções geralmente analisam a alimentação ao vivo de câmeras de alta resolução para rastrear bolas em movimento, detectar posições de jogadores e gravar outras informações úteis que podem ser usadas para melhorar o desempenho de jogadores e equipes.


Conclusão


Esses são apenas alguns dos muitos exemplos do enorme potencial que esta solução possui, a visão computacional irá revolucionar e alavancar tecnologias, nos levando a um novo patamar de desenvolvimento inteligente e tecnológico, e isso já começou!


Quer saber mais sobre Visão Computacional e suas aplicações?


Acesse já o nosso site!



Fonte:



Comments


bottom of page