🎥 Aplicando Machine Learning em seus vídeos com a Vertex AI Vision 🎥

Published in

google-cloud-brasil

10 min readNov 22, 2022

* TLDR: Aqui vamos criar uma aplicação que irá (1) Ingerir vídeos pré-gravados (arquivos MP4 em formato H.264); (2) Salvar e buscar informações no Warehouse, (3) Armazenar metadados em uma tabela no BigQuery e, numa experiência low code, gerar analytics a partir de uma câmera de monitoramento de tráfego.

Os sistemas fechados de televisão (ou cctv, do inglês closed circuit television) são uma tecnologia que já existe há mais de 20 anos e que é aplicada em diversas indústrias — financeira, transporte, entretenimento, logística e a lista segue longa.

Com o aumento do acesso à câmeras com maior qualidade e links de maior velocidade, aumentou, também, a sua adoção — em diferentes casos de usos, pra diferentes indústrias:

Diferentes desafios em diferentes indústrias

o que nos traz um desafio: como podemos processar os dados de todos esses dispositivos, o mais próximo possível do “tempo real” e retirar informações dessas imagens?

Para simplificar esse processo, lançamos no Google Next 2022 a Vertex AI Vision, onde você consegue consolidar as atividades de ingestão, processamento dos dados com modelos de machine learning e armazenamento dos vídeos e dos metadados.

Para começar a implementar soluções usando a Vertex Vision, é importante entender e revisar alguns conceitos e componentes:

Streams: representam a camada de streaming de vídeo da sua solução. A origem do vídeo pode ser um vídeo ao vivo (ou seja, uma câmera IP), ou um arquivo de vídeo (ou seja, um arquivo MP4).

Application: É a entidade na Vertex Vision que conecta seu stream de vídeo a um processador de IA para realizar uma operação de aprendizado de máquina no vídeo (ou seja, conectar um fluxo de câmera CCTV a um modelo de IA para extração de insights).

Media Warehouse: É onde serão armazenados os vídeos ingeridos por stream, e também os metadados dos processadores de IA aplicados nos streams ingeridos.

Com estes conceitos em mente, você consegue construir soluções que seguirão um fluxo de processamento similar ao abaixo:

pipeline de funcionamento da Vertex AI Vision

Onde você irá:

- Numa primeira etapa, conectar suas câmeras, ou arquivos de gravação das câmeras, em um stream da Vertex Vision, para realizar a ingestão das informações

- Depois decidir que ação tomar com esses vídeos — como utilizar modelos pré-treinados pelo Google, ou utilizar um modelo de detecção de objetos treinado por você

- E, finalmente, utilizar a Vision Warehouse para fazer análise ou busca de vídeos, ou ainda conectar os metadados no BigQuery e gerar mais informações analíticas com estes dados.

Mas como funcionaria esse processo todo? Bom vamos ver isso passo a passo.

Pré-requisitos para criar sua solução com a Vertex AI Vision

Algumas ações são necessárias antes de irmos para a criação da solução em si — Isso inclui ativar o serviço da Vertex AI Vision na console, algumas configurações de acesso no IAM e também a instalação do SDK.

Ativação do serviço da Vertex AI Vision

Primeiro você precisa fazer a ativação do serviço da Vertex AI Vision. Você pode clicar no botão “enable Vertex AI Vision API” que aparece na tela, quando você acessa o serviço na console:

Habilitando o serviço da Vertex AI Vision

Ou você pode fazer a ativação do serviço via linha de comando:

$ gcloud services enable visionai.googleapis.com
Operation "operations/acat.p2–674219556369–7e9d3d6c-9f49–452e-a184-af2ea9b61681" finished successfully.

$ gcloud services list --enabled | grep -i visionai
visionai.googleapis.com Vision AI API

Configuração de IAM para acesso à Vertex AI Vision

Para montar a jornada apresentada aqui nesta postagem, vamos conceder ao usuário que realizará as etapas a permissão de Editor na Vertex AI Vision — Para isso, vamos utilizar o comando glcoud abaixo:

$ gcloud projects add-iam-policy-binding <PROJECT_ID> \
--member 'SECURITY_PRINCIPAL' --role='roles/visionai.editor'

Então, por exemplo, se o seu project id é ‘meu-projeto-ai’ e você quer dar acesso ao usuário usuario01@dominio.com.br, você deve executar o comando como:

$ gcloud projects add-iam-policy-binding meu-projeto-ai \
--member user:usuario01@dominio.com.br --role='roles/visionai.editor'

Para garantir que você não tenha problemas de autenticação, antes de seguir com as configurações de serviços, é interessante você executar os dois comandos abaixo:

$ gcloud auth login
$ gcloud auth application-default login

Instalação da SDK da Vertex AI Vision

De último, mas não menos importante, você precisa do utilitário de linha de comando da SDK da Vertex AI Vision — o vaictl — para realizar algumas atividades descritas aqui. Abaixo como fiz para instalar utilizando um servidor Linux, baseado em Debian x86_64:

$ gsutil cp gs://visionai-artifacts/visionai_0.0–3_amd64.deb .
$ sudo apt install ./visionai_0.0–3_amd64.deb

Se a instalação ocorreu sem problemas, você deve conseguir executar o comando “vaictl” direto no seu shell:

$ vaictl --help
This command line tool enables the user to
manage and interact with resources in Vision AI.
Usage:
vaictl [command]
Available Commands:
completion Generate the autocompletion script for the specified shell
create Create API resources in Vision AI.
delete Delete API resources in Vision AI.
disable Disable features for specific resources in Vision AI.
enable Enable features for specific resources in Vision AI.
help Help about any command
list List API resources in Vision AI.
receive Receive data from Vision AI.
send Send data to Vision AI.
Flags:
-c, --cluster-id string The cluster id.
-h, --help help for vaictl
-l, --location-id string The GCP location id.
-p, --project-id string The GCP project id.
    --service-endpoint string The service endpoint for Vision AI. (default "visionai.googleapis.com")
    --timeout int The default timeout (in seconds) for operations. (default 10)
-v, --verbose Verbose output.
Use "vaictl [command] - help" for more information about a command.

Neste ponto, o seu ambiente está pronto para seguir em frente com esta experimentação.

Caso você queira mais alternativas de instalação, consulte a documentação da Vertex AI Vision.

Criação de tabela de metadados no BigQuery

Como uma das atividades que faremos aqui é o armazenamento de metadados dos vídeos no BigQuery, precisamos criar a tabela que utilizaremos. Para isso, executei a query abaixo (para o seu cenário, altere o nome do dataset de “vision_ai_analytics” para o nome de seu dataset e de “metadata_table” para o nome da tabela que você quer criar:

CREATE TABLE `vision_ai_analytics.metadata_table` (
ingestion_time TIMESTAMP NOT NULL,
application STRING NOT NULL,
instance STRING NOT NULL,
node STRING NOT NULL,
annotation STRING)

Criação da sua Vertex AI Vision Application

Para começar a utilizar seus vídeos na Vertex AI Vision, você precisa trazê-los para a plataforma. Para isso, criaremos um “stream” — que será responsável pela ingestão dos dados, seja o conteúdo de uma câmera IP, em tempo real, ou dados históricos/gravados anteriormente.

Para começar a criar nossa aplicação de contagem de carros, primeiro vamos abrir a dashboard da Vertex AI Vision, você deve acessar sua console da Google Cloud, ir na seção “Inteligência Artificial” e clicar na opção da Vertex AI Vision. Após isso, clique na opção “Studio”, escolha a opção “Create a new application” e escolha o nome da sua aplicação (no meu caso, “contador-carros”):

Criando sua aplicação na Vertex AI Vision

O Studio lhe dará uma interface de construção em blocos, onde você clica nos itens que você quer incluir em sua aplicação e ele será introduzido no grafo de execução de sua aplicação.

O primeiro bloco que você vai incluir é o de ingestão do vídeo. Em “Connectors”, clique em “Streams”. No lado direito, aparecerá um menu — clique em “+ Add Streams”:

Na próxima tela, selecione “Register new streams”, informe o nome do stream (no meu caso, “camera-carros”) e clique em “Add Streams”:

O próximo passo é incluir um bloco de “Vision Warehouse”. No menu do lado esquerdo, em “Connectors”, selecione “Vision AI Warehouse”. No menu que aparecerá no lado direito, clique em “Connect Warehouse”:

Na próxima tela, selecione a opção “Create new warehouse” e informe o nome do warehouse (no meu caso, “carros-warehouse”):

O próximo passo é incluir o bloco que processará o vídeo, aplicando um modelo de Machine Learning. Aqui usaremos um modelo pré-treinado pelo Google que irá realizar contagem de objetos — no nosso cenário, contagem de carros em uma cena. Para isso, em “Specialized models”, selecione “Occupancy analytics:

Adicionando um modelo especializado na application

De último, mas não menos importante, precisamos criar o conector para o BigQuery — onde os metadados de nossa aplicação irão ser armazenados. Para isso, no menu do lado esquerdo, selecione “BigQuery” em “Connectors”. No menu do lado direito, em “Settings”, clique em “Browser” para escolher a tabela que receberá os metadados; e, em “Store metadata from” selecione “Streams” e “Occupancy analytics”. Você deve ver um resultado como este:

Conectando uma tabela do BigQuery para armazenar metadados

Ao final destas atividades, você deve ter uma visualização do fluxo de funcionamento de sua aplicação, em similar a um grafo, semelhante ao abaixo:

Visualização do grafo da sua application

E então, clique em “Deploy”, no topo da janela e confirme clicando em “Deploy”, novamente, na nova janela que aparecer:

Ao final do deployment, você deve ter a mensagem de sucesso abaixo:

Confirmando que seu deploy foi bem sucedido

E você deve encontrar sua aplicação como “Deployed”, também, no menu “Applications” da Vertex AI Vision:

Validando que sua aplicação está implantada

Ingerindo vídeos com a Vertex AI Vision SDK

Com sua aplicação configurada e implantada na Vertex AI, agora você consegue usar a SDK para ingerir seus vídeos e processá-los. Com a Vertex AI Vision você consegue ingerir vídeos em tempo real (usando o protocolo RTSP) ou arquivos de vídeos armazenados localmente. Aqui iremos utilizar vídeos pré-gravados. O vídeo que utilizaremos é a gravação de uma câmera de tráfego:

Visualização do vídeo de exemplo utilizado

Utilizaremos o utilitário de linha de comando “vaictl” para realizar a ingestão via SDK:

$ vaictl -p lucianomartins-demos-345000 -l us-central1 \
-c application-cluster-0 --service-endpoint visionai.googleapis.com \
send video-file to streams camera-carros \
--file-path=/home/lucianomartins/Documents/prototypes/ai-apis/data/carros02.mp4 \
--loop

Após a execução, você deve receber a mensagem abaixo — que irá confirmar que sua ingestão foi iniciada:

Sending data into event "jseawg51" through stream "camera-carros".

Você consegue confirmar que sua ingestão está funcionando clicando em “Streams” e no seu stream (“camera-carros”, no meu caso aqui) na console da Vertex AI Vision:

Visualizando o seu vídeo após a ingestão na Vertex AI Vision

Analisando vídeos utilizando a Vision Warehouse

Com a aplicação em execução, podemos começar a conferir seu funcionamento. Primeiro podemos buscar informações na Vision Warehouse. Para isso, na console da Vertex AI Vision, clique em “Warehouses” e, para a warehouse que foi criada para este exemplo, clique em “view assets”. Na nova tela que aparecer, podemos fazer, por exemplo, uma busca por vídeos — aqui, estou selecionando o stream “camera-carros” e somente vídeos de hoje no “data range”:

Fazendo busca de vídeos da Vision Warehouse

Desta forma, agora conseguimos navegar em nosso histórico de vídeos — seja por intervalo de datas, ou buscar informações de metadados.

Acessando metadados do Vertex AI Vision no BigQuery

Como última etapa de nossa jornada aqui, iremos utilizar as informações capturadas no stream de vídeo e processadas pelo modelo de machine learning de contagem de objetos. Assim, conseguimos conectar o desafio de processamento de imagens de câmeras CCTV com informações analytics úteis para tomadas de decisão.

Primeiro vamos verificar o conteúdo de nossa tabela de metadados. Para isso, na console do BigQuery você pode utilizar a query abaixo (adequando a query para o seu nome de projeto, dataset e tabela):

WITH
raw_counts AS (
SELECT
*
FROM (
SELECT
TIMESTAMP_TRUNC(
PARSE_TIMESTAMP('"%Y-%m-%dT%H:%M:%E*SZ"',
JSON_QUERY(annotation,
"$.currentTime")),
MINUTE) AS currentTime,
CAST(JSON_QUERY(annotation,
'$.stats.fullFrameCount[1].count') AS INT64) AS count,
JSON_QUERY(annotation,
'$.stats.fullFrameCount[1].entity.labelString') AS type
FROM
`lucianomartins-demos-345000.vision_ai_analytics.metadata_table` )
WHERE
count IS NOT NULL )
SELECT
currentTime,
SUM(count) AS total_count,
type
FROM
raw_counts
GROUP BY
currentTime, type

Você deve ter algo parecido com este output como resultado:

Resultado da query na tabela de metadados no BigQuery

Ou seja, você já consegue verificar a contagem de veículos em seus vídeos, em recortes por minuto. E a partir daqui, podemos realizar mais atividades para enriquecer decisões — como criar um modelo para prever o tráfego nos próximos dias/semanas para planejar uma manutenção, por exemplo.

Para conhecer mais características, funcionalidades e casos de uso possíveis, consulte a documentação oficial da Vertex AI Vision.

Espero que você tenha se divertido nessa jornada. Caso você tenha um cenário interessante em implementação na Vertex AI Vision e queira compartilhar, mande uma mensagem para criarmos um blog com a sua experimentação 🙂