O RETVec, ou Resilient & Efficient Text Vectorizer, é uma tecnologia desenvolvida pelo Google em 2023 para fortalecer a segurança do Gmail, utilizando inteligência artificial para identificar e bloquear spam, phishing e outros tipos de e-mails maliciosos, através de análises heurísticas.

O Gmail é um dos serviços de e-mail mais usados no mundo, com mais de 1,8 bilhão de usuários. Levando em consideração que quase 50% das mais de 400 bilhões de mensagens de e-mail enviadas todos os dias no mundo são spam, a tarefa de identificar e filtrar automaticamente essas mensagens é enorme.

É por isso que o Google investe inúmeros esforços no sentido de melhorar os seus filtros. O RETVec é um desses filtros, de natureza heurística, mas baseado em inteligência artificial capaz de identificar padrões e reconhecer novas práticas. 

É sobre esta tecnologia que falaremos neste post.

O que é o RETVec?

O RETVec é uma tecnologia antispam de análise heurística baseada em inteligência artificial, desenvolvida pela equipe do Google para o Gmail, capaz de identificar e bloquear mensagens de spam, phishing, e outros tipos de e-mails maliciosos, mesmo quando os remetentes tentam burlar os filtros com erros de digitação intencionais, caracteres especiais ou mistura de idiomas.

Em outras palavras, o RETVec busca ser capaz de identificar mensagens maliciosas de e-mail mesmo quando os remetentes tentam burlar os filtros tradicionais com táticas como erros de digitação intencionais, caracteres especiais ou mistura de idiomas.

O impacto da implementação da tecnologia RETVec é significativo: ele aumentou a taxa de detecção de spam no Gmail em 38% e reduziu os falsos positivos (casos em que e-mails legítimos são equivocadamente marcados como spam) em 19,4%. 

Além disso, sua eficiência computacional é impressionante, reduzindo o uso de TPUs (Tensor Processing Units), o hardware especializado do Google, em 83%! Em outras palavras, isso permite que o RETVec funcione não só em servidores robustos, mas também em dispositivos com recursos limitados, como smartphones, garantindo proteção em tempo real para todos os usuários do Gmail.

Performance do filtro retvec do gmail
Fonte: Google

O que é um filtro heurístico?

Um filtro heurístico de emails é um sistema utilizado para identificar e classificar mensagens de email com base em um conjunto de regras ou padrões predefinidos, chamados de regras empíricas. Essas regras são criadas a partir de características normalmente associadas a emails indesejados, que é o caso do spam e do phishing. 

O filtro heurístico analisa o conteúdo e as características de um email, aplicando um conjunto de regras que avaliam aspectos como:

  • Palavras-chave suspeitas: expressões como “grátis”, “oferta especial” ou “clique aqui”.
  • Formatação: uso excessivo de letras maiúsculas ou pontuação, por exemplo, “GANHE AGORA!!!”.
  • Estrutura: mensagens de e-mail com múltiplos hiperlinks, especialmente para domínios desconhecidos ou encurtados.
  • Remetente: origem desconhecida ou com baixa reputação.

Desvantagens dos filtros heurísticos

Embora os filtros heurísticos sejam um poderoso aliado de provedores de e-mails no combate ao spam e aos e-mails maliciosos, ele pode apresentar algumas desvantagens, como:

  • Falsos positivos: emails legítimos podem ser equivocadamente classificados como spam se coincidirem com algumas regras.
  • Manutenção constante: as regras de filtragem precisam ser atualizadas regularmente para manter a eficácia da ferramenta, pois os spammers estão sempre inovando e buscando novas maneiras de burlar os filtros.

Como o RETVec funciona na prática?

Segundo o Google, o RETVec transforma texto em vetores numéricos, que são representações matemáticas que capturam o significado subjacente das palavras, independentemente de como elas são escritas ou manipuladas. Ou seja, de certa forma o RETVec consegue interpretar a intenção de um texto, independentemente da maneira como ele é escrito.

Essa abordagem permite que ele ignore “ruídos” como substituições visuais ou truques tipográficos, focando no propósito do conteúdo.

Aqui estão exemplos práticos de como o RETVec opera em situações reais:

Erros de intencionais de digitação

Exemplo: “C0mpre seu reméd10 barat0 agora!

Spammers frequentemente substituem letras por números ou símbolos (ex.: “0” por “o”, “1” por “i”) para enganar filtros simples. A essa técnica, chamamos de Leetspeak, 1337, eleet ou hacker speech, que é uma forma de escrita que usa números e símbolos no lugar de letras. 

No exemplo dado, o RETVec reconhece que “C0mpre” é uma variante de “Compre” e “reméd10” de “remédio”, identificando o padrão de uma oferta comercial suspeita, especialmente se acompanhada de um link duvidoso.

Leetspeak, 1337, eleet ou hacker speech é usado por spammers para tentar enganar filtros antispam

Homóglifos e caracteres semelhantes

Considere um e-mail de phishing dizendo “Atualize sua senha do Gmаil em [link falso]”. Aqui, o “а” é um caractere cirílico (Unicode U+0430) que imita o “a” latino (U+0061) – veja a imagem abaixo. Filtros antigos poderiam ser enganados, mas o RETVec normaliza esses homóglifos, detectando que “Gmаil” tenta se passar por “Gmail” e sinalizando a tentativa de golpe.

Caracteres homóglifos são usados como tática por spammers para enganar filtros antispam heurísticos

Símbolos e espaços como disfarce

Exemplo:  “G.a.n.h.e 1 m.i.l.h.ã.o hoje!” ou “G  a  n  h  e   1  m  i  l  h  ã  o   hoje!

Um e-mail com usa pontos para separar letras e o “ã” com til para dificultar a análise. O RETVec remove esses ruídos, interpretando “G.a.n.h.e” como “Ganhe” e “m.i.l.h.ã.o” como “milhão”, e, ao combinar com o contexto de uma promessa exagerada, marca o e-mail como spam.

Gappy subject ou texto espaçado é utilizado para tentar burlar filtros antispam

Texto Multilíngue

Um remetente envia “Olá amigo, 你好! Veja esta oferta especial em [link]”. A mistura de português (“Olá”) e chinês (“你好”, que significa “olá”) poderia confundir sistemas monolíngues. O RETVec, porém, processa ambos os idiomas sem esforço, focando na intenção da “oferta especial” e no link suspeito para classificá-lo como potencialmente malicioso.

Misturar idiomas costuma ser usado por spammers para tentar enganar destiantários e filtros antispam

O diferencial do RETVec está em sua capacidade de processar texto em todos os idiomas e caracteres UTF-8 sem necessidade de pré-processamento. Ao contrário de filtros tradicionais que dependem de regras ou padrões específicos e predefinidos, o RETVec é adaptável às estratégias dos spammers. 

Mas como exatamente ele consegue isso?

Tecnicamente, o RETVec vetoriza o texto em uma representação unificada que é capaz de analisar padrões e contexto para tomar decisões, como o remetente, histórico de envio e links associados.

Em quais partes do e-mail o RETVec atua?

O RETVec não se limita a uma seção específica. Ele analisa todas as partes textuais de um e-mail para garantir uma avaliação abrangente. Portanto, ele funciona:

  1. Assunto: o RETVec examina o texto do assunto em busca de manipulações ou frases suspeitas. Um exemplo como “Ganh£ 1 Milhão Hoje!” seria normalizado e identificado como uma promessa irrealista.
  2. Corpo do e-mail: no texto principal, ele detecta intenções maliciosas em parágrafos  ou em call-to-action. Por exemplo, “Clique aqu1 para receber seu prêm1o!” é desmascarado como uma tentativa de golpe.
  3. Links e URLs: O RETVec colabora com sistemas que verificam o destino real de um hiperlink, encontrando discrepâncias entre o domínio exibido e o verdadeiro.
  4. Remetente: processando o nome exibido no campo “De” para identificar spoofing. Um remetente como “Suporte Gmaіl” seria sinalizado como falsificação.
  5. Anexos com Texto: Se o e-mail incluir PDFs ou imagens com texto extraído via OCR, o RETVec pode processá-los. Por exemplo, um anexo com “Envie seus dados aqui!” seria vetorizado e marcado como phishing.

O RETVec também se integra a outros sistemas do Gmail, como verificação de reputação do remetente e análise de links, para uma proteção completa.

Cuidados para profissionais de marketing digital

O RETVec não distingue entre intenções maliciosas e campanhas legítimas mal executadas. Os profissionais de marketing digital precisam planejar cuidadosamente as suas ações de e-mail marketing para evitar que seus e-mails sejam confundidos com spam.

Siga estas orientações:

  • Evite truques tipográficos: textos como “V3ND4 AGOR4” ou “C.L.I.Q.U.E” podem ser criativos, mas o RETVec os normaliza e associa a táticas de spam. Escreva corretamente.
  • Modere promessas: assuntos como “Ganhe 1 milhão hoje!” ou “100% grátis!” podem parecer exagerados e acionar filtros, mesmo sendo verdadeiros. Tenha cuidado.
  • Links confiáveis: evite encurtadores de hiperlinks. Use URLs reconhecíveis para construir confiança.
  • Consistência multilíngue: em campanhas globais, misturar idiomas sem contexto (ex.: “Olá 你好” aleatoriamente) pode levantar suspeitas. Certifique-se de que o conteúdo seja coeso. No melhor dos casos, envie campanhas de e-mail separadas para idiomas distintos.
  • Reputação sólida: envie campanhas de e-mail de endereços com autenticação (DKIM/SPF) e evite listas compradas ou remetentes novos, pois o RETVec trabalha com sistemas que analisam histórico.

Campanhas legítimas e bem elaboradas passam pelo RETVec sem problemas, mas exageros ou táticas duvidosas podem levar seu e-mail direto para a pasta de spam.

Conclusão

O RETVec é um recurso que demonstra o avanço da inteligência artificial na segurança digital, oferecendo ao Gmail uma proteção mais confiável contra spam e phishing.

Atuando em todas as partes textuais do e-mail, ele beneficia os seus usuários com uma caixa de entrada mais segura. Embora seja uma tecnologia exclusiva do Google para o Gmail, seu conceito pode inspirar o futuro da filtragem de e-mails.

FAQ

O que é o RETVec e qual sua função?

O RETVec é uma tecnologia do Google que usa inteligência artificial para identificar e bloquear spam, phishing e e-mails maliciosos no Gmail, detectando ameaças mesmo quando o texto é disfarçado com erros de digitação, símbolos ou mistura de idiomas.

Como o RETVec reconhece spam disfarçado?

O RETVec converte textos em vetores numéricos que interpretam o significado das palavras, ignorando truques visuais como “C0mpre” ou “G.a.n.h.e”. Assim, ele entende a intenção da mensagem, mesmo com manipulações.

Quais partes do e-mail o RETVec analisa?

Ele examina todo o conteúdo textual: assunto, corpo, links, remetente e anexos com texto. Isso leva a uma análise mais abrangente e a uma maior precisão na identificação de ameaças.

Qual a diferença entre RETVec e filtros heurísticos?

Filtros heurísticos em geral seguem regras fixas e predeterminadas, enquanto o RETVec se adapta e aprende com os padrões das mensagens. Isso o torna mais eficiente e menos suscetível a erros ou truques dos spammers.

Como o marketing digital deve se adequar ao RETVec?

Os profissionais devem evitar exageros, truques tipográficos e links suspeitos. Campanhas bem planejadas, com conteúdo claro e remetente confiável, passam pelos filtros sem problemas.

Categorizado em:

Email Marketing, Entregabilidade,