O RETVec, ou Resilient & Efficient Text Vectorizer, é uma tecnologia desenvolvida pelo Google em 2023 para fortalecer a segurança do Gmail, utilizando inteligência artificial para identificar e bloquear spam, phishing e outros tipos de e-mails maliciosos, através de análises heurísticas.
O Gmail é um dos serviços de e-mail mais usados no mundo, com mais de 1,8 bilhão de usuários. Levando em consideração que quase 50% das mais de 400 bilhões de mensagens de e-mail enviadas todos os dias no mundo são spam, a tarefa de identificar e filtrar automaticamente essas mensagens é enorme.
É por isso que o Google investe inúmeros esforços no sentido de melhorar os seus filtros. O RETVec é um desses filtros, de natureza heurística, mas baseado em inteligência artificial capaz de identificar padrões e reconhecer novas práticas.
É sobre esta tecnologia que falaremos neste post.
Table of Contents
O que é o RETVec?
O RETVec é uma tecnologia antispam de análise heurística baseada em inteligência artificial, desenvolvida pela equipe do Google para o Gmail, capaz de identificar e bloquear mensagens de spam, phishing, e outros tipos de e-mails maliciosos, mesmo quando os remetentes tentam burlar os filtros com erros de digitação intencionais, caracteres especiais ou mistura de idiomas.
Em outras palavras, o RETVec busca ser capaz de identificar mensagens maliciosas de e-mail mesmo quando os remetentes tentam burlar os filtros tradicionais com táticas como erros de digitação intencionais, caracteres especiais ou mistura de idiomas.
O impacto da implementação da tecnologia RETVec é significativo: ele aumentou a taxa de detecção de spam no Gmail em 38% e reduziu os falsos positivos (casos em que e-mails legítimos são equivocadamente marcados como spam) em 19,4%.
Além disso, sua eficiência computacional é impressionante, reduzindo o uso de TPUs (Tensor Processing Units), o hardware especializado do Google, em 83%! Em outras palavras, isso permite que o RETVec funcione não só em servidores robustos, mas também em dispositivos com recursos limitados, como smartphones, garantindo proteção em tempo real para todos os usuários do Gmail.

O que é um filtro heurístico?
Um filtro heurístico de emails é um sistema utilizado para identificar e classificar mensagens de email com base em um conjunto de regras ou padrões predefinidos, chamados de regras empíricas. Essas regras são criadas a partir de características normalmente associadas a emails indesejados, que é o caso do spam e do phishing.
O filtro heurístico analisa o conteúdo e as características de um email, aplicando um conjunto de regras que avaliam aspectos como:
- Palavras-chave suspeitas: expressões como “grátis”, “oferta especial” ou “clique aqui”.
- Formatação: uso excessivo de letras maiúsculas ou pontuação, por exemplo, “GANHE AGORA!!!”.
- Estrutura: mensagens de e-mail com múltiplos hiperlinks, especialmente para domínios desconhecidos ou encurtados.
- Remetente: origem desconhecida ou com baixa reputação.
Desvantagens dos filtros heurísticos
Embora os filtros heurísticos sejam um poderoso aliado de provedores de e-mails no combate ao spam e aos e-mails maliciosos, ele pode apresentar algumas desvantagens, como:
- Falsos positivos: emails legítimos podem ser equivocadamente classificados como spam se coincidirem com algumas regras.
- Manutenção constante: as regras de filtragem precisam ser atualizadas regularmente para manter a eficácia da ferramenta, pois os spammers estão sempre inovando e buscando novas maneiras de burlar os filtros.
Como o RETVec funciona na prática?
Segundo o Google, o RETVec transforma texto em vetores numéricos, que são representações matemáticas que capturam o significado subjacente das palavras, independentemente de como elas são escritas ou manipuladas. Ou seja, de certa forma o RETVec consegue interpretar a intenção de um texto, independentemente da maneira como ele é escrito.
Essa abordagem permite que ele ignore “ruídos” como substituições visuais ou truques tipográficos, focando no propósito do conteúdo.
Aqui estão exemplos práticos de como o RETVec opera em situações reais:
Erros de intencionais de digitação
Exemplo: “C0mpre seu reméd10 barat0 agora!“
Spammers frequentemente substituem letras por números ou símbolos (ex.: “0” por “o”, “1” por “i”) para enganar filtros simples. A essa técnica, chamamos de Leetspeak, 1337, eleet ou hacker speech, que é uma forma de escrita que usa números e símbolos no lugar de letras.
No exemplo dado, o RETVec reconhece que “C0mpre” é uma variante de “Compre” e “reméd10” de “remédio”, identificando o padrão de uma oferta comercial suspeita, especialmente se acompanhada de um link duvidoso.

Homóglifos e caracteres semelhantes
Considere um e-mail de phishing dizendo “Atualize sua senha do Gmаil em [link falso]”. Aqui, o “а” é um caractere cirílico (Unicode U+0430) que imita o “a” latino (U+0061) – veja a imagem abaixo. Filtros antigos poderiam ser enganados, mas o RETVec normaliza esses homóglifos, detectando que “Gmаil” tenta se passar por “Gmail” e sinalizando a tentativa de golpe.

Símbolos e espaços como disfarce
Exemplo: “G.a.n.h.e 1 m.i.l.h.ã.o hoje!” ou “G a n h e 1 m i l h ã o hoje!”
Um e-mail com usa pontos para separar letras e o “ã” com til para dificultar a análise. O RETVec remove esses ruídos, interpretando “G.a.n.h.e” como “Ganhe” e “m.i.l.h.ã.o” como “milhão”, e, ao combinar com o contexto de uma promessa exagerada, marca o e-mail como spam.

Texto Multilíngue
Um remetente envia “Olá amigo, 你好! Veja esta oferta especial em [link]”. A mistura de português (“Olá”) e chinês (“你好”, que significa “olá”) poderia confundir sistemas monolíngues. O RETVec, porém, processa ambos os idiomas sem esforço, focando na intenção da “oferta especial” e no link suspeito para classificá-lo como potencialmente malicioso.

O diferencial do RETVec está em sua capacidade de processar texto em todos os idiomas e caracteres UTF-8 sem necessidade de pré-processamento. Ao contrário de filtros tradicionais que dependem de regras ou padrões específicos e predefinidos, o RETVec é adaptável às estratégias dos spammers.
Mas como exatamente ele consegue isso?
Tecnicamente, o RETVec vetoriza o texto em uma representação unificada que é capaz de analisar padrões e contexto para tomar decisões, como o remetente, histórico de envio e links associados.
Em quais partes do e-mail o RETVec atua?
O RETVec não se limita a uma seção específica. Ele analisa todas as partes textuais de um e-mail para garantir uma avaliação abrangente. Portanto, ele funciona:
- Assunto: o RETVec examina o texto do assunto em busca de manipulações ou frases suspeitas. Um exemplo como “Ganh£ 1 Milhão Hoje!” seria normalizado e identificado como uma promessa irrealista.
- Corpo do e-mail: no texto principal, ele detecta intenções maliciosas em parágrafos ou em call-to-action. Por exemplo, “Clique aqu1 para receber seu prêm1o!” é desmascarado como uma tentativa de golpe.
- Links e URLs: O RETVec colabora com sistemas que verificam o destino real de um hiperlink, encontrando discrepâncias entre o domínio exibido e o verdadeiro.
- Remetente: processando o nome exibido no campo “De” para identificar spoofing. Um remetente como “Suporte Gmaіl” seria sinalizado como falsificação.
- Anexos com Texto: Se o e-mail incluir PDFs ou imagens com texto extraído via OCR, o RETVec pode processá-los. Por exemplo, um anexo com “Envie seus dados aqui!” seria vetorizado e marcado como phishing.
O RETVec também se integra a outros sistemas do Gmail, como verificação de reputação do remetente e análise de links, para uma proteção completa.
Cuidados para profissionais de marketing digital
O RETVec não distingue entre intenções maliciosas e campanhas legítimas mal executadas. Os profissionais de marketing digital precisam planejar cuidadosamente as suas ações de e-mail marketing para evitar que seus e-mails sejam confundidos com spam.
Siga estas orientações:
- Evite truques tipográficos: textos como “V3ND4 AGOR4” ou “C.L.I.Q.U.E” podem ser criativos, mas o RETVec os normaliza e associa a táticas de spam. Escreva corretamente.
- Modere promessas: assuntos como “Ganhe 1 milhão hoje!” ou “100% grátis!” podem parecer exagerados e acionar filtros, mesmo sendo verdadeiros. Tenha cuidado.
- Links confiáveis: evite encurtadores de hiperlinks. Use URLs reconhecíveis para construir confiança.
- Consistência multilíngue: em campanhas globais, misturar idiomas sem contexto (ex.: “Olá 你好” aleatoriamente) pode levantar suspeitas. Certifique-se de que o conteúdo seja coeso. No melhor dos casos, envie campanhas de e-mail separadas para idiomas distintos.
- Reputação sólida: envie campanhas de e-mail de endereços com autenticação (DKIM/SPF) e evite listas compradas ou remetentes novos, pois o RETVec trabalha com sistemas que analisam histórico.
Campanhas legítimas e bem elaboradas passam pelo RETVec sem problemas, mas exageros ou táticas duvidosas podem levar seu e-mail direto para a pasta de spam.
Conclusão
O RETVec é um recurso que demonstra o avanço da inteligência artificial na segurança digital, oferecendo ao Gmail uma proteção mais confiável contra spam e phishing.
Atuando em todas as partes textuais do e-mail, ele beneficia os seus usuários com uma caixa de entrada mais segura. Embora seja uma tecnologia exclusiva do Google para o Gmail, seu conceito pode inspirar o futuro da filtragem de e-mails.
FAQ
O que é o RETVec e qual sua função?
O RETVec é uma tecnologia do Google que usa inteligência artificial para identificar e bloquear spam, phishing e e-mails maliciosos no Gmail, detectando ameaças mesmo quando o texto é disfarçado com erros de digitação, símbolos ou mistura de idiomas.
Como o RETVec reconhece spam disfarçado?
O RETVec converte textos em vetores numéricos que interpretam o significado das palavras, ignorando truques visuais como “C0mpre” ou “G.a.n.h.e”. Assim, ele entende a intenção da mensagem, mesmo com manipulações.
Quais partes do e-mail o RETVec analisa?
Ele examina todo o conteúdo textual: assunto, corpo, links, remetente e anexos com texto. Isso leva a uma análise mais abrangente e a uma maior precisão na identificação de ameaças.
Qual a diferença entre RETVec e filtros heurísticos?
Filtros heurísticos em geral seguem regras fixas e predeterminadas, enquanto o RETVec se adapta e aprende com os padrões das mensagens. Isso o torna mais eficiente e menos suscetível a erros ou truques dos spammers.
Como o marketing digital deve se adequar ao RETVec?
Os profissionais devem evitar exageros, truques tipográficos e links suspeitos. Campanhas bem planejadas, com conteúdo claro e remetente confiável, passam pelos filtros sem problemas.