Metodologia

Secção 1

A nossa abordagem

Rascasse ocupa uma posição distinta no panorama da investigação: Behavioral Audience Intelligence. Não somos nem um prestador de serviços de monitorização de redes sociais nem um prestador de serviços de investigação por inquérito. Em vez disso, analisamos sistematicamente o comportamento digital observável em múltiplas fontes para construir perfis de público baseados no que as pessoas fazem, e não no que dizem.

Esta distinção é importante. A discrepância entre as atitudes auto-relatadas e o comportamento real — a Discrepância entre o que se diz e o que se faz — está bem documentada tanto na literatura académica como na prática do setor. Choi e Varian demonstraram que o comportamento de pesquisa digital prevê a atividade económica no mundo real com maior precisão do que os instrumentos de inquérito tradicionais.1 Kosinski et al. demonstraram que os registos digitais do comportamento humano podem prever atributos pessoais com notável precisão.2

O próprio setor de estudos de mercado reconhece cada vez mais este desafio. Na IIeX North America 2025, a Qrious Insights apresentou conclusões que sugerem taxas de erro de aproximadamente 80% nos dados de consumo de meios de comunicação auto-relatados.{{methodology.toc_item_14}} O relatório «2025 State of Survey Fraud» da Rep Data analisou 4,1 mil milhões de tentativas de inquérito e concluiu que 33% eram fraudulentas e 27% desatentas — o que deixa cerca de metade das respostas recolhidas genuinamente utilizáveis.{{methodology.toc_item_15}}

Três paradigmas da investigação de audiências

Tradicional

Pesquisa por questionário

Pergunta às pessoas o que pensam, compram e veem. Sujeita a viés de memória, desejabilidade social e taxas de resposta em declínio.

Rascasse

Inteligência comportamental

Observa o que as pessoas realmente fazem em fontes digitais. Triangulação de dados comportamentais a partir de múltiplas fontes.

Escuta social

Monitoriza conversas em canais sociais. Limita-se a minorias expressivas e a populações específicas de cada canal.

A nossa abordagem está em consonância com o que o Código Internacional da ICC/ESOMAR (5.ª Edição, 2025) reconhece agora formalmente: o papel legítimo do «investigador como curador de dados» — profissionais que extraem insights de fontes de dados existentes, em vez de gerarem dados primários através do contacto direto com os participantes.5

No ESOMAR Reimagine 2025, a Heineken apresentou um quadro de risco para dados sintéticos e imputados. Neste quadro, a metodologia da Rascasse é classificada como «Passo 1: Imputação de Dados» — a categoria de risco mais baixo, uma vez que extrai inferências de sinais comportamentais reais, em vez de gerar dados sintéticos.{{methodology.toc_item_17}}

Princípios Fundamentais

Triangulação de múltiplas fontes: Cada ponto de dados é validado em relação a fontes independentes. Nenhuma fonte isolada domina o resultado.
Dados agregados e não pessoais: Processamos padrões comportamentais ao nível da população. Sem rastreamento individual, sem processamento de dados pessoais — conformidade com o RGPD desde a conceção.
Comportamento observável em detrimento de preferências declaradas: as consultas de pesquisa, os padrões de interação e o comportamento de consumo fornecem dados de maior fiabilidade do que as respostas a inquéritos auto-relatadas.
Transparência sobre a incerteza: Quando os dados são escassos, indicamos a insuficiência de dados em vez de valores imputados.

Secção 2

Arquitetura de dados e independência

A arquitetura de dados da Rascasse é deliberadamente conservadora. Temos operado sem qualquer proibição de fonte única, revogação de API, carta de cessação e desistência ou violação dos termos de serviço. Isto não é por acaso — é por opção. A nossa arquitetura assenta em comportamentos observáveis publicamente que não requerem acesso privilegiado à API, autenticação do utilizador ou parcerias com terceiros que possam ser revogadas.

Sem dependência de cookies de terceiros

Enquanto grande parte do ecossistema da publicidade digital enfrenta perturbações decorrentes da descontinuação dos cookies — o Privacy Sandbox do Google, o ITP do Safari, o ETP do Firefox — a metodologia da Rascasse é totalmente independente de cookies. Não rastreamos utilizadores individuais em diferentes websites. Os nossos pontos de dados são padrões comportamentais agregados: volumes de pesquisa, métricas de envolvimento e dados de interação pública. Nenhum destes depende de mecanismos de rastreamento ao nível do navegador.

Não são necessários dados de clientes

Rascasse não requer acesso a sistemas de e-CRM dos clientes, dados de primeira mão, bases de dados de clientes ou qualquer informação proprietária. A nossa inteligência é derivada inteiramente de dados comportamentais disponíveis publicamente. Isto significa que não há acordos de tratamento de dados (DPAs) para além dos termos padrão de SaaS, não há risco de misturar dados de clientes com fontes de terceiros, não há atrasos na integração de dados e há total conformidade com o RGPD desde a conceção.

Independência de fontes

Ao contrário dos concorrentes que dependem da API de uma única fonte — como o Twitter/X Decahose ou a API de Marketing da Meta —, a arquitetura multifonte do Rascasse garante que nenhuma alteração numa única fonte possa perturbar o nosso fluxo de dados. Quando serviços de terceiros restringem o acesso à API, como o Twitter/X fez em 2023 ou como a Meta ajusta periodicamente a sua API de Marketing, a nossa metodologia permanece inalterada.

Fator de risco	Baseado em inquéritos	Gráfico social	Comportamental (Rascasse)
Dependência da API de origem	Fornecedores de painéis	Twitter/X Decahose	Nenhuma (dados públicos)
Dependência de cookies	Pixéis de rastreamento	Nenhum	Nenhum
Dados do cliente necessários	Nenhum	Nenhum	Nenhum
Risco de proibição de fonte	Risco de fraude no painel	Risco de revogação da API	Nenhum (sem violação dos TOS)
Tratamento de dados ao abrigo do RGPD	É necessário o consentimento do painel	Consentimento para dados sociais	Não são processados dados pessoais

A Diretriz da ESOMAR sobre Recolha Passiva de Dados, Observação e Gravação reconhece explicitamente a legitimidade da investigação baseada em dados observáveis publicamente, desde que cumpra os princípios de transparência e proporcionalidade — ambos os quais a arquitetura da Rascasse satisfaz por definição.7

Secção 3

Fontes de dados

Rascasse reúne dados comportamentais de várias categorias independentes. Cada categoria capta uma faceta distinta do comportamento digital, e nenhuma fonte isolada domina o resultado final. Esta abordagem multifonte segue os princípios da fusão de dados descritos pela Ipsos MediaCT: combinar fluxos de dados independentes para produzir estimativas que nenhuma fonte isolada poderia fornecer por si só.8

Categoria	O que capturamos	Tipo de dados
Comportamento de pesquisa	Volumes de consultas, padrões sazonais, distribuição regional	Dados de intenção
Canais sociais	Gráficos de seguidores, taxas de envolvimento, interação com o conteúdo	Dados de interesse
Vídeo e streaming	Número de visualizações, comportamento das listas de reprodução, subscrições de canais	Dados de consumo
Registos públicos	Audiências televisivas, tabelas de vendas, bases de dados de prémios, Wikipédia	Dados de validação
Pesquisa primária publicada	Resultados de inquéritos publicados, dados do recenseamento, estudos do Pew	Dados de calibração
Dados de localização	Bases de dados de POI, padrões de check-in, dados de localização de lojas	Dados espaciais

Pipeline de dados de múltiplas fontes

Ingestão

Dados brutos

→

Normalização

Alinhamento entre fontes

→

Validação

Verificação cruzada entre várias fontes

→

Resultado

Pontos de dados e perfis de público

Princípio

Cada perfil é construído a partir de múltiplas fontes de dados independentes. Os pontos de dados que não possam ser corroborados por pelo menos duas fontes independentes são assinalados com pontuações de confiança reduzidas.

Secção 4

Perfilagem de Pontos de Dados

Um ponto de dados no sistema da Rascasse é qualquer objeto cultural, comercial ou social distinto que gere um comportamento digital mensurável. Atualmente, o sistema traça o perfil de mais de 500 000 pontos de dados em cinco categorias: Marcas, Pessoas, Eventos, Meios de comunicação e Tópicos.

Construção de pontos de dados

Cada ponto de dados é definido por um conjunto selecionado de palavras-chave de pesquisa, aliases e atribuições de categoria. Esta seleção é essencial: a mesma consulta superficial pode referir-se a diferentes pontos de dados (por exemplo, «Jaguar», a marca de automóveis, versus «Jaguar», o animal), e a desambiguação requer conhecimentos especializados na área, combinados com validação algorítmica.

Dimensão do ponto de dados

O Tamanho do Ponto de Dados é uma métrica normalizada que combina o volume de pesquisa com dados de envolvimento social. Proporciona uma medida comparável da pegada digital global de um ponto de dados, permitindo comparações entre categorias e países. O Tamanho do Ponto de Dados é específico por tipo: uma marca é ponderada de forma diferente de uma pessoa ou de um evento, refletindo os padrões comportamentais distintos que cada tipo gera.

Fator de Qualidade (QualFactor)

Cada ponto de dados possui uma pontuação QualFactor derivada da validação cruzada entre dados comportamentais baseados em pesquisa e em interação. Um QualFactor elevado indica padrões consistentes em fontes independentes; um QualFactor baixo desencadeia uma revisão manual ou o enriquecimento de dados.

Âmbito

A criação de perfis de pontos de dados abrange 200+ países. Novos pontos de dados podem ser integrados em poucos dias, e não em meses — uma vantagem significativa em relação aos sistemas baseados em inquéritos, que exigem a conceção de novos questionários e trabalho de campo para cada adição.

Secção 5

Construção do público-alvo

No Rascasse, os públicos são criados a partir de pontos de dados, recorrendo à curadoria de especialistas na área — e não a agrupamentos algorítmicos. Esta escolha de design deliberada garante a coerência semântica: um público de «Entusiastas Automóveis Premium» é criado por especialistas que compreendem quais as marcas, os meios de comunicação, os eventos e os influenciadores que definem esse segmento.

Públicos de ponto de dados único

O tipo de público mais simples centra-se num único ponto de dados. «Fãs do Dallas Cowboys» capta todo o comportamento digital associado ao Dallas Cowboys — padrões de pesquisa, interação nas redes sociais, consumo de conteúdos e afinidades com marcas relacionadas.

Públicos com múltiplos pontos de dados

As audiências complexas combinam múltiplos pontos de dados utilizando combinações lógicas (AND, OR, NOT). Por exemplo, uma audiência de «Moda Sustentável» pode combinar marcas focadas na sustentabilidade, meios de comunicação de moda ética e influenciadores relevantes — excluindo, ao mesmo tempo, marcas de fast-fashion.

Agregação ponderada

Ao construir públicos com múltiplos pontos de dados, os pontos de dados componentes são ponderados por relevância. Um público de «Fãs de Hip-Hop Americano» pode atribuir maior peso aos artistas do que aos meios de comunicação, refletindo o padrão comportamental mais forte que o envolvimento com os artistas proporciona.

Diferenciação

Ao contrário dos fornecedores baseados em inquéritos, em que os investigadores têm de definir públicos através da lógica de questionários, ou das ferramentas de monitorização de redes sociais que dependem da correspondência de palavras-chave nas conversas, os públicos da Rascasse são criados por especialistas na área que compreendem as relações semânticas entre marcas, pessoas e propriedades. Isto produz segmentos mais matizados e culturalmente precisos.

Secção 6

Modelação demográfica

Os dados demográficos não são diretamente observáveis a partir dos dados de pesquisa. Em vez disso, utilizamos uma abordagem de estimativa multifonte que combina vários indicadores demográficos independentes numa estimativa composta. Cada indicador contribui com um elemento de evidência; o perfil demográfico final surge da convergência destas entradas independentes.

Indicador 1

Composição da audiência específica por canal

Cada canal social apresenta distribuições demográficas documentadas (Pew Research, 2025). O TikTok tem uma predominância na faixa etária dos 18 aos 29 anos, o LinkedIn tem uma predominância no ensino superior e o Facebook tem uma predominância na faixa etária acima dos 30 anos. A força relativa de um ponto de dados nestes canais informa o seu perfil demográfico.

Indicador 2

Transferência de afinidade do influenciador

Quando um influenciador com um perfil de público conhecido demonstra afinidade com uma marca, uma parte dessa evidência demográfica é transferida através da atualização bayesiana: prior (perfil da marca) + probabilidade (público do influenciador) = estimativa posterior.

Indicador 3

Análise demográfica visual

A visão computacional aplicada a imagens de perfil acessíveis ao público fornece estimativas de distribuição por idade e género a nível agregado, seguindo métodos estabelecidos por Rothe, Timofte & Van Gool (2018) e Cesare et al. (2017).

Indicador 4

Calibração com base em investigação primária pública

Estudos publicados (Pew, Eurostat, institutos nacionais de estatística), audiências televisivas com distribuições etárias conhecidas, tabelas de vendas com dados demográficos por categoria e estudos de mercado disponíveis ao público servem como pontos de calibração de referência.

Indicador 5

Combinação bayesiana através de padrões de pesquisa regionais

As regiões têm perfis demográficos conhecidos. Quando uma marca é pesquisada de forma desproporcional em cidades universitárias, isso sugere um público mais jovem. A atualização bayesiana combina priores nacionais com padrões regionais de volume de pesquisa.

A estrutura bayesiana subjacente aos indicadores 2 e 5 segue métodos estabelecidos na ciência do marketing, tal como descrito por Rossi, Allenby e McCulloch (2005)9 e aplicado à modelação do mix de meios pela Google Research (2017).10

A componente de análise demográfica visual baseia-se na arquitetura DEX (Deep EXpectation) para a estimativa da idade aparente a partir de imagens faciais¹¹ e num trabalho mais abrangente sobre a deteção demográfica baseada em aprendizagem automática a partir das redes sociais.¹²

As distribuições demográficas específicas por canal são calibradas com base nos estudos em curso do Pew Research Center sobre padrões de utilização das redes sociais entre grupos demográficos.13

Advertência honesta

As estimativas demográficas envolvem uma incerteza inerente. Apresentamos intervalos de confiança e assinalamos pontos de dados onde os sinais demográficos são escassos. Nos casos em que não existem dados suficientes para produzir uma estimativa fiável, apresentamos a mensagem «dados insuficientes» em vez de valores imputados. Esta transparência é fundamental para a nossa metodologia: preferimos a precisão à abrangência.

Secção 7

Modelagem de afinidade e psicográfica

Pontuações de afinidade

A afinidade mede a força relativa da ligação entre um público e uma marca, pessoa ou propriedade. O valor de referência é 1,0, representando a média do mercado. Uma pontuação de afinidade acima de 1,0 indica um interesse acima da média; abaixo de 1,0 indica um interesse abaixo da média. Esta abordagem baseada em índices — comum no planeamento de meios de comunicação — permite a comparação direta entre pontos de dados e públicos.

O cálculo da afinidade baseia-se em técnicas de filtragem colaborativa e fatorização de matrizes, conforme descrito por Koren, Bell e Volinsky (2009) no contexto dos sistemas de recomendação.14 A ideia central: os padrões de coocorrência nos dados comportamentais revelam preferências latentes que os pontos de dados individuais, por si só, não conseguem captar.

Perfil Psicográfico (28 Traços)

Rascasse estima 28 traços psicográficos para cada público, organizados em torno de dimensões como orientação para a sustentabilidade, adoção de tecnologia, afinidade com o luxo, consciência de saúde e envolvimento cultural.

Cada traço é pontuado por meio de pontos de dados marcadores: marcas, pessoas e propriedades que servem como fortes indicadores de uma determinada dimensão psicográfica. Por exemplo, o traço “Sustentabilidade” baseia-se em padrões de envolvimento com marcas como Patagonia, meios de comunicação sobre alterações climáticas e eventos centrados em temas ambientais. A pontuação do traço representa em que medida um público se situa acima ou abaixo da média nesses pontos de dados marcadores, em relação à população geral.

Esta abordagem baseia-se em investigação sobre a previsão de traços psicológicos a partir do comportamento digital² e no Schwartz Values Framework, que fornece uma taxonomia de valores humanos com fundamentação teórica.¹⁵ Boyd et al. (2015) demonstraram que as orientações de valores podem ser inferidas de forma fiável a partir de padrões de comportamento digital.¹⁶

Nota metodológica

Todas as pontuações psicográficas são normalizadas em relação à média do mercado. Um público com uma pontuação de sustentabilidade de 1,4 é 40% mais orientado para a sustentabilidade do que a população em geral — não é «altamente sustentável» em termos absolutos. Este enquadramento relativo evita afirmações exageradas.

Secção 8

Inteligência de localização

Rascasse fornece inteligência de localização em 200+ países, mais de 100 000 cidades e mais de 250 000 códigos postais. Os dados de localização são obtidos a partir da distribuição geográfica do comportamento de pesquisa, combinada com a análise espacial de pontos de interesse (POIs).

Afinidade de localização

A Afinidade de localização mede o grau de repercussão de uma marca ou propriedade numa área geográfica específica, em relação à média nacional. Combina a distribuição do volume de pesquisa com padrões de interesse, seguindo a metodologia de análise regional descrita pela primeira vez por Choi e Varian (2012).1

Base de dados de Pontos de Interesse (POI)

O sistema mantém uma base de dados com mais de 8 milhões de Pontos de Interesse provenientes de bases de dados geográficas abertas — incluindo localizações de espaços, lojas de retalho, instituições culturais e instalações desportivas. Os POIs são mapeados para a taxonomia de cidades e regiões da Rascasse, permitindo uma análise espacial que liga o comportamento digital à presença no mundo físico.

Detecção de valores atípicos

Nem todos os pontos de dados geográficos são significativos. O sistema utiliza a validação por vizinhança para distinguir tendências locais genuínas de artefactos de dados: uma cidade que apresente uma afinidade invulgarmente elevada é validada em relação às cidades vizinhas e aos padrões a nível regional. Picos isolados sem corroboração regional são assinalados como potenciais artefactos, em vez de serem apresentados como insights.

Secção 9

Quota de Pesquisa

A Quota de Pesquisa mede a proporção de uma marca no volume total de pesquisas relacionadas com a marca dentro de um conjunto competitivo definido. Proposta formalmente pela primeira vez por Les Binet na IPA EffWorks Global em 202017, a métrica tem sido, desde então, validada como um indicador fiável da quota de mercado.

O IPA Think Tank, liderado por James Hankins, analisou 30 estudos em 12 categorias e 7 países, concluindo que a Quota de Pesquisa representa aproximadamente 83% da variação da quota de mercado.18 Fundamentalmente, as alterações na Quota de Pesquisa tendem a preceder as alterações na quota de mercado efetiva, tornando-a um indicador avançado da dinâmica competitiva.

Rascasse Implementação

Definição flexível de categorias: os conjuntos competitivos são definidos por caso de utilização — não se restringindo a taxonomias pré-definidas. Um conjunto de «automóveis premium» na Alemanha pode diferir do mesmo conceito nos Estados Unidos.
Acompanhamento mensal: a Quota de Pesquisa é calculada mensalmente com comparações ano a ano, permitindo a deteção de tendências para além do ruído sazonal.
Granularidade ao nível do país: Cada mercado é analisado de forma independente, refletindo o facto de que a dinâmica competitiva varia consoante a geografia.
Normalização: Os volumes de pesquisa brutos são normalizados para ter em conta as flutuações sazonais e o crescimento ou declínio ao nível da categoria.

Validação académica

A Share of Search baseia-se na visão mais ampla de Choi e Varian (2012) de que os volumes de consultas de pesquisa contêm informações preditivas sobre a atividade económica no mundo real. A contribuição de Binet consistiu em formalizar isto para a análise competitiva ao nível da marca — passando da previsão económica para a estratégia de marketing.

Secção 10

Validação e Limitações

Estrutura de validação

Rascasse utiliza múltiplos mecanismos de validação para garantir a qualidade dos resultados:

Consistência entre fontes: Os pontos de dados devem ser confirmados em pelo menos duas fontes independentes antes de serem comunicados com elevado grau de confiança. Os pontos de dados provenientes de uma única fonte são assinalados em conformidade.
Estabilidade temporal: Os resultados são validados ao longo de séries temporais para filtrar ruído pontual de um único mês. Mudanças repentinas e não corroboradas desencadeiam uma revisão, em vez de um relatório automático.
Benchmark em relação a dados públicos: Os perfis são periodicamente comparados com dados disponíveis externamente — audiências televisivas, números de vendas publicados, dados demográficos do recenseamento e resultados de estudos de mercado disponíveis ao público.
Pontuação do Fator de Qualidade: Cada ponto de dados possui um QualFactor que reflete a consistência e a amplitude dos seus dados subjacentes. Os pontos de dados com QualFactor baixo são assinalados na interface do utilizador.

Limitações conhecidas

Acreditamos que a transparência sobre as limitações é essencial para a credibilidade metodológica. Seguem-se as restrições conhecidas da nossa abordagem:

Fosso digital

Os nossos dados refletem as populações online. Segmentos demográficos com baixa presença digital — populações mais idosas em mercados em desenvolvimento, comunidades com acesso limitado à Internet — podem estar sub-representados nos nossos perfis. Não extrapolamos para populações offline sem uma advertência explícita.

Cobertura das fontes

Nem todas as fontes digitais proporcionam acesso igual aos dados. A cobertura varia consoante a fonte e a região. Em mercados onde os serviços dominantes restringem o acesso aos dados públicos, a nossa diversidade de fontes é reduzida e os intervalos de confiança alargam-se em conformidade.

Estimativa demográfica

Os dados demográficos são inferidos, não observados diretamente. A confiança varia consoante o tipo de ponto de dados e a disponibilidade dos mesmos. Os pontos de dados com padrões de envolvimento específicos por canal mais fortes produzem estimativas demográficas mais fiáveis do que os pontos de dados com presença limitada ou uniforme nos canais.

Resolução temporal

A maioria dos pontos de dados é atualizada mensalmente ou trimestralmente, e não em tempo real. Esta abordagem é intencional — privilegia a estabilidade e a validação em detrimento da imediatez. Para casos de utilização que exijam atualizações em tempo real, recomendamos complementar os dados da Rascasse com ferramentas de monitorização específicas por canal.

Para uma lista completa das referências académicas subjacentes a esta metodologia, consulte a nossa Bibliografia.