TECNOLOGIA

Metodologia

Come Rascasse trasforma il comportamento digitale in audience intelligence.
Il nostro approccio multi-fonte, il modeling demografico e il framework di validazione — spiegati.

Sezione 1

Il nostro approccio

Rascasse occupa una posizione distintiva nel panorama della ricerca: Behavioral Audience Intelligence. Non siamo né un fornitore di servizi di social listening né un fornitore di ricerche tramite sondaggi. Analizziamo invece sistematicamente i comportamenti digitali osservabili provenienti da molteplici fonti per costruire profili di pubblico basati su ciò che le persone fanno, non su ciò che dicono.

Questa distinzione è importante. Il divario tra gli atteggiamenti auto-dichiarati e il comportamento effettivo — il Say-Do Gap — è ben documentato sia nella letteratura accademica che nella pratica industriale. Choi e Varian hanno dimostrato che il comportamento di ricerca digitale predice l’attività economica nel mondo reale in modo più accurato rispetto agli strumenti di indagine tradizionali.1 Kosinski et al. hanno dimostrato che le registrazioni digitali del comportamento umano possono prevedere gli attributi personali con notevole accuratezza.2

Lo stesso settore delle ricerche di mercato riconosce sempre più questa sfida. All’IIeX North America 2025, Qrious Insights ha presentato risultati che suggeriscono tassi di errore di circa l’80% nei dati sul consumo mediatico auto-dichiarati.{{methodology.toc_item_14}} Il rapporto "2025 State of Survey Fraud" di Rep Data ha analizzato 4,1 miliardi di tentativi di sondaggio e ha riscontrato che il 33% era fraudolento e il 27% inattentivo, lasciando circa la metà delle risposte raccolte realmente utilizzabili.{{methodology.toc_item_15}}

Tre paradigmi della ricerca sul pubblico
Tradizionale
Ricerca tramite sondaggi
Chiede alle persone cosa pensano, cosa acquistano e cosa guardano. Soggetta a distorsioni di memoria, desiderabilità sociale e tassi di risposta in calo.
Rascasse
Intelligenza comportamentale
Osserva ciò che le persone fanno effettivamente sulle diverse fonti digitali. Triangolazione multisorgente dei dati comportamentali.
Ascolto sociale
Ascolto dei social
Monitora le conversazioni sui canali social. Limitato alle minoranze vocali e alle popolazioni specifiche dei canali.

Il nostro approccio è in linea con quanto ora formalmente riconosciuto dal Codice Internazionale ICC/ESOMAR (5ª edizione, 2025): il ruolo legittimo del “ricercatore come curatore di dati” — professionisti che ricavano insight da fonti di dati esistenti piuttosto che generare dati primari attraverso il contatto diretto con i partecipanti.5

All'ESOMAR Reimagine 2025, Heineken ha presentato un quadro di riferimento dei rischi per i dati sintetici e imputati. In base a tale quadro, la metodologia di Rascasse rientra nella categoria “Fase 1: Imputazione dei dati” — la categoria a più basso rischio, poiché trae inferenze da segnali comportamentali reali anziché generare dati sintetici.{{methodology.toc_item_17}}

Principi chiave

Sezione 2

Architettura dei dati e indipendenza

L'architettura dei dati di Rascasse è volutamente conservativa. Abbiamo operato senza che si verificassero casi di ban di singole fonti, revoca di API, lettere di diffida o violazioni dei termini di servizio. Questo non è un caso, ma è frutto di una scelta progettuale. La nostra architettura si basa su comportamenti osservabili pubblicamente che non richiedono un accesso privilegiato alle API, l'autenticazione degli utenti o partnership con terze parti che possano essere revocate.

Nessuna dipendenza dai cookie di terze parti

Mentre gran parte dell'ecosistema della pubblicità digitale deve affrontare i disagi causati dalla dismissione dei cookie — Privacy Sandbox di Google, ITP di Safari, ETP di Firefox — la metodologia di Rascasse è completamente indipendente dai cookie. Non tracciamo i singoli utenti attraverso i siti web. I nostri dati sono modelli comportamentali aggregati: volumi di ricerca, metriche di coinvolgimento e dati di interazione pubblica. Nessuno di questi si basa su meccanismi di tracciamento a livello di browser.

Nessun dato dei clienti richiesto

Rascasse non richiede l'accesso ai sistemi di e-CRM dei clienti, ai dati di prima parte, ai database dei clienti o a qualsiasi informazione proprietaria. Le nostre informazioni derivano interamente da dati comportamentali disponibili pubblicamente. Ciò significa nessun accordo sul trattamento dei dati (DPA) al di là dei termini standard SaaS, nessun rischio di commistione dei dati dei clienti con fonti di terze parti, nessun ritardo nell'onboarding per l'integrazione dei dati e piena conformità al GDPR fin dalla progettazione.

Indipendenza dalla fonte

A differenza dei concorrenti che dipendono dall'API di un'unica fonte — come Twitter/X Decahose o l'API di marketing di Meta — l'architettura multisorgente di Rascasse garantisce che nessun cambiamento di una singola fonte possa interrompere la nostra pipeline di dati. Quando i servizi di terze parti limitano l'accesso alle API, come ha fatto Twitter/X nel 2023 o come Meta adegua periodicamente la propria API di marketing, la nostra metodologia rimane inalterata.

Fattore di rischio Basato su sondaggi Grafico sociale Comportamentale (Rascasse)
Dipendenza dall'API di origine Fornitori di panel Twitter/X Decahose Nessuna (dati pubblici)
Dipendenza dai cookie Pixel di tracciamento Nessuno Nessuno
Dati del cliente richiesti Nessuno Nessuno Nessuno
Rischio di esclusione della fonte Rischio di frode del panel Rischio di revoca dell'API Nessuno (nessuna violazione dei Termini di servizio)
Trattamento dei dati ai sensi del GDPR È richiesto il consenso del panel Consenso sui dati social Nessun trattamento di dati personali

Le Linee guida ESOMAR sulla raccolta passiva, l’osservazione e la registrazione dei dati riconoscono esplicitamente la legittimità della ricerca basata su dati osservabili pubblicamente, a condizione che rispetti i principi di trasparenza e proporzionalità — entrambi soddisfatti dall’architettura di Rascasse per sua stessa natura.7

Sezione 3

Fonti dei dati

Rascasse raccoglie dati comportamentali provenienti da diverse categorie indipendenti. Ciascuna categoria coglie un aspetto distinto del comportamento digitale e nessuna singola fonte prevale sul risultato finale. Questo approccio multisorgente segue i principi della fusione dei dati descritti da Ipsos MediaCT: combinare flussi di dati indipendenti per produrre stime che nessuna singola fonte potrebbe fornire da sola.8

Categoria Cosa rileviamo Tipo di dati
Comportamento di ricerca Volumi di query, andamenti stagionali, distribuzione regionale Dati sulle intenzioni
Canali social Grafici dei follower, tassi di coinvolgimento, interazione con i contenuti Dati sugli interessi
Video e streaming Numero di visualizzazioni, comportamento delle playlist, iscrizioni ai canali Dati di consumo
Documenti pubblici Indici di ascolto TV, classifiche di vendita, database dei premi, Wikipedia Dati di convalida
Ricerche primarie pubblicate Risultati di sondaggi pubblicati, dati censuari, studi Pew Dati di calibrazione
Dati di localizzazione Database dei punti di interesse (POI), modelli di check-in, dati di localizzazione dei negozi Dati spaziali
Pipeline di dati da più fonti
Acquisizione
Dati grezzi
Normalizzazione
Allineamento tra fonti
Convalida
Controllo incrociato tra più fonti
Risultato
Punti dati e profili del pubblico
Principio

Ogni profilo è costruito a partire da più fonti di dati indipendenti. I dati che non possono essere corroborati da almeno due fonti indipendenti vengono contrassegnati con punteggi di affidabilità ridotti.

Sezione 4

Profilazione dei punti dati

Nel sistema di Rascasse, un punto dati è qualsiasi oggetto culturale, commerciale o sociale discreto che genera un comportamento digitale misurabile. Attualmente il sistema profila oltre 320.000 punti dati suddivisi in cinque tipologie: Marchi, Persone, Eventi, Media e Argomenti.

Costruzione dei punti dati

Ogni punto dati è definito da un insieme curato di parole chiave di ricerca, alias e assegnazioni di categoria. Questa cura è essenziale: la stessa query a livello superficiale può riferirsi a punti dati diversi (ad esempio, "Jaguar" il marchio automobilistico rispetto a "Jaguar" l'animale), e la disambiguazione richiede competenze specifiche nel settore combinate con una validazione algoritmica.

Dimensione del punto dati

La dimensione del punto dati è una metrica normalizzata che combina il volume di ricerca con i dati di coinvolgimento sui social. Fornisce una misura comparabile dell'impronta digitale complessiva di un punto dati, consentendo confronti tra categorie e paesi. La dimensione del punto dati è specifica per tipo: un marchio viene ponderato in modo diverso rispetto a una persona o a un evento, riflettendo i modelli comportamentali distinti generati da ciascun tipo.

Fattore di qualità (QualFactor)

Ogni dato comporta un punteggio QualFactor derivato dalla validazione incrociata tra dati comportamentali basati sulla ricerca e dati basati sul coinvolgimento. Un QualFactor elevato indica modelli coerenti tra fonti indipendenti; un QualFactor basso richiede una revisione manuale o un arricchimento dei dati.

Ambito

La profilazione dei punti dati copre 172 paesi. I nuovi punti dati possono essere integrati in pochi giorni, anziché in mesi: un vantaggio significativo rispetto ai sistemi basati su sondaggi che richiedono la progettazione di nuovi questionari e il lavoro sul campo per ogni aggiunta.

Sezione 5

Costruzione del pubblico

In Rascasse, i segmenti di pubblico vengono creati a partire da punti dati grazie alla selezione effettuata da esperti del settore, non tramite clustering algoritmico. Questa scelta progettuale deliberata garantisce la coerenza semantica: un segmento di pubblico denominato “Appassionati di auto di lusso” viene creato da esperti che comprendono quali marchi, proprietà mediatiche, eventi e influencer definiscono tale segmento.

Pubblici basati su un singolo dato

Il tipo di pubblico più semplice si concentra su un singolo dato. "Fan dell'Juventus" cattura tutti i comportamenti digitali associati all'Juventus: modelli di ricerca, coinvolgimento sui social, consumo di contenuti e affinità con i marchi correlati.

Pubblico a più punti dati

I segmenti di pubblico complessi combinano più punti dati utilizzando combinazioni logiche (AND, OR, NOT). Ad esempio, un segmento di pubblico "Moda sostenibile" potrebbe combinare marchi incentrati sulla sostenibilità, media di moda etica e influencer rilevanti, escludendo al contempo i marchi di fast fashion.

Aggregazione ponderata

Quando si costruiscono segmenti di pubblico multi-punto dati, i singoli punti dati vengono ponderati in base alla rilevanza. Un segmento di pubblico "Appassionati di hip-hop americano" potrebbe attribuire un peso maggiore agli artisti rispetto ai media, riflettendo il modello comportamentale più forte che il coinvolgimento degli artisti offre.

Differenziazione

A differenza dei fornitori basati su sondaggi, in cui i ricercatori devono definire i segmenti di pubblico tramite la logica dei questionari, o degli strumenti di social listening che si basano sulla corrispondenza delle parole chiave nelle conversazioni, i segmenti di pubblico di Rascasse sono creati da esperti del settore che comprendono le relazioni semantiche tra marchi, persone e proprietà. Ciò produce segmenti più sfumati e culturalmente accurati.

Sezione 6

Modellizzazione demografica

I dati demografici non sono direttamente osservabili dai dati di ricerca. Utilizziamo invece un approccio di stima multi-fonte che combina diversi indicatori demografici indipendenti in una stima composita. Ciascun indicatore fornisce un elemento di prova; il profilo demografico finale emerge dalla convergenza di questi input indipendenti.

Indicatore 1
Composizione del pubblico specifica per canale
Ogni canale social presenta distribuzioni demografiche documentate (Pew Research, 2025). TikTok è sbilanciato verso la fascia d'età 18-29 anni, LinkedIn verso l'istruzione superiore, Facebook verso gli over 30. La forza relativa di un dato punto su questi canali ne definisce il profilo demografico.
Indicatore 2
Trasferimento di affinità dell'influencer
Quando un influencer con un profilo di pubblico noto mostra affinità verso un marchio, una parte di tale evidenza demografica viene trasferita tramite l'aggiornamento bayesiano: a priori (profilo del marchio) + verosimiglianza (pubblico dell'influencer) = stima a posteriori.
Indicatore 3
Analisi demografica visiva
La visione artificiale applicata alle immagini dei profili accessibili al pubblico fornisce stime della distribuzione per età e sesso a livello aggregato, seguendo i metodi stabiliti da Rothe, Timofte & Van Gool (2018) e Cesare et al. (2017).
Indicatore 4
Calibrazione della ricerca primaria pubblica
Gli studi pubblicati (Pew, Eurostat, uffici nazionali di statistica), gli indici di ascolto televisivo con distribuzioni di età note, le classifiche di vendita con dati demografici per categoria e le ricerche di mercato disponibili al pubblico fungono da punti di calibrazione basati su dati reali.
Indicatore 5
Fusione bayesiana tramite modelli di ricerca regionali
Le regioni presentano profili demografici noti. Quando un marchio viene cercato in modo sproporzionato nelle città universitarie, ciò suggerisce un pubblico più giovane. L'aggiornamento bayesiano combina i dati a priori nazionali con i modelli di volume di ricerca regionali.

Il quadro bayesiano alla base degli indicatori 2 e 5 segue metodi consolidati nella scienza del marketing, come descritto da Rossi, Allenby e McCulloch (2005)9 e applicato alla modellizzazione del media mix da Google Research (2017).10

La componente di analisi demografica visiva si basa sull'architettura DEX (Deep EXpectation) per la stima dell'età apparente dalle immagini facciali11 e su un lavoro più ampio sul rilevamento demografico basato sull'apprendimento automatico dai social media.12

Le distribuzioni demografiche specifiche per canale sono calibrate sulla base degli studi in corso del Pew Research Center sui modelli di utilizzo dei social media tra i diversi gruppi demografici.13

Avvertenza

Le stime demografiche comportano un'incertezza intrinseca. Riportiamo gli intervalli di confidenza e segnaliamo i punti dati in cui i segnali demografici sono scarsi. Laddove i dati disponibili non sono sufficienti per produrre una stima affidabile, visualizziamo la dicitura “dati insufficienti” anziché valori imputati. Questa trasparenza è fondamentale per la nostra metodologia: preferiamo l’accuratezza alla copertura.

Sezione 7

Affinità e modellizzazione psicografica

Punteggi di affinità

L'affinità misura la forza relativa del legame tra un pubblico e un marchio, una persona o una proprietà. Il valore di riferimento è 1,0, che rappresenta la media di mercato. Un punteggio di affinità superiore a 1,0 indica un interesse superiore alla media; un punteggio inferiore a 1,0 indica un interesse inferiore alla media. Questo approccio basato su indici — comune nella pianificazione mediatica — consente un confronto diretto tra i vari punti dati e i diversi pubblici.

Il calcolo dell'affinità si avvale di tecniche di filtraggio collaborativo e fattorizzazione delle matrici, come descritto da Koren, Bell e Volinsky (2009) nel contesto dei sistemi di raccomandazione.14 L'intuizione fondamentale è che i modelli di co-occorrenza nei dati comportamentali rivelano preferenze latenti che i singoli punti dati non sono in grado di cogliere da soli.

Profilo psicografico (28 tratti)

Rascasse stima 28 tratti psicografici per ciascun pubblico, organizzati attorno a dimensioni quali l’orientamento alla sostenibilità, l’adozione della tecnologia, l’affinità per il lusso, l’attenzione alla salute e l’impegno culturale.

Ogni tratto viene valutato attraverso punti dati indicatori: marchi, persone e proprietà che fungono da forti indicatori di una particolare dimensione psicografica. Ad esempio, il tratto “Sostenibilità” attinge a modelli di coinvolgimento con marchi come Patagonia, media sul cambiamento climatico ed eventi incentrati su tematiche ambientali. Il punteggio del tratto rappresenta quanto un pubblico si collochi al di sopra o al di sotto dell’indice rispetto a questi punti dati indicatori rispetto alla popolazione generale.

Questo approccio si basa sulla ricerca relativa alla previsione dei tratti psicologici a partire dal comportamento digitale2 e sullo Schwartz Values Framework, che fornisce una tassonomia dei valori umani fondata su basi teoriche.15 Boyd et al. (2015) hanno dimostrato che gli orientamenti di valore possono essere dedotti in modo affidabile dai modelli di comportamento digitale.16

Nota metodologica

Tutti i punteggi psicografici sono normalizzati rispetto alla media di mercato. Un pubblico con un punteggio di sostenibilità pari a 1,4 è orientato alla sostenibilità del 40% in più rispetto alla popolazione generale — non è “altamente sostenibile” in termini assoluti. Questo inquadramento relativo impedisce di formulare affermazioni eccessive.

Sezione 8

Location Intelligence

Rascasse fornisce informazioni a livello di località in 172 paesi, oltre 100.000 città e oltre 250.000 codici postali. I dati di localizzazione derivano dalla distribuzione geografica dei comportamenti di ricerca, combinata con l'analisi spaziale dei punti di interesse (POI).

Affinità di localizzazione

L'affinità geografica misura il grado di risonanza di un marchio o di una proprietà in una specifica area geografica rispetto alla media nazionale. Essa combina la distribuzione del volume di ricerca con i modelli di interesse, seguendo la metodologia di analisi regionale descritta per la prima volta da Choi e Varian (2012).1

Database dei punti di interesse (POI)

Il sistema gestisce un database di oltre 8 milioni di punti di interesse provenienti da banche dati geografiche aperte, tra cui sedi di eventi, negozi al dettaglio, istituzioni culturali e impianti sportivi. I POI sono mappati secondo la tassonomia di città e regioni di Rascasse, consentendo un'analisi spaziale che collega il comportamento digitale alla presenza nel mondo fisico.

Rilevamento dei valori anomali

Non tutti i punti di dati geografici sono significativi. Il sistema impiega la convalida dei vicini per distinguere le tendenze locali autentiche dagli artefatti dei dati: una città che mostra un'affinità insolitamente elevata viene convalidata rispetto alle città vicine e ai modelli a livello regionale. I picchi isolati senza conferma a livello regionale vengono segnalati come potenziali artefatti anziché essere riportati come approfondimenti.

Sezione 9

Quota di ricerca

La quota di ricerca misura la percentuale di un marchio sul volume totale delle ricerche relative al marchio all’interno di un gruppo di concorrenti definito. Proposta per la prima volta in modo formale da Les Binet all’IPA EffWorks Global nel 202017, questa metrica è stata da allora convalidata come indicatore affidabile della quota di mercato.

L'IPA Think Tank, guidato da James Hankins, ha analizzato 30 studi in 12 categorie e 7 paesi, rilevando che la quota di ricerca rappresenta circa l'83% della variazione della quota di mercato. È fondamentale sottolineare che le variazioni della quota di ricerca tendono a precedere quelle della quota di mercato effettiva, rendendola un indicatore anticipatore delle dinamiche competitive.

Rascasse Implementazione

Convalida accademica

Share of Search si basa sull'intuizione più ampia di Choi e Varian (2012) secondo cui i volumi delle query di ricerca contengono informazioni predittive sull'attività economica nel mondo reale. Il contributo di Binet è stato quello di formalizzare questo concetto per l'analisi competitiva a livello di marchio, spostandolo dalle previsioni economiche alla strategia di marketing.

Sezione 10

Convalida e limitazioni

Struttura di convalida

Rascasse utilizza diversi meccanismi di convalida per garantire la qualità dei risultati:

Limiti noti

Riteniamo che la trasparenza sulle limitazioni sia essenziale per la credibilità metodologica. Di seguito sono riportati i vincoli noti del nostro approccio:

Divario digitale

I nostri dati riflettono le popolazioni online. I segmenti demografici con scarsa presenza digitale — le popolazioni più anziane nei mercati in via di sviluppo, le comunità con accesso limitato a Internet — potrebbero essere sottorappresentati nei nostri profili. Non effettuiamo estrapolazioni alle popolazioni offline senza un'esplicita avvertenza.

Copertura delle fonti

Non tutte le fonti digitali forniscono lo stesso accesso ai dati. La copertura varia a seconda della fonte e della regione. Nei mercati in cui i servizi dominanti limitano l'accesso ai dati pubblici, la nostra diversità di fonti è ridotta e gli intervalli di confidenza si ampliano di conseguenza.

Stima demografica

I dati demografici sono dedotti, non osservati direttamente. L'affidabilità varia a seconda del tipo di dato e della disponibilità degli stessi. I dati con modelli di coinvolgimento specifici per canale ben definiti forniscono stime demografiche più affidabili rispetto a quelli con una presenza limitata o uniforme sui canali.

Risoluzione temporale

La maggior parte dei dati viene aggiornata mensilmente o trimestralmente, non in tempo reale. Questa scelta è intenzionale: privilegia la stabilità e la validazione rispetto all'immediatezza. Per i casi d'uso che richiedono aggiornamenti in tempo reale, raccomandiamo di integrare i dati di Rascasse con strumenti di monitoraggio specifici per canale.

Per un elenco completo dei riferimenti accademici alla base di questa metodologia, consulti la nostra Bibliografia.