Regola16

Il Peso delle Parole: TF-IDF

Rapporto TF-IDF TF-IDF Correlation
SEO A UX M AI M

Il TF-IDF è la base matematica su cui si sono costruiti i moderni algoritmi di comprensione del linguaggio. BM25 — la variante moderna del TF-IDF usata da molti motori di ricerca — è ancora alla base del sistema di recupero documenti di Google, anche se affiancato da sistemi neurali.

Con l'introduzione di BERT, il TF-IDF classico ha perso importanza come fattore diretto: BERT analizza il contesto bidirezionale delle parole, comprendendo il significato in base alle parole circostanti, non solo alla frequenza.

Rilevanza per AI Search

  • Google AI Overview: i sistemi neurali hanno superato il TF-IDF classico, ma il concetto di equilibrio semantico rimane rilevante. Contenuti con linguaggio naturale, vario e pertinente sono preferiti ai contenuti con keyword stuffing.
  • Perplexity / ChatGPT Search: i Large Language Model non usano TF-IDF direttamente, ma i contenuti con alta densità semantica (buon bilanciamento TF-IDF) tendono ad essere più informativi e quindi più citabili.
  • GEO: scrivere con equilibrio semantico — senza ripetere ossessivamente le stesse parole, ma coprendo il tema con varietà lessicale — è il modo più efficace per essere compresi e citati dai modelli generativi.

Il rapporto TF-IDF combina due elementi:

  • TF (Term Frequency): la frequenza con cui una parola appare in un documento. Più una parola appare in un testo, maggiore sarà il suo peso TF in quel documento.
  • IDF (Inverse Document Frequency): misura la rarità di una parola all'interno di un corpus di documenti. Una parola comune che appare in molti documenti avrà un IDF basso; se rara e presente in pochi documenti, il suo IDF sarà alto.

Un termine con TF elevato e IDF elevato risulta semanticamente caratterizzante per quel contenuto.

Il rapporto TF-IDF non costituisce un fattore diretto di ranking, ma aiuta a valutare la qualità linguistica e la pertinenza tematica dei contenuti. Ha alta rilevanza come strumento di analisi semantica.

Il corpus rappresenta l'insieme dei documenti utilizzati come riferimento per valutare la rilevanza di un termine. Nel modello classico: un termine frequente nel documento (alto TF) ma raro nel corpus (alto IDF) risulta semanticamente caratterizzante.

Esempio concreto: in un testo di 100 parole, "biscotti" appare 5 volte → TF = 5%. Se "biscotti" compare in 1 sito su 1.000 del corpus → IDF alto → peso TF-IDF elevato: la parola è centrale e rara, quindi caratterizzante per quel documento.

TermineTFIDFPeso TF-IDFSignificato
"biscotti" (generico)AltoBassoBassoParola comune, poco caratterizzante
"biscotti senza glutine" (specifico)MedioMedioMedioPiù caratterizzante del generico
"biscotti al grano saraceno con miele di castagno" (long tail)BassoAltoAltoAltamente caratterizzante
logo Yaoki
Amar Amoretti SEO Strategist & Dev

Amar Amoretti lavora su internet — un posto vasto, complicato e pieno di cose che probabilmente ti stai perdendo. Ha realizzato yaoki.academy con l'obiettivo dichiarato di rendere la SEO/GEO o come diavolo volete chiamarla comprensibile agli esseri umani. Questo è considerato da molti un atto di ottimismo cosmico.