Il Peso delle Parole: TF-IDF
Galdor (osservando il giovane mercante con attenzione): «Non si tratta solo di farsi trovare, giovane amico. Oggi i motori di ricerca non contano più le parole come monete. Cercano di comprenderle. Ma per capire questo cambiamento, devi conoscere prima un antico principio: il TF-IDF.»
Giovane (sporgendosi avanti incuriosito): «Cos’è esattamente?»
Galdor: «TF significa Term Frequency — è la frequenza con cui un termine compare in un testo. Se una parola ricorre più volte, il documento dichiara apertamente che quel concetto è centrale.»
Giovane: «Quindi, se parlo spesso di biscotti con frutta fresca, Google capisce che è un argomento importante per la mia pagina?»
Galdor: «Sì, ma oggi questo non basta più. Esiste una seconda forza: IDF — Inverse Document Frequency. Essa misura quanto un termine è raro rispetto all’insieme degli altri testi che parlano dello stesso argomento. Una parola che tutti usano perde valore. Una parola rara, ma pertinente, lo acquista.»
Giovane: «Quindi usare una keyword come “biscotti senza glutine con mandorle” mi aiuta perché è più specifica?»
Galdor: «Ti aiuta non perché è ripetuta, ma perché è chiara. Oggi la chiarezza conta più della frequenza.»
Galdor (abbassando la voce): «Oggi Google non legge come faceva un tempo, pesando solo le parole, ma piuttosto le relazioni tra esse. Con modelli come BERT e altre intelligenze linguistiche, il motore cerca di comprendere contesto, intento e significato profondo tra le frasi. Il TF-IDF non governa più il giudizio, ma ne è diventato un’ombra: un riflesso matematico di una buona scrittura.»
Giovane: «Non devo scrivere per l’algoritmo, ma in modo che l’algoritmo capisca che scrivo per le persone.»
Il TF-IDF è la base matematica su cui si sono costruiti i moderni algoritmi di comprensione del linguaggio. BM25 — la variante moderna del TF-IDF usata da molti motori di ricerca — è ancora alla base del sistema di recupero documenti di Google, anche se affiancato da sistemi neurali.
Con l'introduzione di BERT, il TF-IDF classico ha perso importanza come fattore diretto: BERT analizza il contesto bidirezionale delle parole, comprendendo il significato in base alle parole circostanti, non solo alla frequenza.
Rilevanza per AI Search
- Google AI Overview: i sistemi neurali hanno superato il TF-IDF classico, ma il concetto di equilibrio semantico rimane rilevante. Contenuti con linguaggio naturale, vario e pertinente sono preferiti ai contenuti con keyword stuffing.
- Perplexity / ChatGPT Search: i Large Language Model non usano TF-IDF direttamente, ma i contenuti con alta densità semantica (buon bilanciamento TF-IDF) tendono ad essere più informativi e quindi più citabili.
- GEO: scrivere con equilibrio semantico — senza ripetere ossessivamente le stesse parole, ma coprendo il tema con varietà lessicale — è il modo più efficace per essere compresi e citati dai modelli generativi.
Il rapporto TF-IDF combina due elementi:
- TF (Term Frequency): la frequenza con cui una parola appare in un documento. Più una parola appare in un testo, maggiore sarà il suo peso TF in quel documento.
- IDF (Inverse Document Frequency): misura la rarità di una parola all'interno di un corpus di documenti. Una parola comune che appare in molti documenti avrà un IDF basso; se rara e presente in pochi documenti, il suo IDF sarà alto.
Un termine con TF elevato e IDF elevato risulta semanticamente caratterizzante per quel contenuto.
Il rapporto TF-IDF non costituisce un fattore diretto di ranking, ma aiuta a valutare la qualità linguistica e la pertinenza tematica dei contenuti. Ha alta rilevanza come strumento di analisi semantica.
Il corpus rappresenta l'insieme dei documenti utilizzati come riferimento per valutare la rilevanza di un termine. Nel modello classico: un termine frequente nel documento (alto TF) ma raro nel corpus (alto IDF) risulta semanticamente caratterizzante.
Esempio concreto: in un testo di 100 parole, "biscotti" appare 5 volte → TF = 5%. Se "biscotti" compare in 1 sito su 1.000 del corpus → IDF alto → peso TF-IDF elevato: la parola è centrale e rara, quindi caratterizzante per quel documento.
| Termine | TF | IDF | Peso TF-IDF | Significato |
|---|---|---|---|---|
| "biscotti" (generico) | Alto | Basso | Basso | Parola comune, poco caratterizzante |
| "biscotti senza glutine" (specifico) | Medio | Medio | Medio | Più caratterizzante del generico |
| "biscotti al grano saraceno con miele di castagno" (long tail) | Basso | Alto | Alto | Altamente caratterizzante |
Amar Amoretti lavora su internet — un posto vasto, complicato e pieno di cose che probabilmente ti stai perdendo. Ha realizzato yaoki.academy con l'obiettivo dichiarato di rendere la SEO/GEO o come diavolo volete chiamarla comprensibile agli esseri umani. Questo è considerato da molti un atto di ottimismo cosmico.