Perché Google mostra contenuti duplicati (e come risolvere)

Ti sarà certamente capitato di osservare pagine di risposta di Google proporre più risultati facenti riferimento allo stesso testo. La copia totale o parziale di un testo lede spesso il copyright editoriale del sito web quando non proprio il diritto d’autore stesso del singolo scrivente.

blockchain e testi copiati

blockchain e testi copiati

Ma come può Google permettere che situazioni simili continuino a verificarsi nel momento stesso in cui il mondo si incanta alle parole di progresso pronunciate dai loro stessi portavoce. Insomma, siamo nell’era dell’intelligenza artificiale, o dell’accattonaggio 2.0? La risposta come sempre è dentro di te, #epperò è sbagliata.

 

Testo copiato, spinnato o riscritto?

Cominciamo col dire che alcune volte troviamo nelle stesse serp due o addirittura più pagine con lo stesso identico testo, altre volte il testo è pure lo stesso, ma nella medesima struttura di proposizioni principali e subordinate alcuni termini vengono sostituiti con sinonimi. In questi casi il testo si dice “spinnato”. La pratica del text  (o article) spinning può essere condotta a mano o più velocemente via software, utilizzando uno dei tanti servizi gratuiti o a pagamento che non linkerò, per ovvi motivi.

Come ultimo caso c’è la pratica di prendere un testo già visibile tra i primi risultati e rielaborarlo completamente, dunque non solo sostituendo termini con sinonimi, ma rimodulandone la forma in modo da ottenere un nuovo testo. Solitamente quest’ultima pratica è quella che ottiene i risultati. migliori su Google, perché se parti da un articolo già ritenuto rilevanti e lo riscrivi, darai in pasto a Google una pagina nuova che comprenderà sicuramente tutti i topic rilevanti per una query di interesse.

Paradossalmente, scrivere un testo del tutto nuovo, anche a partire da conoscenze approfondite, può funzionare peggio rispetto a riscriverne uno già posizionato, perché nel primo caso si corre il rischio di uscire dal seminato e produrre topic che non intercettano ricerche. L’ideale per ottenere un buon posizionamento è sempre tenere insieme una buona conoscenza dell’argomento e un’altrettanto buona conoscenza dei topic rilevanti per una certa query.

 

Quand’è che Google ritiene un testo copiato?

Se hai letto con attenzione il paragrafo precedente avrai certamente intuito che il web, un po’ come il mondo vero è un posto in cui ci si copia a vicenda, spesso rubando idee, citazioni… e interi testi. Ma cosa fa Google per evitare simili situazioni? Spesso niente, diciamolo senza paura. Google utilizza un filtro per capire se due testi sono troppo simili tra loro. In genere chi spinna testi sa bene quale dev’essere la percentuale di termini differenti e quale l’adeguata distribuzione di questi in pagina. Quando però tali parametri non vengono rispettati, dunque due testi risultano di fatto troppo simili per essere entrambi originali, Google dovrebbe determinare quale dei due lo è, penalizzando l’altro.

Bene, questa cosa purtroppo non si può fare sempre, perché ad oggi non esiste un metodo certo per capire chi sia stato il primo a mettere online un certo testo a meno che la copia non sia molto (ma molto) successiva e che l’originale sia stato già abbondantemente masticato da Google. Se dunque copi un testo già ben posizionato da un anno rischi effettivamente una penalizzazione, ma se ne copi uno appena messo online, per Google sarà impossibile capire chi è “nato” prima.

 

Vincere più o meno con merito

Nel caso che riguarda due pagine uguali (o quasi) messe online negli stessi giorni, la data di pubblicazione dichiarata non può essere un metro di attribuzione solido della paternità del testo, ma appunto, nell’impossibilità di capire chi ha copiato chi, Google tenderà a non penalizzare nessuno dei due, tenendoli entrambi nella stessa serp, magari come primo e secondo risultato. Ma chi sarà il primo? Semplice, quello con la SEO migliore, quello con la scansione più frequente, quello con le pagine che si aprono prima, quello con l’architettura più razionale. Ecco tutto questo è profondamente ingiusto, perché ci sono SEO bravi, che sapendo questa cosa vanno avanti per mesi rubando testi e vincendo a mani basse su un motore di ricerca che da parte sua ha le mani legate o forse preferisce averle legate, temo per disinteresse.

 

Una possibile soluzione: la Blockchain

La mia sensazione è che intanto osservando le serp “importanti” si vede chiaramente come Google faccia due pesi e due misure: laddove gli serve essere il motore di ricerca miglioe del mondo, stai certo che funziona tutto bene, ma dove invece le serp si fanno meno competitive per gli inserzionisti, ecco comparire magicamente un florilegio di “doppioni”, con buona pace delle fantomatiche uscite sull’intelligenza artificiale.

Una possibile soluzione per questa situazione che danneggia spesso i piccoli e medi editori, è implementare uno standard riconosciuto da Google (e non solo) per attribuire una data certa a un documento web: la blockchain. Basterebbe “registrare” i contenuti nuovi in questo modo e automatizzare il riconoscimento di questo passaggio da parte di Google per consentirgli di penalizzare TUTTI i contenuti interamente o parzialmente duplicati.

Ogni anno Google lancia un update che ci fa piombare nell’oscurità più nera per mesi, quando per pulire in modo significativo le serp da una montagna di spazzatura copiata, basterebbe implementare questo tipo di passaggio a livello algoritmico.

Questione di volontà e interessi.

 

 

Rispondi all'articolo

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *


The reCAPTCHA verification period has expired. Please reload the page.