Come escludere i contenuti di WordPress da Ricerca Google

Come escludere contenuti e file WordPress da Ricerca Google

A volte è necessario escludere contenuti o file specifici di WordPress dall’indicizzazione nei risultati di ricerca di Google. Indicizzare, o “indicizzare” prima dell’emergere di Google e di altri motori di ricerca, era una parola per lo più associata ai libri. Di solito risiede sul retro della maggior parte dei libri, ed è per questo che il dizionario di Cambridge lo definisce in questo contesto come:


Indice: un elenco alfabetico, come quello stampato sul retro di un libro che mostra su quale pagina si trova un soggetto, un nome, ecc.

Passiamo rapidamente al 1995, durante il boom di Internet, abbiamo servizi come il motore di ricerca di Yahoo, e dal 1997 la ricerca di Google ha cambiato radicalmente il modo in cui cerchiamo e accediamo alle informazioni su Internet.

Secondo un sondaggio condotto a gennaio 2018, ci sono 1.805.260.010 (oltre 1,8 miliardi) siti Web su Internet e molti di questi siti Web non ottengono visitatori.

Che cos’è l’indicizzazione di Google?

Esistono diversi motori di ricerca con un diverso formato di indicizzazione, ma i popolari motori di ricerca includono, Google, Bing e per le persone attente alla privacy, duckduckgo.

L’indicizzazione di Google si riferisce generalmente al processo di aggiunta di nuove pagine Web, inclusi contenuti digitali come documenti, video e immagini, e la loro memorizzazione nel suo database. In altre parole, affinché i contenuti del tuo sito vengano visualizzati nei risultati di ricerca di Google, devono prima essere archiviati nell’indice di Google.

Che cos'è l'indicizzazione di Google?

Google è in grado di indicizzare tutte queste pagine e contenuti digitali utilizzando i suoi ragni, crawler o robot che eseguono la scansione ripetuta di diversi siti Web su Internet. Questi bot e crawler seguono le istruzioni dei proprietari del sito Web su cosa eseguire la scansione e cosa devono essere ignorati durante la scansione.

Perché i siti Web devono essere indicizzati?

In questa era dell’era digitale, è quasi impossibile navigare attraverso miliardi di siti Web alla ricerca di un determinato argomento e contenuto. Sarà molto più semplice se esiste uno strumento per mostrarci quali siti sono affidabili, quali contenuti sono utili e pertinenti per noi. Ecco perché Google esiste e classifica i siti Web nei risultati di ricerca.

L’indicizzazione diventa una parte indispensabile del funzionamento dei motori di ricerca in generale e di Google in particolare. Aiuta a identificare parole ed espressioni che descrivono meglio una pagina e contribuisce in generale al posizionamento di pagine e siti Web. Per apparire sulla prima pagina di Google il tuo sito Web, comprese le pagine Web e i file digitali come video, immagini e documenti, devono prima essere indicizzati.

L’indicizzazione è un passaggio preliminare per i siti Web per classificare bene sui motori di ricerca in generale e Google in particolare. Utilizzando le parole chiave, i siti possono essere visti e scoperti meglio dopo essere stati indicizzati e classificati dai motori di ricerca. Questo apre quindi le porte a più visitatori, abbonati e potenziali clienti per il tuo sito Web e la tua attività.

Il posto migliore per nascondere un cadavere è la seconda pagina di Google.

Sebbene avere molte pagine indicizzate non aumenti automaticamente il posizionamento dei tuoi siti, se anche il contenuto di tali pagine è di alta qualità puoi ottenere un impulso in termini di SEO.

Perché e come bloccare il motore di ricerca dall’indicizzazione dei contenuti

Mentre l’indicizzazione è ottima per i proprietari di siti Web e aziende, ci sono pagine che potresti non voler mostrare nei risultati di ricerca. potresti rischiare di esporre anche file e contenuti sensibili su Internet. Senza password o autenticazione, i contenuti privati ​​sono a rischio di esposizione e accesso non autorizzato se i bot vengono dati gratuitamente alle cartelle e ai file del tuo sito Web.

All’inizio degli anni 2000, gli hacker utilizzato la ricerca di Google per visualizzare i dati della carta di credito da siti Web con semplici query di ricerca. Questo difetto di sicurezza è stato utilizzato da molti hacker per rubare informazioni sulle carte dai siti Web di e-commerce.

Un altro recente falla di sicurezza avvenuta l’anno scorso su box.com, un popolare sistema di archiviazione cloud. La falla nella sicurezza è stata scoperta da Markus Neis, responsabile delle informazioni sulle minacce di Swisscom. Ha riferito che semplici exploit dei motori di ricerca tra cui Google e Bing potrebbero esporre file e informazioni confidenziali di molte aziende e singoli clienti.

Casi come questi si verificano online e possono causare una perdita di vendite e ricavi per i proprietari di attività. Per i siti Web aziendali, di e-commerce e di appartenenza, è di fondamentale importanza innanzitutto bloccare l’indicizzazione della ricerca di contenuti riservati e file privati ​​e quindi probabilmente metterli dietro un sistema di autenticazione utente decente.

Diamo un’occhiata a come puoi controllare quali contenuti e file possono essere sottoposti a scansione e indicizzati da Google e altri motori di ricerca.

1. Utilizzo di Robots.txt per le immagini

Robots.txt è un file che si trova nella radice del tuo sito e fornisce a Google, Bing e altri robot dei motori di ricerca istruzioni su cosa scansionare e cosa no. Mentre robots.txt viene solitamente utilizzato per controllare il traffico di scansione e i crawler Web (mobile vs desktop), potrebbe anche essere utilizzato per impedire la visualizzazione delle immagini nei risultati di ricerca di Google.

Un file robots.txt dei normali siti Web WordPress sarebbe simile al seguente:

Agente utente: *
Non consentire: / wp-admin /
Non consentire: / wp-Includes /

Il file robots.txt standard inizia con un’istruzione per user-agent e un simbolo di asterisco. L’asterisco è un’istruzione per tutti i robot che arrivano sul sito Web a seguire tutte le istruzioni fornite di seguito.

Tieni i robot lontano da file digitali specifici usando Robot.txt

Robots.txt può anche essere utilizzato per interrompere la ricerca per indicizzazione dei file digitali come PDF, JPEG o MP4 nei motori di ricerca. Per bloccare la ricerca per indicizzazione di file PDF e JPEG, questo dovrebbe essere aggiunto al file robots.txt:

File PDF

Agente utente: *
Non consentire: / pdfs / # Blocca la directory / pdfs /.
Non consentire: * .pdf $ # Blocca i file pdf da tutti i bot. Anche se non standard, funziona per i principali motori di ricerca.

immagini

User-agent: Googlebot-Image
Non consentire: /images/cats.jpg #Block cats.jpg immagine specifica per Googlebot.

Nel caso in cui si desideri bloccare l’indicizzazione e la visualizzazione di tutte le immagini .GIF sulla ricerca di immagini di Google, pur consentendo altri formati di immagine come JPEG e PNG, è necessario utilizzare le seguenti regole:

User-agent: Googlebot-Image
Non consentire: /*.gif$

Importante: I frammenti di cui sopra escluderanno semplicemente che i tuoi contenuti vengano indicizzati da siti di terze parti come Google. Sono ancora accessibili se qualcuno sa dove cercare. Per rendere i file privati ​​in modo che nessuno possa accedervi, è necessario utilizzare un altro metodo, come questi plugin di restrizione del contenuto.

Googlebot-Image può essere utilizzato per bloccare la visualizzazione di immagini e una particolare estensione di immagini nella ricerca di immagini di Google. Nel caso in cui desideri escluderli da tutte le ricerche di Google, ad es. ricerca web e immagini, si consiglia invece di utilizzare un agente utente di Googlebot.

Altri agenti utente di Google per elementi diversi su un sito Web includono Googlebot-Video per i video da applicare nella sezione video di Google sul Web. Allo stesso modo, l’utilizzo dell’agente utente di Googlebot bloccherà la visualizzazione di tutti i video nei video di Google, nella ricerca Web o nella ricerca Web mobile.

Robot txt No-Index

Tieni presente che l’utilizzo di Robots.txt non è un metodo appropriato per bloccare file e contenuti sensibili o riservati a causa delle seguenti limitazioni:

  • Robots.txt può solo istruire i crawler ben educati; altri motori di ricerca e robot non conformi potrebbero semplicemente ignorare le sue istruzioni.
  • Robots.txt non impedisce al server di inviare tali pagine e file a utenti non autorizzati su richiesta.
  • I motori di ricerca potrebbero comunque trovare e indicizzare la pagina e i contenuti che blocchi nel caso in cui siano collegati da altri siti Web e fonti.
  • Robots.txt è accessibile a chiunque possa quindi leggere tutte le istruzioni fornite e accedere direttamente a tali contenuti e file

Per bloccare l’indicizzazione della ricerca e proteggere le tue informazioni private in modo più efficace, utilizza invece i seguenti metodi.

2. Utilizzo di meta tag senza indice per le pagine

L’uso del metatag no-index è un metodo corretto ed efficace per bloccare l’indicizzazione della ricerca di contenuti sensibili sul tuo sito web. A differenza di robots.txt, il meta tag no-index viene inserito in sezione di una pagina web con un tag HTML molto semplice:



...

Qualsiasi pagina con queste istruzioni nell’intestazione non verrà visualizzata nei risultati di ricerca di Google. Altre direttive come nofollow e notranslate può anche essere usato per dire ai web crawler di non eseguire la scansione dei collegamenti e offre rispettivamente la traduzione di quella pagina.

Puoi istruire più crawler utilizzando più metatag su una pagina come segue:



...


Esistono due modi per aggiungere questo codice al tuo sito web. La tua prima opzione è quella di creare un tema figlio di WordPress, quindi nelle tue funzioni.php puoi utilizzare l’hook dell’azione wp_head di WordPress per inserire un noindex o qualsiasi altro meta tag. Di seguito è riportato un esempio di come non indicheresti la tua pagina di accesso.

add_action ('wp_head', function () {
if (is_page ('login')) {
eco '';
}
});

La tua seconda opzione è quella di utilizzare il tuo plugin SEO per controllare la visibilità di una pagina. Ad esempio, con Yoast SEO puoi andare alla sezione delle impostazioni avanzate di una pagina e semplicemente scegliere “No” per le opzioni che consentono al motore di ricerca di mostrare la pagina:

Yoast Impostazione dei risultati di ricerca SEO

3. Utilizzo dell’intestazione HTTP X-Robots-Tag per altri file

Il tag X-Robots ti offre maggiore flessibilità per bloccare l’indicizzazione della ricerca di contenuti e file. In particolare, se confrontato con il meta tag no-index, può essere utilizzato come risposta dell’intestazione HTTP per qualsiasi URL specificato. Ad esempio, puoi utilizzare l’X-Robots-Tag per file di immagini, video e documenti in cui non è possibile utilizzare i meta tag robot.

Puoi leggere Guida completa ai meta tag dei robot di Google, ma ecco come puoi istruire i crawler a non seguire e indicizzare un’immagine JPEG usando l’X-Robots-Tag sulla sua risposta HTTP:

HTTP / 1.1 200 OK
Tipo di contenuto: image / jpeg
Data: sab, 27 nov 2018 01:02:09 GMT
(...)
Tag X-Robots: noindex, nofollow
(...)

Eventuali direttive che potrebbero essere utilizzate con un meta tag robot sono applicabili anche a un tag X-robot. Allo stesso modo, puoi anche istruire più robot dei motori di ricerca:

HTTP / 1.1 200 OK
Data: mar, 21 set 2018 21:09:19 GMT
(...)
Tag X-Robots: googlebot: nofollow
Tag X-Robots: bingbot: noindex
Tag X-Robot: otherbot: noindex, nofollow
(...)

È importante notare che i robot dei motori di ricerca scoprono i meta tag Robots e le intestazioni HTTP X-Robots-Tag durante il processo di scansione. Quindi, se vuoi che questi robot seguano le tue istruzioni per non seguire o indicizzare contenuti e documenti riservati, non devi fermare la scansione di questi URL di pagine e file.

Se viene bloccato la scansione tramite il file robots.txt, le tue istruzioni sull’indicizzazione non verranno lette e quindi ignorate. Di conseguenza, nel caso in cui altri siti Web rimandino a contenuti e documenti, verranno comunque indicizzati da Google e da altri motori di ricerca.

4. Utilizzo delle regole .htaccess per i server Apache

Puoi anche aggiungere l’intestazione HTTP X-Robots-Tag al tuo file .htaccess per bloccare i crawler dalle pagine di indicizzazione e dai contenuti digitali del tuo sito Web ospitati su un server Apache. A differenza dei meta tag senza indice, le regole .htaccess possono essere applicate a un intero sito Web o a una cartella particolare. Il supporto delle espressioni regolari offre una flessibilità ancora maggiore per indirizzare più tipi di file contemporaneamente.

Per impedire a Googlebot, Bing e Baidu di eseguire la scansione di un sito Web o di una directory speciale, utilizzare le seguenti regole:

RewriteEngine On
RewriteCond% {HTTP_USER_AGENT} (googlebot | bingbot | Baiduspider) [NC]
RewriteRule. * - [R = 403, L]

Per bloccare l’indicizzazione della ricerca di tutti i file .txt, .jpg, .jpeg, .pdf nell’intero sito Web, aggiungi il seguente frammento:


Set di intestazioni X-Robots-Tag "noindex, nofollow"

5. Utilizzo dell’autenticazione della pagina con nome utente e password

I metodi sopra indicati impediranno la visualizzazione dei tuoi contenuti e documenti privati ​​nei risultati di ricerca di Google. Tuttavia, tutti gli utenti con il link possono raggiungere i tuoi contenuti e accedere direttamente ai tuoi file. Per motivi di sicurezza, si consiglia vivamente di impostare l’autenticazione corretta con nome utente e password, nonché l’autorizzazione all’accesso al ruolo.

Utilizzo dell'autenticazione della pagina

Ad esempio, le pagine che includono profili personali del personale e documenti sensibili a cui non possono accedere utenti anonimi devono essere inserite dietro un gate di autenticazione. Pertanto, anche quando gli utenti riescono in qualche modo a trovare le pagine, verranno loro richieste le credenziali prima di poter controllare il contenuto.

WordPress Password Protect

Per fare ciò con WordPress è sufficiente impostare la visibilità di un post su protetto da password. In questo modo è possibile selezionare una password richiesta per visualizzare il contenuto in quella pagina. Questo è abbastanza facile da fare per post / pagina. Per una privacy del sito più completa, prova ad aggiungere uno di questi plugin di iscrizione WordPress al tuo sito web.

Tieni presente che le pagine protette da password o nascoste dai motori di ricerca e dai visitatori non proteggono necessariamente i documenti, i video e le immagini allegati al suo contenuto. Per una vera protezione dei tuoi caricamenti di file WordPress, un servizio premium come Prevent Direct Access Gold è altamente raccomandato.

Conclusione

Nella gara per essere alla pagina uno di Google, i proprietari di attività commerciali potrebbero non prendere in considerazione ciò che i motori di ricerca possono vedere. Che tu stia bloccando i bot da un file specifico, nascondi una pagina di accesso personalizzata o protegga con password le directory degli utenti privati ​​… ci sono molte pagine da considerare senza indicizzazione quando si tratta di motori di ricerca.

Hai domande sull’esclusione dei contenuti dai risultati di ricerca? O impedire a determinati file di essere indicizzati? Lascia un commento qui sotto!

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me