Kako izuzeti WordPress sadržaj iz Google pretraživanja

Kako izuzeti sadržaj i datoteke WordPressa iz Google pretraživanja

Ponekad morate isključiti određeni WordPress sadržaj ili datoteke iz indeksiranja u rezultatima Google pretraživanja. Index ili „indeksiranje“ prije pojave Googlea i drugih pretraživača bila je riječ uglavnom povezana s knjigama. Obično se nalazi na začelju većine knjiga i zato je Cambridge rječnik u ovom kontekstu definirao kao:


Indeks: abecedni popis, kao što je jedan tiskan na poleđini knjige koji pokazuje na kojoj je stranici predmet, ime itd.

Naprijed prema 1995., tijekom internetskog procvata, imamo usluge poput Yahoo tražilice, a 1997. Google pretraga dramatično je promijenila način na koji pretražujemo i pristupamo informacijama na internetu.

Prema istraživanju provedenom u siječnju 2018., na internetu postoji 1.805.260.010 (preko 1,8 milijardi) web stranica, a mnoge od tih web stranica uopće ne posjećuju posjetitelje.

Što je Google indeksiranje?

Postoje različite tražilice s različitim formatom indeksiranja, ali popularne tražilice uključuju Google, Bing i za pojedince koji misle privatnost, duckduckgo.

Google indeksiranje uglavnom se odnosi na proces dodavanja novih web stranica, uključujući digitalni sadržaj kao što su dokumenti, videozapisi i slike, te njihovo spremanje u svoju bazu podataka. Drugim riječima, da bi se sadržaj vaše web stranice prikazao u rezultatima Google pretraživanja, prvo ih je potrebno pohraniti u Google indeks.

Što je Google indeksiranje?

Google je u mogućnosti indeksirati sve te digitalne stranice i sadržaj koristeći svoje paukove, indekse ili botove koji opetovano pretraživaju različite web stranice na Internetu. Ovi robota i indeksi koji se pridržavaju uputa vlasnika web stranica o tome kako indeksirati i što treba zanemariti tijekom indeksiranja..

Zašto web stranice treba indeksirati?

U ovom dobu digitalnog doba gotovo je nemoguće kretati se milijardama web stranica koje pronalaze određenu temu i sadržaj. Bit će mnogo lakše ako postoji alat koji će nam pokazati koja su web mjesta pouzdana, koji nam je sadržaj koristan i relevantan. Zbog toga Google postoji i rangira web stranice u svoje rezultate pretraživanja.

Indeksiranje postaje neizostavan dio funkcioniranja pretraživača općenito i posebno Googlea. Pomaže u prepoznavanju riječi i izraza koji najbolje opisuju stranicu i u cjelini pridonosi rangiranju stranica i web stranica. Da biste se pojavili na prvoj stranici Googleove web stranice, uključujući web stranice i digitalne datoteke kao što su videozapisi, slike i dokumenti, prvo je potrebno indeksirati.

Indeksiranje je preduvjet korak da se web stranice dobro rangiraju na tražilicama općenito, a posebno Google. Korištenjem ključnih riječi web stranice se mogu bolje vidjeti i otkriti nakon što ih indeksiraju i rangiraju tražilice. To otvara vrata za više posjetitelja, pretplatnika i potencijalnih kupaca za vaše web mjesto i poslovanje.

Najbolje mjesto za skrivanje mrtvog tijela je druga stranica Googlea.

Iako posjedovanje puno indeksiranih stranica ne čini automatski da vaše web stranice rangiraju više, ako je i sadržaj tih stranica kvalitetan, možete poboljšati SEO.

Zašto i kako blokirati pretraživač od indeksiranja sadržaja

Iako je indeksiranje sjajno za vlasnike web stranica i tvrtki, postoje stranice koje se možda ne žele prikazati u rezultatima pretraživanja. mogli biste i izložiti osjetljive datoteke i sadržaje putem Interneta. Bez zaporki ili provjere autentičnosti, privatni sadržaj prijeti izloženosti i neovlaštenom pristupu ako se botovima besplatno priklope mape i datoteke vašeg web mjesta.

Početkom 2000-ih, hakeri Google pretraživanje koristi za prikaz podataka o kreditnoj kartici s web stranica s jednostavnim upitima za pretraživanje. Mnogi su hakeri iskoristili ovu sigurnosnu grešku za krađu podataka o karticama s web stranica e-trgovine.

Još jedna nedavna propust u sigurnosti dogodio se prošle godine na box.com, popularan sustav za pohranu u oblaku. Sigurnosnu rupu izložio je Markus Neis, menadžer za obavještavanje prijetnji za Swisscom. Izvijestio je da bi jednostavno iskorištavanje tražilica, uključujući Google i Bing, moglo izložiti povjerljive datoteke i podatke mnogih poslovnih i pojedinačnih kupaca.

Slučajevi poput ovih događaju se na mreži i mogu uzrokovati gubitak od prodaje i prihoda vlasnicima tvrtki. Za web stranice korporacije, e-trgovinu i članstvo od presudne je važnosti da prvo blokiraju indeksiranje osjetljivog sadržaja i privatnih datoteka pretraživanja, a zatim ih stave iza pristojnog sustava provjere autentičnosti korisnika..

Pogledajmo kako možete kontrolirati koji sadržaj i datoteke mogu pretraživati ​​i indeksirati Google i druge tražilice.

1. Korištenje Robots.txt za slike

Robots.txt je datoteka koja se nalazi u korijenu vaše web stranice, a Google, Bing i drugi pretraživači nude upute o tome kako indeksirati, a što ne. Iako se robots.txt obično koristi za kontrolu prometa indeksiranja i indeksiranja pretraživača i web (mobilnih vs desktop), on se također može koristiti za sprečavanje pojavljivanja slika u rezultatima Google pretraživanja.

Datoteka robots.txt na normalnim WordPress web-lokacijama izgledala bi ovako:

Korisnički agent: *
Onemogući: / wp-admin /
Onemogući: / wp-include /

Standardna datoteka robots.txt započinje s uputama za korisnički agent i simbolom zvjezdice. Zvezdica je upute za sve botove koji stignu na web mjesto da slijede sve upute pod njim.

Držite Botove dalje od određenih digitalnih datoteka pomoću Robot.txt

Robots.txt se također može koristiti za zaustavljanje pretraživanja digitalnih datoteka kao što su PDF, JPEG ili MP4 u tražilici. Da biste blokirali indeksiranje PDF i JPEG datoteke pretraživanja, ovo treba dodati u datoteku robots.txt:

PDF datoteke

Korisnički agent: *
Onemogući: / pdfs / # Blokiraj / pdfs / direktorij.
Onemogući: * .pdf $ # Blokiraj pdf datoteke iz svih botova. Iako nestandardno, djeluje za glavne tražilice.

slike

Korisnički agent: Googlebot-Image
Onemogući: /images/cats.jpg #Block cats.jpg sliku posebno za Googlebot.

U slučaju da želite onemogućiti da se sve .GIF slike indeksiraju i prikazuju u pretraživanju Google slike, a istovremeno dopuštate druge formate slika, kao što su JPEG i PNG, koristite sljedeća pravila:

Korisnički agent: Googlebot-Image
Onemogući: /*.gif$

Važno: Gornji isječci jednostavno će isključiti vaš sadržaj iz indeksiranja web lokacija trećih strana, poput Googlea. Još su uvijek dostupni ako netko zna gdje potražiti. Da biste datoteke učinili privatnima tako da im nitko ne može pristupiti, trebate koristiti drugu metodu, poput ovih dodataka za ograničavanje sadržaja.

Googlebot-Slika može se koristiti za blokiranje pojavljivanja slika i određenog proširenja slike u Google pretraživanju slika. U slučaju da ih želite isključiti iz svih Google pretraživanja, npr. internetsko pretraživanje i slike, preporučljivo je umjesto toga koristiti korisnički agent Googlebot.

Ostali Googleovi korisnički agenti za različite elemente na web mjestu uključuju Googlebot-Video za videozapise koji se primjenjuju u odjeljku Google videozapisi na webu. Slično tome, upotreba korisničkog agenta Googlebot blokirat će prikazivanje svih videozapisa u google videozapisima, pretraživanju weba ili pretraživanju putem interneta.

Roboti txt No-Index

Imajte na umu da uporaba Robots.txt nije prikladna metoda za blokiranje osjetljivih ili povjerljivih datoteka i sadržaja zbog sljedećih ograničenja:

  • Robots.txt može poučavati samo dobro rođene aglere; ostale neskladne tražilice i roboti jednostavno mogu ignorirati njegove upute.
  • Robots.txt ne sprečava vaš poslužitelj da na zahtjev pošalje te stranice i datoteke neovlaštenim korisnicima.
  • Tražilice još uvijek mogu pronaći i indeksirati stranicu i sadržaj koji blokirate u slučaju da su povezani s drugih web lokacija i izvora.
  • Robots.txt dostupan je svima koji su tada mogli pročitati sve date upute i izravno pristupiti tim sadržajima i datotekama

Da biste blokirali indeksiranje pretraživanja i učinkovitije zaštitili svoje privatne podatke, umjesto toga koristite sljedeće metode.

2. Korištenje meta oznake za stranice bez indeksa

Upotreba metaoznake bez indeksa pravilan je i učinkovitiji način blokiranja indeksiranja osjetljivog sadržaja na pretraživačkoj mreži. Za razliku od robots.txt, metaoznaka bez indeksa nalazi se u odjeljak web stranice s vrlo jednostavnom HTML oznakom:



...

Nijedna stranica s uputama u zaglavlju neće se pojaviti u rezultatima Google pretraživanja. Druge direktive poput nofollow i notranslate mogu se upotrijebiti i recite web alatima za indeksiranje da ne indeksiraju veze i nudi prijevod te stranice.

Možete uputiti više alata za indeksiranje pomoću više metaoznaka na stranici na sljedeći način:



...


Postoje dva načina dodavanja ovog koda na vaše web mjesto. Vaša prva opcija je kreiranje podređene teme WordPress-a, a zatim u svojim function.php možete koristiti akcijsku kuku WordPress wp_head da biste umetnuli noindex ili bilo koje druge metaoznake. Ispod je primjer kako noindex možete dodati na svoju stranicu za prijavu.

dodavanje ('wp_head', funkcija () {
if (is_page ('prijava')) {
jeka '„;
}
});

Vaša je druga mogućnost upotreba vašeg SEO dodatka za kontrolu vidljivosti stranice. Na primjer, s Yoast SEO možete otići na odjeljak naprednih postavki na stranici i jednostavno odabrati “Ne” za opcije kako bi pretraživač mogao prikazati stranicu:

Postavka rezultata pretraživanja za Yoast

3. Korištenje X-Robots-Tag HTTP zaglavlja za ostale datoteke

X-Robots-Tag daje vam veću fleksibilnost za blokiranje indeksiranja vašeg sadržaja i datoteka. Konkretno, u usporedbi s metaoznakom bez indeksa, ona se može koristiti kao odgovor HTTP zaglavlja za bilo koji dati URL. Na primjer, možete koristiti X-Robots-Tag za datoteke slika, video i dokumenata gdje nije moguće koristiti metaoznake robota.

Možeš čitati Googleov potpuni vodič za meta oznake robota, ali evo kako možete uputiti alatima za indeksiranje da ne slijede i indeksiraju JPEG sliku koristeći X-Robots-Tag u HTTP odgovoru:

HTTP / 1.1 200 OK
Vrsta sadržaja: image / jpeg
Datum: Sat, 27. studeni 2018 01:02:09 GMT
(...)
X-roboti-oznaka: noindex, nofollow
(...)

Sve naredbe koje se mogu upotrijebiti s metaoznakom robota primjenjive su i na X-Robots-Tag. Slično tome, možete uputiti i više botova tražilice:

HTTP / 1.1 200 OK
Datum: Utorak, 21. rujna 2018. 21:09:19 GMT
(...)
X-Robots-oznaka: googlebot: nofollow
X-roboti-oznaka: bingbot: noindex
X-Robots-Tag: otherbot: noindex, nofollow
(...)

Važno je napomenuti da botovi pretraživača otkrivaju metaoznake Robots i HTTP zaglavlja X-Robots-Tag tijekom postupka indeksiranja. Dakle, ako želite da ovi roboti slijede vaše upute da ne slijede ili ne indeksiraju bilo koji povjerljivi sadržaj i dokumente, ne smijete zaustaviti indeksiranje ovih URL-ova stranice i datoteke.

Ako im se ne onemogući indeksiranje pomoću datoteke robots.txt, vaše upute za indeksiranje neće se čitati i na taj način se zanemaruju. Kao rezultat toga, u slučaju da se druge web stranice povežu s vašim sadržajem i dokumentima, Google će ih i ostale tražilice indeksirati.

4. Korištenje .htaccess pravila za Apache poslužitelje

Također možete dodati HTTP-zaglavlje X-Robots-Tag u datoteku .htaccess da biste alatima za indeksiranje blokirali indeksiranje stranica i digitalni sadržaj vaše web stranice koji se nalazi na Apache poslužitelju. Za razliku od metaoznaka bez indeksa, .htaccess pravila mogu se primijeniti na čitavoj web stranici ili određenoj mapi. Podrška redovnim izrazima nudi još veću fleksibilnost za ciljanje više vrsta datoteka odjednom.

Da biste blokirali Googlebot, Bing i Baidu da ne pretraži web stranicu ili poseban direktorij, koristite sljedeća pravila:

Učitajte ponovoEngine uključeno
RewriteCond% {HTTP_USER_AGENT} (googlebot | bingbot | Baiduspider) [NC]
Prepiši Rule. * - [R = 403, L]

Da biste blokirali indeksiranje pretraživanja svih .txt, .jpg, .jpeg, .pdf datoteka na cijeloj vašoj web lokaciji, dodajte sljedeći isječak:


Skup zaglavlja X-Robots-Tag "noindex, nofollow"

5. Korištenje provjere autentičnosti stranice pomoću korisničkog imena i lozinke

Gore navedene metode spriječit će prikazivanje privatnog sadržaja i dokumenata u rezultatima Google pretraživanja. Međutim, svi korisnici koji imaju vezu mogu doći do vašeg sadržaja i izravno pristupiti vašim datotekama. Radi sigurnosti, visoko je preporučljivo postaviti ispravnu provjeru autentičnosti s korisničkim imenom i zaporkom, kao i dozvolu za pristup ulogama.

Korištenje provjere autentičnosti stranice

Na primjer, stranice koje uključuju osobne profile osoblja i osjetljive dokumente kojima anonimni korisnici ne smiju pristupiti trebaju biti gurnuti iza vrata za provjeru autentičnosti. Pa čak i kada korisnici nekako uspiju pronaći stranice, od njih će se tražiti vjerodajnice prije nego što mogu provjeriti sadržaj.

WordPress Zaštita lozinkom

Da biste to učinili s WordPressom, jednostavno postavite vidljivost posta na lozinka zaštićena. Na ovaj način možete odabrati lozinku potrebnu za pregled sadržaja na toj stranici. To je prilično lako učiniti na osnovi posta po stranici. Za cjelovitiju privatnost web mjesta, pokušajte dodati jedan od tih dodataka WordPress za članstvo na svoju web stranicu.

Imajte na umu da stranice zaštićene lozinkom ili skrivene stranice s pretraživača i posjetitelja ne moraju nužno zaštititi dokumente, videozapise i slike priložene uz njegov sadržaj. Za stvarnu zaštitu vaših prijenosnih datoteka WordPress, preporučuje se vrhunska usluga kao što je Prevent Direct Access Gold.

Zaključak

U utrci za sudjelovanje na Googleovoj stranici vlasnici tvrtki možda neće uzeti u obzir što tražilice mogu vidjeti. Bez obzira na to blokirate li botove iz određene datoteke, skrivate prilagođenu stranicu za prijavu ili lozinkom koja štiti privatne korisničke imenike … ima dosta stranica koje treba razmotriti bez indeksiranja kada su u pitanju tražilice.

Imate li kakvih pitanja o isključivanju sadržaja iz rezultata pretraživanja? Ili sprječavanje da se datoteke indeksiraju? Ostavite komentar u nastavku!

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me