Forum dla administratorów stron WWW i developerów

Witaj!

AdminZone.pl to miejsce w którym możesz dowiedzieć się jak szybko i skutecznie wypromować swoją stronę WWW, zachęcić użytkowników do wypowiadania się i aktywnego udziału w życiu takiej strony.
Dołącz do naszej społeczności aby w pełni korzystać z usług oferowanych przez AdminZone.pl
Zaloguj się
lub
Zarejestruj się
 
Awatar użytkownika
Macsch15
Administrator
Posty: 1968
Rejestracja: 10 sie 2012, 16:12
Lokalizacja: Polska
Kontaktowanie:

"Plik robots.txt nie blokuje indeksowania w google"

Autor tematu

26 sie 2012, 11:17

W końcu są dowody na to, że wpis w pliku robots.txt nie blokuje przed indeksowaniem przez Google. Matt Cutts na jednej z konferencji wspomniał, ze Google pracuje nad sposobem publikowania dokumentów zablokowanych w pliku robots.txt.
Barry Schwartz z Seroundtable.com znalazł wynik wyszukiwania z plikiem, który zablokował w robots.txt i teoretycznie nie powinien być indeksowany przez robota Google.
Oto dowód:
{l Image}

Co z tego wynika?
Aby skutecznie zablokować indeksowanie przez Google należy wstawić noindex i nofollow w nagłówku dokumentu.
Plik robots.txt blokuje wyświetlanie treści dokumentu w wynikach Google, jednak pokazuje pełny adres URL czego nie życzą sobie właściciele witryn.
Niby drobiazg, ale znaczący.
A to aktualne info od Google na temat pliku robots.txt:

„Plik robots.txt ogranicza dostęp do Twojej witryny robotom indeksującym internet na potrzeby wyszukiwarek. Przed pobraniem strony witryny roboty sprawdzają, czy w witrynie jest plik robots.txt i czy blokuje on dostęp do niektórych stron…
Google nie będzie pobierać ani indeksować zawartości stron zablokowanych w pliku robots.txt, ale może indeksować te URL-e, jeśli zostaną znalezione na innych stronach w sieci. W związku z tym URL takiej strony oraz prawdopodobnie również inne powszechnie dostępne informacje, np. teksty kotwicy w linkach do witryny lub tytuł z katalogu Open Directory Project, mogą zostać wyświetlone w wynikach wyszukiwania Google.”

Zatem jeśli do naszego zablokowanego dokumentu znajdą się linki gdzieś w sieci – Google wyświetli w wynikach co najmniej adres URL, ale może również dołożyć TITLE z tekstem anchora odnośnika lub wpisem z Dmoza.
Jakie będą tego efekty? Jeśli chcemy zablokować indeksowanie istniejącego dokumentu w sieci (do którego prowadza linki) nie wystarczy go zablokować w pliku robots.txt.

Źródło: http://www.cezzy.pl/plik-robots-txt-blo...em-google/


Co ciekawe dopowiem.
Mam jedną stronę która jest zamknięta, nigdy nie chciałem aby Google czy inna wyszukiwarka ją indeksowała, w head dodałem meta no-robots&no-follow i jeszcze dodatkowo robots.txt, a Google i tak zaindeksował jeden rekord z tej strony (bez infromacji, tylko URL), więc cytat:
Aby skutecznie zablokować indeksowanie przez Google należy wstawić noindex i nofollow w nagłówku dokumentu.

Jest moim zdaniem nieprawdziwy.


 
Awatar użytkownika
StartCV
Użytkownik
Posty: 8
Rejestracja: 22 paź 2013, 17:42
Kontaktowanie:

Re: "Plik robots.txt nie blokuje indeksowania w google"

22 paź 2013, 17:46

Plik robots.txt ma za zadanie zablokować wyświetlanie podstron w wyszukiwarce. Nie blokuje zatem indeksowania.


 
Awatar użytkownika
Macsch15
Administrator
Posty: 1968
Rejestracja: 10 sie 2012, 16:12
Lokalizacja: Polska
Kontaktowanie:

Re: "Plik robots.txt nie blokuje indeksowania w google"

Autor tematu

22 paź 2013, 19:03

StartCV napisał/a:
Nie blokuje zatem indeksowania.


Właśnie według tego co napisałeś powinno być odwrotnie.
StartCV napisał/a:
ma za zadanie zablokować wyświetlanie podstron w wyszukiwarce.


Generalnie założenie robots.txt było od początku takie aby zablokować strony które nie mają się pojawiać w wyszukiwarce, przykładowo linki z identyfikatorem sesji albo panelu administracyjnego.


Kto jest online

Użytkownicy przeglądający to forum: Obecnie na forum nie ma żadnego zarejestrowanego użytkownika i 36 gości