Czym jest Crawler? Co to robot indeksujący? - IT Holding

Crawler

Crawler  Robot internetowy, robot indeksujący, pająk –  Program komputerowy zdolny do przeglądania i indeksacji zawartości stron WWW. Roboty wyszukiwarek są zazwyczaj zaprogramowane do odwiedzania witryn przesłanych przez ich właścicieli jako nowe lub zaktualizowane. Całe witryny lub określone strony można selektywnie odwiedzać i indeksować. Roboty najwyraźniej zyskały nazwę  „pająk” ponieważ przeszukują witrynę po stronie jednocześnie, podążając za linkami do innych stron w witrynie, dopóki wszystkie strony nie zostaną odczytane. Można sterować zachowaniami robotów poprzez odpowiednie składnie w sekcji meta danej strony lub poprzez wykluczenie/zezwolenie do indeksowania stron w pliku robots.txt. Przy pozycjonowaniu warto sprawdzić czy wszystkie strony, które chcemy aby pojawiały się w wynikach wyszukiwania są dostępne dla robotów. Analogicznie warto wykluczyć wszystkie strony, do których nie chcemy aby użytkownicy mieli dostęp (panele logowania, katalogi itp.). Istnieje wiele robotów indeksujących witryny, część z nich jak np. GoogleBot, BingBot skanują strony, aby móc je umieścić w swojej wyszukiwarce. Istnieją także różne narzędzia analityczne, które również skanują strony w celu zebrania danych (np. ilości linków). Innymi typami robotów są także crawlery zbierające konkretne dane (np. adresy e-mail).


Pozoztałe wyrażenia które mogą cię zainteresować: