Zapewne wielu z nas zastanawia się, skąd wyszukiwarka posiada w swojej bazie danych miliony podstron i co decyduje o kolejności wyświetlania wyników. Zacznijmy od tego, w jaki sposób wyszukiwarka zbiera dane do swojej bazy. Jak zapewne wielu z nas wie, internet jest ogromną i złożoną strukturą, a ludzie nie są w stanie na bieżąco zbierać i aktualizować danych (choć są dostępne takie projekty). Dlatego też wiele czynności zostało przejętych przez specjalne programy, które popularnie nazywane są robotami. Zadaniem robota jest przeglądanie zawartości sieci oraz zbieranie i katalogowanie danych na podstawie ściśle określonych mechanizmów – algorytmów. Oczywiście algorytmy różnią się w zależności od tego, z jaką wyszukiwarką mamy do czynienia. Zasada działania robotów jest stosunkowo nieskomplikowana. Program jest uruchamiany na stronie zawierającej dużą liczbę odnośników do innych witryn. Im większa i popularniejsza witryna, tym lepiej. Załóżmy na przykład, że robot został wypuszczony na stronę katalogu wyszukiwarki Google. Po uruchomieniu robot zaczyna analizować zawartość strony i przesyła do bazy informacje o treści oraz zawartości. Po zakończeniu analizy robot korzysta z odsyłaczy znajdujących się na stronie i przechodzi do kolejnej podstrony lub innej witryny, a cały proces rozpoczyna się od nowa. Warto w tym miejscu wspomnieć, że to, co jest brane pod uwagę przez roboty, to pilnie strzeżona tajemnica firmy rozwijającej daną wyszukiwarkę. Możemy się tylko domyślać, na co zwraca się uwagę i jaka jest waga określonych czynników w trakcie całej analizy. Po za tym znaczenie poszczególnych elementów ciągle się zmienia.
Należy wiedzieć, że w tym samym czasie dla jednej wyszukiwarki pracuje wiele robotów, aby w ten sposób zwiększyć szybkość działania. Wyniki zebrane przez roboty trafiają do bazy wyszukiwarki, a ta z kolei raz na jakiś czas jest aktualizowana i udostępniana światu przez interfejs wyszukiwarki. Dlatego też możemy przyjąć, że to, co możemy odnaleźć w danej chwili, to stan, jaki miał miejsce kilka dni lub tygodni temu. Częstotliwość aktualizacji baz danych jest różna i zależy od wyszukiwarki. Wraz ze wzrostem popularności blogów i serwisów informacyjnych wyszukiwarka Google stara się udostępniać informacje w wynikach wyszukiwania jak najszybciej. Na przykład w przypadku przed ponad dekadą czasu przeprowadzonego konkursu pozycjonowania stron po 30 minutach od ogłoszenia frazy konkursowej pojawiły się wyniki dotyczące tej frazy w Google.
Po tym teoretycznym opisie sposobu zbierania danych przez wyszukiwarki nasuwają się takie to dwa istotne wnioski:
a). warto zadbać o to, aby wewnętrzna nawigacja strony umożliwiała bezproblemową analizę treści przez robota. Innymi słowy, robot musi swobodnie skakać po podstronach Naszego serwisu.
b). warto zadbać o to, aby do pozycjonowanej strony prowadziło jak najwięcej odnośników. Dzięki temu robot szybciej znajdzie stronę i doda ją do bazy wyszukiwarki.
Oczywiście adres strony możemy ręcznie zgłosić do wyszukiwarki. Służą do tego specjalne formularze, w których podajemy adresy strony. Witryna trafia na listę oczekujących i w bliżej nieokreślonej przyszłości zostanie odwiedzona przez robota wyszukiwarki. W tym miejscu warto jednak wspomnieć o tym, że rozwiązanie to ma wady. Otóż nieuczciwi twórcy stron zabiegający o ich pozycję korzystają ze specjalnych automatów, które dodają tysiące adresów i blokują listę oczekujących na długie tygodnie.
Należy wiedzieć, że twórcy wyszukiwarek starają się szukać nowych i wygodniejszych rozwiązań pozwalających na jeszcze lepszą indeksację witryny. Z tego powodu na przykład Google (inne wyszukiwarki również powoli udostępniają podobne rozwiązania) udostępniło specjalne rozwiązanie o nazwie Google Site Map – https://www.google.com/webmasters/sitemaps. Mówiąc w skrócie, rozwiązanie to pozwala na budowę mapy strony, którą dodajemy do systemu Google. Dzięki temu, przynajmniej teoretycznie, przyspieszamy dodanie strony do bazy wyszukiwarki.
Warto dodać, że w szczególnych przypadkach zawartość bazy wyszukiwarki jest kontrolowana przez ludzi i filtrowana. Sytuacja taka dotyczy przypadków nadużyć i stosowania niedozwolonych technik pozycjonerskich. Najczęstszym skutkiem ingerencji pracowników wyszukiwarki jest usunięcie danej witryny z indeksu.