Cara Google menemukan suatu website

7 07 2008

Ada 3 (tiga) “behind-the-scene” proses yang dilakukan oleh mesin pencari bernama google ini dalam menemukan suatu website dan kemudian menampilkannya.

1. Crawling

Crawling adalah suatu pekerjaan yang dilakukan oleh googlebot (biasa dikenal juga dengan istilah robot, atau spider) dalam menjelajahi halaman-halaman website untuk di-indeks pada google server.

Googlebot terdiri dari set komputer yang berjumlah besar yang memang difungsikan untuk meng-crawling website-website. Dalam melakukan tugasnya, googlebot menggunakan suatu algoritma komputer dalam menentukan situs apa saja yang akan di crawling, seberapa sering, dan berapa banyak halaman yang akan di indeks.

Proses crawling dalam suatu website dimulai dari mendata seluruh url dari website, menelusurinya satu-persatu, kemudian memasukkannya dalam daftar halaman pada google indeks, sehingga setiap kali ada perubahan pada website, akan terupdate secara otomatis.

Web Crawler Architecture

2. Indexing

Indexing adalah proses pengumpulan kata-kata atau kalimat pada suatu halaman web oleh googlebot yang telah ter-crawling sebelumnya. Dalam prosesnya, konten inilah yang digunakan oleh google sebagai sumber pencarian untuk selanjutnya ditampilkan sebagai hasil pencarian berdasarkan kata kunci (keywords) yang kita cari.

Namun perlu diingat bahwa tidak semua konten dapat diproses oleh googlebot ini. Umumnya konten tersebut adalah link url, judul, tag, nama file, tipe file, isi halaman (tidak semua) dan beberapa informasi halaman lainnya.

3. Serving

Serving adalah suatu proses dalam menampilkan suatu halaman tertentu merujuk kepada kata kunci yang dimasukkan oleh pengguna. Keterhubungan antara bagaimana hasil akan ditampilkan dengan kata kunci ditentukan oleh kurang lebih 200 faktor.

Salah satu faktor penentu yang terkenal yang digunakan untuk menampilkan hasil pencarian adalah page rank. Dengan page rank, suatu halaman ditampilkan sesuai dengan urutan dengan cara “halaman yang terbanyak di akses ditampilkan pertama“.

Page Ranks-Example

Yang lebih mengesankan adalah ke-3 proses tersebut dilakukan dalam waktu yang sangat cepat.

Waktu yang diperlukan untuk mencari kata “budi” di server google di Indonesia hanya 0,06 detik !

keyword-budi

Dipersonalisasi Urutan 1 – 10 dari sekitar 8,150,000 hasil penelusuran untuk budi. (0.06 detik)

Can u imagine the server farm architecture !! 😀

Google1998