Cara Google menemukan suatu website

7 07 2008

Ada 3 (tiga) “behind-the-scene” proses yang dilakukan oleh mesin pencari bernama google ini dalam menemukan suatu website dan kemudian menampilkannya.

1. Crawling

Crawling adalah suatu pekerjaan yang dilakukan oleh googlebot (biasa dikenal juga dengan istilah robot, atau spider) dalam menjelajahi halaman-halaman website untuk di-indeks pada google server.

Googlebot terdiri dari set komputer yang berjumlah besar yang memang difungsikan untuk meng-crawling website-website. Dalam melakukan tugasnya, googlebot menggunakan suatu algoritma komputer dalam menentukan situs apa saja yang akan di crawling, seberapa sering, dan berapa banyak halaman yang akan di indeks.

Proses crawling dalam suatu website dimulai dari mendata seluruh url dari website, menelusurinya satu-persatu, kemudian memasukkannya dalam daftar halaman pada google indeks, sehingga setiap kali ada perubahan pada website, akan terupdate secara otomatis.

Web Crawler Architecture

2. Indexing

Indexing adalah proses pengumpulan kata-kata atau kalimat pada suatu halaman web oleh googlebot yang telah ter-crawling sebelumnya. Dalam prosesnya, konten inilah yang digunakan oleh google sebagai sumber pencarian untuk selanjutnya ditampilkan sebagai hasil pencarian berdasarkan kata kunci (keywords) yang kita cari.

Namun perlu diingat bahwa tidak semua konten dapat diproses oleh googlebot ini. Umumnya konten tersebut adalah link url, judul, tag, nama file, tipe file, isi halaman (tidak semua) dan beberapa informasi halaman lainnya.

3. Serving

Serving adalah suatu proses dalam menampilkan suatu halaman tertentu merujuk kepada kata kunci yang dimasukkan oleh pengguna. Keterhubungan antara bagaimana hasil akan ditampilkan dengan kata kunci ditentukan oleh kurang lebih 200 faktor.

Salah satu faktor penentu yang terkenal yang digunakan untuk menampilkan hasil pencarian adalah page rank. Dengan page rank, suatu halaman ditampilkan sesuai dengan urutan dengan cara “halaman yang terbanyak di akses ditampilkan pertama“.

Page Ranks-Example

Yang lebih mengesankan adalah ke-3 proses tersebut dilakukan dalam waktu yang sangat cepat.

Waktu yang diperlukan untuk mencari kata “budi” di server google di Indonesia hanya 0,06 detik !

keyword-budi

Dipersonalisasi Urutan 1 - 10 dari sekitar 8,150,000 hasil penelusuran untuk budi. (0.06 detik)

Can u imagine the server farm architecture !! :D

Google1998





Collision in MD5 - *kok masih dipake yah :)*

2 07 2008

Collision dalam bahasa Indonesia artinya tubrukan / tabrakan. Sedangkan MD5 adalah suatu fungsi hash kriptografik yang digunakan secara luas dengan hash value 128-bit. MD5 ini telah dimanfaatkan pada bermacam-macam aplikasi keamanan, selain itu juga digunakan secara umum untuk melakukan pengujian integritas sebuah file.

Maksudnya collision md5 disini adalah suatu keadaan fatal yang mengakibatkan md5 tidak dapat membedakan integritas 2 atau lebih file yang berbeda. Hal ini berkaitan erat dengan fungsi algoritma ini yang banyak digunakan sebagai “fingerprint” suatu file.

Sebenarnya, publikasi tentang kelemahan di md5 ini sudah ada dari tahun 2005, ketika itu pertama kali ditulis oleh Xiaoyun Wang dan Hongbo Yu. Mereka membuat algoritma yang dapat digunakan untuk membuat file yang memiliki hash md5 yang sama, dengan perbedaan yang hanya terletak diantara 128 byte di file tersebut. Tulisan tentang “bagaimana memecahkan algoritma md5 itu bisa di unduh disini. Untuk sekedar ilustrasi tentang kriptografi bisa dilihat juga disini.

Seorang Eduardo Diaz telah membuat program spesial yang di sebut sebagai “collision generator” yang dapat merubah 2 file yang notabene berbeda secara konten, menjadi sama/serupa nilai hashnya. Rahasianya adalah algoritma yang digunakan dalam program collision generator itu.

Rumusan sedarhana vektor yang digunakan untuk collision adalah seperti ini :

If MD5(x) == MD5(y) then MD5(x+q) == MD5(y+q)

Dimana, x dan y = pesan yang akan di hash, dan q = muatan aritmatik.

Saya mencoba membuktikan dengan mendownload 2 file yang sudah di generate sebelumnya dari alamat ini (hello.exe dan erase.exe).

Isi keduanya file tersebut benar-benar berbeda.

1. hello.exe

2. erase.exe

Dengan isi yang jelas-jelas berbeda seharusnya hash filenya juga berbeda, tetapi setelah ada input dari collision generator hash filenya menjadi sama persis !!

.

Dan ternyata.. masih banyak juga yang masih memanfaatkan algoritma md5 ini sebagai identitas suatu file. Padahal selain collision, algoritma md5 ini juga termasuk mudah untuk di-crack.

Contohnya ?? en caranya ?? *sorry disclosure information :)*





Latency Clear Channel via Satelit vs FO

26 06 2008

Latency menurut definisi dari Wikipedia adalah time delay between the moment something is initiated, and the moment one of its effects begins or becomes detectable. The word derives from the fact that during the period of latency the effects of an action are latent, meaning “potential” or “not yet observed”. Even within an engineering context, latency has several meanings depending on the engineering area concerned (i.e. communication, operational, simulation, mechanical, or biomedical fiber stimulation latencies).

wekeke…ketauan malesnya deh buat translating :)

Kalo dibahasakan ke dalam bahasa prokem saya, latency adalah waktu tunggu (delay) yang diperlukan oleh paket data dari satu titik ke titik tujuan. Sedangkan yang menyebabkan paket data tersebut harus menunggu adalah karena adanya waktu proses, entah itu di Hub, Switch, Router maupun di perangkat Server/Client.

Tinggi atau rendahnya latency sangat tergantung pada 4 faktor, diantaranya :

Baca entri selengkapnya »





Detik Ngaco

20 05 2008

…..

Terjadi pada website detik pada tanggal 19/05/2008
Apa ini sindrom orang yang bekerja kalo udah deket hari libur ?? :)

…..

Ataukah error pada basis datanya ??





Jawaban Kaskus

19 05 2008

Yahh… saya taruh disini aja jawaban kaskus.

Seperti dugaan saya di posting sebelumnya, bahwa penyebab kaskus tidak dapat diakses adalah :

1. DDOS

2. Kesalahan Admin

3. Kerusakan pada Hosting Server

Baca entri selengkapnya »