A.
Komponen utama dalam Search Engine
Sebuah search engine memiliki
beberapa komponen agar dapat menyediakan layanan utamanya sebagai sebuah mesin
pencari informasi. Komponen tersebut antara lain :
a.
Web Crawler
Web
crawler atau yang dikenal juga dengan istilah web spider bertugas untuk mengumpulkan
semua informasi yang ada di dalam halaman web. Web crawler bekerja secara otomatis dengan cara memberikan sejumlah
alamat website untuk dikunjungi serta menyimpan semua informasi yang terkandung
didalamnya. Setiap kali web crawler
mengunjungi sebuah website, maka dia akan mendata semua link yang ada dihalaman yang dikunjunginya itu untuk kemudian di
kunjungi lagi satu persatu.
Proses web crawler dalam mengunjungi setiap dokumen web disebut dengan web crawling atau spidering. Beberapa websites,
khususnya yang berhubungan dengan pencarian menggunakan proses spidering untuk
memperbaharui data data mereka. Web crawler biasa digunakan untuk membuat
salinan secara sebhagian atau keseluruhan halaman web yang telah dikunjunginya
agar dapat dip roses lebih lanjut oleh system pengindexan. Crawler dapat juga
digunakan untuk proses pemeliharaan sebuah website,
seperti memvalidasi kode html sebuah web, dan crawler juga digunakan untuk memperoleh data yang khusus seperti
mengumpulkan alamat e-mail.
Web
crawler termasuk kedalam bagian software agent atau yang lebih dikenal
dengan istilah program bot. Secara umum crawler
memulai prosesnya dengan memberikan daftar sejumlah alamat website untuk dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman web dikunjungi, crawler
akan mencari alamat yang lain yang terdapat didalamnya dan menambahkan kedalam
daftar seeds sebelumnya.
Dalam melakukan prosesnya, web crawler juga mempunyai beberapa
persoalan yang harus mampu di atasinya. Permasalahan tersebut mencakup :
§ Halaman mana yang harus dikunjungi
terlebih dahulu.
§ Aturan dalam proses mengunjungi kembali
sebuah halaman.
§ Performansi, mencakup banyaknya halaman
yang harus dikunjungi.
§ Aturan dalam setiap kunjungan agar
server yang dikunjungi tidak kelebihan beban
§ Kegagalan, mencakup tidak tersedianya
halaman yang dikunjungi, server down,
timeout, maupun jebakan yang sengaja dibuat oleh webmaster.
§ Seberapa jauh kedalaman sebuah website yang akan dikunjungi.
§ Hal yang tak kalah pentingnya adalah
kemampuan web crawler untuk mengikuti.
perkembangan teknologi web, dimana setiap kali teknologi baru
muncul, web crawler harus dapat
menyesuaikan diri agar dapat mengunjungi halaman web yang menggunakan teknologi baru tersebut.
Proses sebuah web crawler untuk mendata
link – link yang terdapat didalam sebuah halaman web menggunakan pendekatan
regular expression. Crawler akan menelurusi setiap karakter
yang ada untuk menemukan hyperlink tag
html (<a>). Setiap hyperlink
tag yang ditemukan diperiksa lebih lanjut apakah tag tersebut mengandung
atribut nofollow rel, jika tidak ada
maka diambil nilai yang terdapat didalam href attribute yang merupakan sebuah link baru.
b.
Indexing
system
Indexing
system bertugas untuk menganalisa halaman web yang telah tersimpan sebelumnya dengan
cara mengindeks setiap kemungkinan term yang terdapat di dalamnnya. Data term yang ditemukan disimpan dalam
sebuah database indeks untuk digunakan dalam pencarian selanjutnya.
Indexing
system mengumpulkan, memilah dan menyimpan
data untuk memberikan kemudahan dalam pengaksesan informasi secara tepat dan
akurat. Proses pengolahan halaman web
agar dapat digunakan untuk proses pencarian berikutnya dinakamakan web indexing. Dalam implementasinya index system dirancang dari penggabungan
beberapa cabang ilmu antara lain ilmu bahasa, psikologi, matematika,
informatika, fisika, dan ilmu komputer.
Tujuan dari penyimpanan data berupa
indeks adalah untuk performansi dan kecepatan dalam menemukan informasi yang
relevan berdasarkan inputan user. Tanpa adanya indeks, search engine harus melakukan scan
terhadap setiap dokumen yang ada didalam database.
Hal ini tentu saja akan membutuhkan proses sumber daya yang sangat besar dalam
proses komputasi. Sebagai contoh, indeks dari 10.000 dokumen dapat diproses
dalam waktu beberapa detik saja, sedangkan penulusuran secara berurutan setiap
kata yang terdapat di dalam 10.000 dokumen akan membutuhkan waktu yang berjam
lamanya. Tempat tambahan mungkin akan dibutuhkan di dalam computer untuk
penyimpanan indeks, tapi hal ini akan terbayar dengan penghematan waktu pada
saat pemrosesan pencarian dokumen yang dibutuhkan.
c.
Database
Merupakan tempat standar untuk menyimpan
data-data dari halaman yang telah dikunjungi, di-download dan sudah dianalisis. kadang kala disebut juga dengan
index dari suatu search engine.
d.
Result Engine
Mesin yang melakukan penggolongan dan
penentuan peringkat dari hasil pencarian pada search engine. Mesin ini
menentukan halaman mana yang menemui kriteria terbaik dari hasil pencarian
berdasarkan permintaan penggunanya, dan bagaimana bentuk penampulan yang akan
ditampilkan.
Proses ini dilaksanakan berdasarkan algoritma
perangkingan yang dimiliki oleh search engine tersebut, mengikuti kaidah
perangkingan hakaman yang dipergunakan oleh mereka adalah hak mereka, para
peneliti mempelajari sifat-sifat yang mereka gunakan, terutama untuk
meningkatkan pencarian yang dihasilkan oleh serach engine tersebut.
e.
Search system
Search system inilah yang
berhubungan langsung dengan pengguna, meyediakan hasil pencarian informasi yang
diinginkan. Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan
kata pencarian biasanya dengan beberapa kata kunci, search system akan mencari
data dari indeks database, data yang cocok kemudian akan ditampilkan, biasanya
disertai ringkasan singkat mengenai judul dokumen dan terkadang sebagian
teksnya.
B.
Cara Kerja Search
Engine
Sebagian besar mesin pencari dijalankan oleh perusahaan swasta yang
menggunakan algoritma kepemilikan dan basisdata tertutup, di antaranya yang
paling populer adalah Google (MSN Search dan Yahoo). Seperti yang telah ketahui bahwa cara kerja mesin pencari Google
sangat tertutup tentang algoritma dan pusat data hasil pencarian google. Sejauh
ini kita hanya bisa menebak garis besar kebijakan Google melalui halaman hasil
mesin pencari Google.
Dibalik teknologi pencarian adalah perangkat lunak. Perangkat lunak
dengan serangkaian bahasa program untuk menghitung secara simultan dengan
membutuhkan sepersekian detik. Mesin pencari tradisional lebih mengandalkan
seberapa sering kata muncul pada halaman web. Google menggunakan lebih dari 200
sinyal, termasuk algoritma pagerank yang merupakan hak paten Google. Sinyal ini
berfungsi untuk memeriksa seluruh struktur link dari situs dan menentukan
halaman yang paling penting.
Setelah itu Google menganalisis
kesesuaian hipertext untuk menentukan halaman yang relevan dengan pencarian
khusus yang dilakukan. Menggabungkan sinyal secara keseluruhan dan relevansi
query spesifik, dan menempatkan hasil pertama yang paling relevan dan dapat
diandalkan atas query pengguna.
Tidak ada komentar:
Posting Komentar