Jalankan Bot Mesin Pencari, Apa itu Robots.txt?

DENPASARUPDATE.COM –Sebuah protokol yang disebut REP (Robots Exclusion Standard Protocol) diluncurkan pada tahun 1994. Protokol ini menetapkan bahwa semua crawler mesin pencarian (user-agents) harus mencari file robots.txt di direktori dasar domain Anda terlebih dahulu dan membaca petunjuk yang ada di dalamnya. Dengan begitu, bot dapat mulai mengindeks halaman web Anda.

Sebagaimana dilansir situs WartaEkonomi.Com, file tersebut harus terletak langsung di direktori dasar domain Anda dan harus ditulis dengan huruf kecil karena bot membaca file robots.txt yang instruksinya peka terhadap huruf besar atau kecil. Sayangnya, tidak semua robot mesin pencari dapat mengikuti aturan ini. Setidaknya file robot.txt berfungsi dengan baik pada mesin pencari seperti Bing, Yahoo, dan Google. Robot pencari yang ada di mesin pencarian tersebut secara ketat akan mengikuti instruksi dari REP dan robots.txt.

Bagi Anda yang ingin melakukan crawling dan indexing pada SEO perlu mengetahui secara pasti kegunaan dari file ini. Untuk itu, simak penjelasannya di artikel berikut ini.

Apa Itu Robots.txt?

Robots.txt adalah sebuah file yang berisi sekumpulan instruksi untuk menjalankan bot mesin pencari. File robots.txt ditujukan untuk mengelola aktivitas bot seperti crawler web karena bot yang buruk tidak akan mengikuti petunjuk atau perintah yang telah diberikan.

File robots.txt layaknya tata tertib yang ada di kehidupan manusia. Tata tertib tersebut tidak memiliki kekuatan untuk menegakkan aturan yang tercantum, tetapi bot yang "baik" akan selalu mengikuti aturan. Sementara, yang "buruk" kemungkinan besar akan melanggar aturan tersebut dan segera diberikan penalti.

Bot adalah sebuah program komputer otomatis yang berinteraksi dengan situs web dan aplikasi. Terdapat bot yang baik dan bot yang buruk, khusus salah satu jenis bot yang baik dikenal sebagai bot crawler web. Bot ini akan melakukan "crawling" pada halaman situs web dan mengindeks konten sehingga laman tersebut dapat muncul di halaman hasil mesin pencari. File robots.txt membantu mengelola aktivitas crawler web ini agar tidak membebani server web yang sedang menghosting situs web atau mengindeks laman yang tidak ditujukan untuk ditampilkan untuk publik.

Cara Kerja Robots.txt

File robots.txt hanyalah file teks tanpa kode markup HTML (karenanya ekstensinya berupa .txt). File robots.txt dihosting di server web seperti file lainnya yang berada di situs web. Faktanya, file robots.txt pada situs web tertentu biasanya dapat dilihat dengan mengetikkan URL beranda situs kemudian menambahkan /robots.txt, seperti contoh berikut: https://www.situswebAnda.com/robots.txt.

File tersebut tidak dihubungkan ke laman lain yang berada di situs tersebut. Jadi, pengguna tidak akan menemukannya, tetapi sebagian besar bot crawler web akan mencari file ini terlebih dahulu sebelum melakukan crawling pada situs tersebut.

Meskipun file robots.txt memberikan petunjuk bagi bot, file tersebut hanya bersifat arahan atau petunjuk bagi bot. Bot yang baik, seperti web crawler atau bot news feed, akan mencoba mengunjungi file robots.txt terlebih dahulu sebelum melihat halaman lain di domain dan akan mengikuti petunjuknya. Bot yang buruk akan mengabaikan file robots.txt atau akan memprosesnya untuk menemukan halaman web yang terlarang.

Bot crawler web akan mengikuti sekumpulan petunjuk spesifik di file robots.txt ini. Jika ada perintah yang kontradiktif dalam file tersebut, bot akan mengikuti perintah yang lebih terperinci.

Satu hal penting yang perlu diperhatikan adalah semua subdomain membutuhkan file robots.txt-nya sendiri. Misalnya, jika Anda memiliki situs bernama www.situswebAnda.com memiliki filenya sendiri, semua subdomain yang dimiliki Anda (blog.situswebAnda.com, community.situswebAnda.com, dll.) membutuhkannya penggunaan robot.txt juga.

Manfaat Penggunaan Robots.txt

Sebagian besar situs web tidak membutuhkan file robots.txt. Hal itu karena Google secara otomatis biasanya dapat menemukan dan mengindeks semua halaman penting di situs Anda. Google tidak akan mengindeks halaman yang dirasa tidak penting atau halaman yang menjadi duplikat dari halaman lain

Meskipun begitu, ada 3 alasan utama mengapa Anda perlu menggunakan file robots.tx

Memblokir Halaman Non-Publik: Terkadang Anda pasti memiliki halaman di situs yang tidak ingin Anda indeks. Misalnya, Anda memiliki halaman yang masih dalam tahap pengembangan awal, atau untuk halaman login. Halaman ini tetap diperlukan di situs web, tetapi Anda tidak ingin sembarang orang untuk berkunjung kes ana. Ini adalah kasus di mana Anda akan menggunakan robots.txt untuk memblokir laman ini dari crawlerdan bot mesin pencarian.
Maksimalkan Crawler Budget: Jika Anda mengalami kesulitan untuk mengindeks semua laman situs, mungkin Anda telah mengalami masalah crawler budget. Dengan memblokir halaman yang tidak penting menggunakan robots.txt, Google bot dapat mengalihkan pekerjaannya untuk crawl budgetAnda pada halaman yang lebih penting.
Mencegah Pengindeksan pada Sumber Daya Lainnya: Menggunakan perintah meta dapat bekerja sebaik Robots.txt untuk mencegah suatu halaman untuk diindeks. Namun, perintah meta tidak dapat berfungsi dengan baik untuk digunakan pada sumber daya multimedia, seperti PDF dan file gambar. Di situlah file robots.txt berperan.

Pada intinya, file robots.txt akan memberi tahu spider mesin pencari untuk tidak crawling pada halaman tertentu di situs web Anda.

Anda dapat memeriksa berapa banyak halaman yang telah Anda indeks menggunakan Google Search Console. Jika angkanya cocok dengan jumlah halaman yang ingin Anda indeks, Anda tidak perlu repot menggunakan file robots.txt. Namun, jika jumlahnya lebih tinggi dari yang Anda harapkan (terutama jika Anda melihat URL tersebut seharusnya tidak boleh diindeks), sekarang saatnya membuat file robots.txt untuk situs Anda.

Cara Membuat File Robots.txt

Jika saat ini Anda tidak memiliki file robots.txt, disarankan untuk membuatnya sesegera mungkin. Untuk melakukannya, Anda perlu melakukan sejumlah hal berikut ini:

Buat file teks baru dan beri nama "robots.txt" - Gunakan teks editor seperti program Notepad di PC Windows atau TextEdit bagi yang menggunakan Mac IOS, kemudian pilih "Save As" file yang dipisahkan teks dan pastikan ekstensi file tersebut bernama ".txt".
Unggah ke root directory situs web Anda – Folder tingkat dasar ini biasa disebut sebagai "htdocs" atau "www" yang membuatnya muncul tepat setelah nama domain Anda.
Buat file robots.txt untuk setiap subdomain – Hal ini dilakukan hanya jika Anda menggunakan jenis subdomain apapun.
Lakukan Pengujian - Periksa file robots.txt dengan memasukkan kalimat robots.txt ke dalam bilah alamat browser. Contohnya: situswebAnda.com/robots.txt.

Tujuan penggunaan Robots.txt bukan untuk menyembunyikan secure page yang ada di situs web Anda. Oleh karena itu, lokasi "admin" atau halaman pribadi yang berada di situs Anda tidak boleh disertakan dalam file robots.txt karena justru akan menampilkan lokasinya kepada pengguna lain. Jika Anda ingin mencegah robot untuk mengakses konten pribadi apapun yang ada di situs web Anda dengan aman, Anda perlu melindungi area penyimpanannya dengan menggunakan kata sandi (password).

File robots.txt dirancang untuk bertindak hanya sebagai panduan bagi robot web dan tidak semuanya akan mematuhi instruksi Anda.

Tanpa file robots.txt, mesin pencari akan bebas dalam melakukan crawling dan mengindeks apapun yang mereka temukan di situs web. Penggunaan robots.txt bagus untuk sebagian besar situs web, tetapi dengan menggunakan file tersebut setidaknya dapat menunjukkan di mana letak XML sitemap Anda sehingga mesin pencarian dapat dengan cepat menemukan konten terbaru di situs web Anda, serta mengoptimalkan crawling budget. ***

Simak update artikel pilihan lainnya dari kami di Google News Denpasar Update

Jalankan Bot Mesin Pencari, Apa itu Robots.txt?

Tags

robot

protokol

file

mesin pencarian

Artikel Pilihan

Terkini

Simak! Ciri dan Cara Cek Keaslian Meterai Elektronik

CONVERT PULSA KE DANA MURAH MERIAH, RATE TINGGI HINGGA 85 PERSEN VIA TOKOCONVERT! 2024

Link Download Ojol The Game Mod Apk Unlimited Money Update Maret 2024 Android dan iOS, Lebih Baik Ori

Bocoran Samsung Galaxy Ring Punya Bobot Ringan dan Baterai Lebih Tahan Lama

Samsung Adakan Acara Unpacked Lebih aAal Untuk Galaxy Z Flip6 dan Z Fold6

Terpopuler

Wow Heboh! Pernikahan Beda Agama, Rizky Febian Putra Sule Resmi Perrsunting Penyanyi Bali Mahalini

PSK Michat Tewas di Tangan Pria Hidung Belang, Baru Sekali Kerja, Jasad Masuk Koper dan Dibuang di Jimbaran

Asa ke Olimpiade Paris 2024 Masih Ada, Shin Tae-yong Tetap Optimis untuk Timnas U23

Sekda Adi Arnawa Buka Sosialisasi Barang Milik Daerah Tahun 2024

Peringatan Hardiknas di Badung "Bergerak Bersama Lanjutkan Merdeka Belajar"

KNPI Badung Adakan Nobar Timnas Indonesia U23, Giri Prasta Berikan Apresiasi Untuk Timnas Indonesia

Bank BPD Bali Lakukan Kerjasama Dengan ALVA, Pembiayaan Untuk ASN di Bali, Cicilan Ringan, Ini RInciannya

Wakil Bupati Badung I Ketut Suiasa Hadiri High Level Meeting TPID Provinsi Bali

Duh, PSK Dibunuh Gegara Minta Bayaran Lebih, Jasad Dimasukkan ke Koper dan Dibuang di Kawasan Jimbaran

Asa Masih Ada Untuk Timnas U23 ke Olimpiade Paris 2024, Dengan Catatan Harus Menang Hadapi Guinea U23

Kabar Daerah

Ch Susilo Sakeh: Rakesh, Simbol Perlawanan K-5

Rektor hingga Pimpinan Parpol Siap Maju di Pilwakot Sawahlunto 2024

Melihat Ajang Pilkada Way Kanan 2024: Dinamika Persaingan di Antara Para Calon

Inilah Sosok Alex Noerdin, Calon Pasangan Heri Amalindo di Pilgub Sumsel 2024

Tim SAR Gabungan Temukan Jenazah Remaja 14 Tahun yang Tenggelam di Way Sekampung