Apa itu robots.txt? Panduan Pemula untuk Memakunya dengan Contoh

Diterbitkan: 2022-03-29

Sosok robot kayu berdiri di atas sepetak rumput.
Ah, robots.txt — satu file kecil mungil dengan implikasi besar. Ini adalah salah satu elemen SEO teknis yang Anda tidak ingin salah, teman-teman.

Pada artikel ini, saya akan menjelaskan mengapa setiap situs web membutuhkan robots.txt dan cara membuatnya (tanpa menimbulkan masalah untuk SEO). Saya akan menjawab FAQ umum dan menyertakan contoh cara menjalankannya dengan benar untuk situs web Anda. Saya juga akan memberi Anda panduan yang dapat diunduh yang mencakup semua detailnya.

Isi:

Apa itu robots.txt?
Mengapa robots.txt penting?
Tapi, apakah robots.txt itu perlu?
Masalah apa yang dapat terjadi dengan robots.txt?
Bagaimana cara kerja robots.txt?
Kiat untuk membuat robots.txt tanpa kesalahan
Penguji robots.txt
Panduan Protokol Pengecualian Robot (unduh gratis)

Apa itu robots.txt?

Robots.txt adalah file teks yang dibuat dan disimpan oleh penerbit situs web di root situs web mereka. Tujuannya adalah untuk memberi tahu perayap web otomatis seperti bot mesin telusur halaman mana yang tidak boleh dirayapi di situs web. Ini juga dikenal sebagai protokol pengecualian robot.

Robots.txt tidak menjamin bahwa URL yang dikecualikan tidak akan diindeks untuk pencarian. Itu karena spider mesin pencari masih dapat mengetahui halaman-halaman itu ada melalui halaman web lain yang menautkannya. Atau, halaman mungkin masih diindeks dari masa lalu (lebih lanjut nanti).

Robots.txt juga tidak sepenuhnya menjamin bot tidak akan merayapi halaman yang dikecualikan, karena ini adalah sistem sukarela. Akan jarang bagi bot mesin pencari utama untuk tidak mematuhi arahan Anda. Tetapi robot web lain yang buruk, seperti robot spam, malware, dan spyware, sering kali tidak mengikuti perintah.

Ingat, file robots.txt dapat diakses oleh publik. Anda cukup menambahkan /robots.txt di akhir URL domain untuk melihat file robots.txt-nya (seperti milik kami di sini). Jadi, jangan sertakan file atau folder apa pun yang mungkin berisi informasi penting bisnis. Dan jangan mengandalkan file robots.txt untuk melindungi data pribadi atau sensitif dari mesin telusur.

Oke, dengan peringatan itu, mari kita lanjutkan ...

Mengapa robots.txt Penting?

Bot mesin pencari memiliki arahan untuk merayapi dan mengindeks halaman web. Dengan file robots.txt, Anda dapat secara selektif mengecualikan halaman, direktori, atau seluruh situs agar tidak dirayapi.

Ini dapat berguna dalam banyak situasi yang berbeda. Berikut adalah beberapa situasi Anda ingin menggunakan robots.txt Anda:

Untuk memblokir halaman atau file tertentu yang tidak boleh dirayapi/diindeks (seperti halaman yang tidak penting atau serupa)
Untuk berhenti merayapi bagian tertentu dari situs web saat Anda memperbaruinya
Untuk memberi tahu mesin pencari lokasi peta situs Anda
Untuk memberi tahu mesin pencari untuk mengabaikan file tertentu di situs seperti video, file audio, gambar, PDF, dll., dan tidak menampilkannya di hasil pencarian
Untuk membantu memastikan server Anda tidak kewalahan dengan permintaan*

*Menggunakan robots.txt untuk memblokir perayapan yang tidak perlu adalah salah satu cara untuk mengurangi ketegangan di server Anda dan membantu bot menemukan konten bagus Anda dengan lebih efisien. Google menyediakan bagan praktis di sini. Selain itu, Bing mendukung direktif crawl-delay, yang dapat membantu mencegah terlalu banyak permintaan dan menghindari server yang berlebihan.

Tentu saja, ada banyak aplikasi robots.txt, dan akan saya uraikan lebih banyak di artikel ini.

Tapi, Apakah robots.txt Diperlukan?

Setiap situs web harus memiliki file robots.txt meskipun kosong. Ketika bot mesin pencari datang ke situs web Anda, hal pertama yang mereka cari adalah file robots.txt.

Jika tidak ada, maka laba-laba disajikan kesalahan 404 (tidak ditemukan). Meskipun Google mengatakan bahwa Googlebot dapat melanjutkan dan merayapi situs bahkan jika tidak ada file robots.txt, kami percaya bahwa lebih baik memiliki file pertama yang diminta bot daripada menghasilkan kesalahan 404.

Masalah Apa yang Dapat Terjadi dengan robots.txt?

File kecil sederhana ini dapat menyebabkan masalah untuk SEO jika Anda tidak hati-hati. Berikut adalah beberapa situasi yang harus diwaspadai.

1. Memblokir seluruh situs Anda secara tidak sengaja

Gotcha ini terjadi lebih sering dari yang Anda kira. Pengembang dapat menggunakan robots.txt untuk menyembunyikan bagian situs yang baru atau didesain ulang saat mereka mengembangkannya, tetapi kemudian lupa untuk membuka blokirnya setelah peluncuran. Jika itu adalah situs yang sudah ada, kesalahan ini dapat menyebabkan peringkat mesin pencari tiba-tiba menurun.

Sangat berguna untuk menonaktifkan perayapan saat Anda menyiapkan situs baru atau bagian situs untuk diluncurkan. Ingatlah untuk mengubah perintah itu di robots.txt Anda saat situs ditayangkan.

2. Tidak termasuk halaman yang sudah diindeks

Memblokir di halaman robots.txt yang diindeks menyebabkan mereka terjebak dalam indeks Google.

Jika Anda mengecualikan halaman yang sudah ada di indeks mesin pencari, halaman tersebut akan tetap ada. Untuk benar-benar menghapusnya dari indeks, Anda harus menetapkan tag meta robots “noindex” pada halaman itu sendiri dan membiarkan Google merayapi dan memprosesnya. Setelah halaman dihapus dari indeks, blokir halaman tersebut di robots.txt untuk mencegah Google memintanya di masa mendatang.

Bagaimana cara kerja robots.txt?

Untuk membuat file robots.txt, Anda dapat menggunakan aplikasi sederhana seperti Notepad atau TextEdit. Simpan dengan nama file robots.txt dan unggah ke root situs web Anda sebagai www.domain.com/robots.txt —— di sinilah spider akan mencarinya.

File robots.txt sederhana akan terlihat seperti ini:

Agen pengguna: *
Larang: /directory-name/

Google memberikan penjelasan yang baik tentang apa arti garis yang berbeda dalam grup dalam file robots.txt dalam file bantuannya tentang pembuatan robots.txt:

Setiap kelompok terdiri dari beberapa aturan atau direktif (petunjuk), satu direktif per baris.
Sebuah kelompok memberikan informasi berikut:
Kepada siapa grup tersebut berlaku (agen pengguna)
Direktori atau file mana yang dapat diakses oleh agen
Direktori atau file mana yang tidak dapat diakses oleh agen?

Saya akan menjelaskan lebih lanjut tentang arahan yang berbeda dalam file robots.txt berikutnya.

Petunjuk Robots.txt

Sintaks umum yang digunakan dalam robots.txt meliputi:

Agen pengguna

Agen pengguna mengacu pada bot tempat Anda memberikan perintah (misalnya, Googlebot atau Bingbot). Anda dapat memiliki beberapa arahan untuk agen pengguna yang berbeda. Tetapi ketika Anda menggunakan karakter * (seperti yang ditunjukkan pada bagian sebelumnya), itu adalah catch-all yang berarti semua agen pengguna. Anda dapat melihat daftar agen pengguna di sini.

Melarang

Aturan Disallow menentukan folder, file, atau bahkan seluruh direktori untuk dikecualikan dari akses robot Web. Contohnya termasuk berikut ini:

Izinkan robot untuk menjelajahi seluruh situs web:

Agen pengguna: *
Melarang:

Larang semua robot dari seluruh situs web:

Agen pengguna: *
Larang: /

Larang semua robot dari "/ folder saya/" dan semua subdirektori "folder saya":

Agen pengguna: *
Larang: /folder saya/

Larang semua robot mengakses file apa pun yang dimulai dengan "myfile.html":

Agen pengguna: *
Larang: /myfile.html

Larang Googlebot mengakses file dan folder yang dimulai dengan "saya":

Agen-pengguna: googlebot
Larang: /my

Mengizinkan

Perintah ini hanya berlaku untuk Googlebot dan memberitahukannya bahwa ia dapat mengakses folder subdirektori atau halaman web bahkan ketika direktori induk atau halaman webnya tidak diizinkan.

Ambil contoh berikut: Larang semua robot dari folder /scripts/kecuali page.php:

Larang: /scripts/
Izinkan: /scripts/page.php

Penundaan perayapan

Ini memberi tahu bot berapa lama menunggu untuk merayapi halaman web. Situs web mungkin menggunakan ini untuk menghemat bandwidth server. Googlebot tidak mengenali perintah ini, dan Google meminta Anda mengubah kecepatan perayapan melalui Search Console. Hindari Penundaan perayapan jika memungkinkan atau gunakan dengan hati-hati karena dapat secara signifikan memengaruhi perayapan situs web yang tepat waktu dan efektif.

peta situs

Beri tahu bot mesin telusur di mana menemukan peta situs XML Anda di file robots.txt Anda. Contoh:

Agen pengguna: *
Larang: /directory-name/
Peta Situs: https://www.domain.com/sitemap.xml

Untuk mempelajari lebih lanjut tentang membuat peta situs XML, lihat ini: Apa itu Peta Situs XML dan Bagaimana Cara Membuatnya?

Karakter Wildcard

Ada dua karakter yang dapat membantu mengarahkan robot tentang cara menangani jenis URL tertentu:

Karakter *. Seperti disebutkan sebelumnya, itu dapat menerapkan arahan ke beberapa robot dengan satu set aturan. Penggunaan lainnya adalah mencocokkan urutan karakter dalam URL untuk melarang URL tersebut.

Misalnya, aturan berikut akan melarang Googlebot mengakses URL apa pun yang berisi "halaman":

Agen-pengguna: googlebot
Larang: /*halaman

Karakter $. $ memberi tahu robot untuk mencocokkan urutan apa pun di akhir URL. Misalnya, Anda mungkin ingin memblokir perayapan semua PDF di situs web:

Agen pengguna: *
Larang: /*.pdf$

Perhatikan bahwa Anda dapat menggabungkan karakter wildcard $ dan *, dan mereka dapat digabungkan untuk perintah allow dan disallow.

Misalnya, Larang semua file asp:

Agen pengguna: *
Larang: /*asp$

Ini tidak akan mengecualikan file dengan string atau folder kueri karena $ yang menunjukkan akhir
Dikecualikan karena wildcard sebelumnya asp – /pretty-wasp
Dikecualikan karena wildcard sebelumnya asp – /login.asp
Tidak dikecualikan karena $ dan URL termasuk string kueri (?forgotten-password=1) – /login.asp?forgotten-password=1

Tidak Merangkak vs. Tidak Mengindeks

Jika Anda tidak ingin Google mengindeks halaman, ada solusi lain selain file robots.txt. Seperti yang ditunjukkan Google di sini:

Metode mana yang harus saya gunakan untuk memblokir perayap?
robots.txt: Gunakan jika perayapan konten Anda menyebabkan masalah di server Anda. Misalnya, Anda mungkin ingin melarang perayapan skrip kalender tak terbatas. Anda tidak boleh menggunakan robots.txt untuk memblokir konten pribadi (sebagai gantinya gunakan autentikasi sisi server), atau menangani kanonikalisasi. Untuk memastikan bahwa URL tidak diindeks, gunakan tag meta robots atau header HTTP X-Robots-Tag.
tag meta robots: Gunakan jika Anda perlu mengontrol bagaimana halaman HTML individual ditampilkan di hasil pencarian (atau untuk memastikan bahwa itu tidak ditampilkan).
X-Robots-Tag HTTP header: Gunakan jika Anda perlu mengontrol bagaimana konten non-HTML ditampilkan dalam hasil pencarian (atau untuk memastikan bahwa itu tidak ditampilkan).

Dan berikut ini panduan lebih lanjut dari Google:

Memblokir Google agar tidak merayapi halaman kemungkinan akan menghapus halaman dari indeks Google.
Namun, robots.txt Disallow tidak menjamin bahwa halaman tidak akan muncul di hasil: Google masih dapat memutuskan, berdasarkan informasi eksternal seperti tautan masuk, bahwa itu relevan. Jika Anda ingin secara eksplisit memblokir halaman agar tidak diindeks, Anda sebaiknya menggunakan tag meta robots noindex atau header HTTP X-Robots-Tag. Dalam hal ini, Anda tidak boleh melarang halaman di robots.txt, karena halaman harus di-crawl agar tag dapat dilihat dan dipatuhi.

Tips Membuat robots.txt tanpa Error

Berikut adalah beberapa tip yang perlu diingat saat Anda membuat file robots.txt:

Perintah peka huruf besar/kecil. Anda membutuhkan modal "D" di Disallow , misalnya.
Selalu sertakan spasi setelah titik dua dalam perintah.
Saat mengecualikan seluruh direktori, letakkan garis miring sebelum dan sesudah nama direktori, seperti: /directory-name/
Semua file yang tidak dikecualikan secara khusus akan disertakan untuk dirayapi bot.

Penguji robots.txt

Selalu uji file robots.txt Anda. Lebih umum bahwa Anda mungkin berpikir bahwa penerbit situs web melakukan kesalahan ini, yang dapat merusak strategi SEO Anda (seperti jika Anda melarang perayapan halaman penting atau seluruh situs web).

Gunakan alat Penguji robots.txt Google. Anda dapat menemukan informasi tentang itu di sini.

Panduan Protokol Pengecualian Robot

Jika Anda perlu menyelam lebih dalam dari artikel ini, unduh Panduan Protokol Pengecualian Robot kami. Ini adalah PDF gratis yang dapat Anda simpan dan cetak sebagai referensi untuk memberi Anda banyak detail tentang cara membuat robots.txt Anda.

Pikiran Penutup

File robots.txt adalah file yang tampaknya sederhana, tetapi memungkinkan penerbit situs web untuk memberikan arahan yang rumit tentang bagaimana mereka ingin bot merayapi situs web. Memperbaiki file ini sangat penting, karena dapat menghapus program SEO Anda jika dilakukan dengan salah.

Karena ada begitu banyak nuansa tentang cara menggunakan robots.txt, pastikan untuk membaca pengantar Google tentang robots.txt.

Apakah Anda memiliki masalah pengindeksan atau masalah lain yang membutuhkan keahlian teknis SEO? Jika Anda menginginkan konsultasi gratis dan penawaran layanan, hubungi kami hari ini.