robots.txt คืออะไร คู่มือสำหรับผู้เริ่มต้นใช้งานพร้อมตัวอย่าง

เผยแพร่แล้ว: 2022-03-29

หุ่นไม้ยืนบนสนามหญ้า
อ้อ robots.txt — ไฟล์เล็กๆ ไฟล์เล็กๆ หนึ่งไฟล์ที่มีนัยยะสำคัญ นี่เป็นองค์ประกอบ SEO ทางเทคนิคอย่างหนึ่งที่คุณไม่ต้องการผิดพลาด

ในบทความนี้ ผมจะอธิบายว่าทำไมทุกเว็บไซต์ต้องมี robots.txt และวิธีการสร้าง (โดยไม่ทำให้เกิดปัญหากับ SEO) ฉันจะตอบคำถามที่พบบ่อยและรวมตัวอย่างวิธีดำเนินการอย่างถูกต้องสำหรับเว็บไซต์ของคุณ ฉันจะให้คำแนะนำที่สามารถดาวน์โหลดได้ซึ่งครอบคลุมรายละเอียดทั้งหมด

สารบัญ:

robots.txt คืออะไร
เหตุใด robots.txt จึงมีความสำคัญ
แต่ robots.txt จำเป็นไหม
ปัญหาที่อาจเกิดขึ้นกับ robots.txt คืออะไร
robots.txt ทำงานอย่างไร
เคล็ดลับในการสร้าง robots.txt โดยไม่มีข้อผิดพลาด
ตัวทดสอบ robots.txt
คู่มือโปรโตคอลการยกเว้น Robots (ดาวน์โหลดฟรี)

robots.txt คืออะไร

Robots.txt เป็นไฟล์ข้อความที่ผู้เผยแพร่เว็บไซต์สร้างและบันทึกที่รูทของเว็บไซต์ จุดประสงค์คือเพื่อบอกโปรแกรมรวบรวมข้อมูลเว็บอัตโนมัติ เช่น บอทของเครื่องมือค้นหาว่าหน้าใดที่ไม่ควรรวบรวมข้อมูลบนเว็บไซต์ สิ่งนี้เรียกอีกอย่างว่าโปรโตคอลการยกเว้นโรบ็อต

Robots.txt ไม่รับประกันว่า URL ที่ยกเว้นจะไม่ได้รับการจัดทำดัชนีสำหรับการค้นหา นั่นเป็นเพราะว่าสไปเดอร์ของเครื่องมือค้นหายังคงสามารถค้นหาหน้าเหล่านั้นได้ผ่านทางหน้าเว็บอื่นๆ ที่เชื่อมโยงไปยังหน้าเหล่านั้น หรือหน้าอาจยังคงได้รับการจัดทำดัชนีจากอดีต (เพิ่มเติมในภายหลัง)

Robots.txt ไม่ได้รับประกันอย่างเด็ดขาดว่าบอทจะไม่รวบรวมข้อมูลจากหน้าที่ยกเว้น เนื่องจากเป็นระบบสมัครใจ เป็นเรื่องยากที่บอทของเครื่องมือค้นหาสำคัญๆ จะไม่ปฏิบัติตามคำสั่งของคุณ แต่ตัวอื่นๆ ที่เป็นเว็บโรบ็อตที่ไม่ดี เช่น สแปมบอท มัลแวร์ และสปายแวร์ มักจะไม่ปฏิบัติตามคำสั่ง

โปรดจำไว้ว่า ไฟล์ robots.txt สามารถเข้าถึงได้แบบสาธารณะ คุณสามารถเพิ่ม /robots.txt ต่อท้าย URL โดเมนเพื่อดูไฟล์ robots.txt ได้ (เช่นของเราที่นี่) ดังนั้นอย่ารวมไฟล์หรือโฟลเดอร์ใด ๆ ที่อาจมีข้อมูลที่มีความสำคัญต่อธุรกิจ และอย่าพึ่งพาไฟล์ robots.txt เพื่อปกป้องข้อมูลส่วนตัวหรือข้อมูลที่ละเอียดอ่อนจากเครื่องมือค้นหา

ตกลง ด้วยคำเตือนเหล่านั้นให้พ้นทาง ไปต่อ...

เหตุใด robots.txt จึงมีความสำคัญ

บอทของเครื่องมือค้นหามีคำสั่งในการรวบรวมข้อมูลและจัดทำดัชนีหน้าเว็บ ด้วยไฟล์ robots.txt คุณสามารถเลือกยกเว้นหน้าเว็บ ไดเร็กทอรี หรือไซต์ทั้งหมดจากการรวบรวมข้อมูลได้

สิ่งนี้มีประโยชน์ในสถานการณ์ต่างๆ ต่อไปนี้คือบางสถานการณ์ที่คุณต้องการใช้ robots.txt ของคุณ:

เพื่อบล็อกบางหน้าหรือไฟล์ที่ไม่ควรรวบรวมข้อมูล/จัดทำดัชนี (เช่น หน้าที่ไม่สำคัญหรือคล้ายกัน)
เพื่อหยุดการรวบรวมข้อมูลบางส่วนของเว็บไซต์ในขณะที่คุณกำลังอัปเดต
เพื่อบอกเครื่องมือค้นหาตำแหน่งของแผนผังไซต์ของคุณ
เพื่อบอกให้เสิร์ชเอ็นจิ้นละเว้นไฟล์บางไฟล์บนเว็บไซต์ เช่น วิดีโอ ไฟล์เสียง รูปภาพ PDF เป็นต้น และไม่แสดงในผลการค้นหา
เพื่อช่วยให้แน่ใจว่าเซิร์ฟเวอร์ของคุณไม่มีคำขอมากมาย*

*การใช้ robots.txt เพื่อบล็อกการรวบรวมข้อมูลโดยไม่จำเป็นเป็นวิธีหนึ่งในการลดความยุ่งยากบนเซิร์ฟเวอร์ของคุณและช่วยให้บอทค้นหาเนื้อหาที่ดีของคุณได้อย่างมีประสิทธิภาพมากขึ้น Google มีแผนภูมิที่มีประโยชน์ที่นี่ นอกจากนี้ Bing ยังสนับสนุนคำสั่งการหน่วงเวลาการตระเวน ซึ่งสามารถช่วยป้องกันคำขอมากเกินไปและหลีกเลี่ยงเซิร์ฟเวอร์ที่ล้นเกิน

แน่นอน มีแอปพลิเคชั่นของ robots.txt มากมาย และฉันจะสรุปเพิ่มเติมในบทความนี้

แต่ robots.txt จำเป็นหรือไม่

ทุกเว็บไซต์ควรมีไฟล์ robots.txt แม้ว่าจะว่างเปล่าก็ตาม เมื่อบ็อตของเครื่องมือค้นหามาที่เว็บไซต์ของคุณ สิ่งแรกที่พวกมันค้นหาคือไฟล์ robots.txt

หากไม่มีอยู่ สไปเดอร์จะได้รับข้อผิดพลาด 404 (ไม่พบ) แม้ว่า Google จะบอกว่า Googlebot สามารถดำเนินการต่อและรวบรวมข้อมูลเว็บไซต์ได้แม้ว่าจะไม่มีไฟล์ robots.txt แต่เราเชื่อว่าควรมีไฟล์แรกที่บอทร้องขอให้โหลดแทนที่จะสร้างข้อผิดพลาด 404

ปัญหาที่อาจเกิดขึ้นกับ robots.txt คืออะไร

ไฟล์เล็กๆ ง่ายๆ นี้อาจทำให้เกิดปัญหากับ SEO ได้หากคุณไม่ระวัง ต่อไปนี้คือบางสถานการณ์ที่ต้องระวัง

1. บล็อกทั้งไซต์ของคุณโดยบังเอิญ

gotcha นี้เกิดขึ้นบ่อยกว่าที่คุณคิด นักพัฒนาสามารถใช้ robots.txt เพื่อซ่อนส่วนใหม่หรือส่วนที่ออกแบบใหม่ของเว็บไซต์ในขณะที่พวกเขากำลังพัฒนาส่วนนั้น แต่หลังจากนั้นก็ลืมที่จะ เลิกบล็อก หลังจากเปิดตัว หากเป็นเว็บไซต์ที่มีอยู่แล้ว ข้อผิดพลาดนี้อาจทำให้การจัดอันดับของเสิร์ชเอ็นจิ้นเพิ่มขึ้นอย่างกะทันหัน

สะดวกในการปิดการรวบรวมข้อมูลในขณะที่คุณกำลังเตรียมไซต์ใหม่หรือส่วนไซต์สำหรับการเปิดตัว อย่าลืมเปลี่ยนคำสั่งนั้นใน robots.txt เมื่อเว็บไซต์เผยแพร่

2. ไม่รวมหน้าที่จัดทำดัชนีแล้ว

การบล็อกในหน้า robots.txt ที่จัดทำดัชนีจะทำให้หน้าดังกล่าวติดอยู่ในดัชนีของ Google

หากคุณยกเว้นหน้าที่อยู่ในดัชนีของเครื่องมือค้นหาแล้ว หน้าเหล่านั้นก็จะยังคงอยู่ ในการลบออกจากดัชนีจริงๆ คุณควรตั้งค่าแท็ก "noindex" ของ meta robots บนหน้าเว็บเอง และปล่อยให้ Google รวบรวมข้อมูลและประมวลผลสิ่งนั้น เมื่อหน้าต่างๆ หลุดออกจากดัชนีแล้ว ให้บล็อกหน้าดังกล่าวใน robots.txt เพื่อป้องกันไม่ให้ Google ร้องขออีกในอนาคต

robots.txt ทำงานอย่างไร

ในการสร้างไฟล์ robots.txt คุณสามารถใช้แอปพลิเคชันง่ายๆ เช่น Notepad หรือ TextEdit บันทึกด้วยชื่อไฟล์ robots.txt และอัปโหลดไปที่รูทของเว็บไซต์ของคุณในชื่อ www.domain.com/robots.txt —— นี่คือที่ที่สไปเดอร์จะมองหา

ไฟล์ robots.txt อย่างง่ายจะมีลักษณะดังนี้:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /directory-name/

Google ให้คำอธิบายที่ดีเกี่ยวกับความหมายของบรรทัดต่างๆ ในกลุ่มภายในไฟล์ robots.txt ในไฟล์วิธีใช้ในการสร้าง robots.txt:

แต่ละกลุ่มประกอบด้วยหลายกฎหรือคำสั่ง (คำสั่ง) หนึ่งคำสั่งต่อบรรทัด
กลุ่มให้ข้อมูลต่อไปนี้:
กลุ่มนำไปใช้กับใคร (ตัวแทนผู้ใช้)
ไดเร็กทอรีหรือไฟล์ใดที่เอเจนต์สามารถเข้าถึงได้
ไดเร็กทอรีหรือไฟล์ใดที่เอเจนต์ไม่สามารถเข้าถึงได้

ฉันจะอธิบายเพิ่มเติมเกี่ยวกับคำสั่งต่างๆ ในไฟล์ robots.txt ต่อไป

คำสั่ง Robots.txt

ไวยากรณ์ทั่วไปที่ใช้ใน robots.txt มีดังต่อไปนี้:

ตัวแทนผู้ใช้

User-agent หมายถึงบอทที่คุณให้คำสั่ง (เช่น Googlebot หรือ Bingbot) คุณสามารถมีคำสั่งได้หลายแบบสำหรับตัวแทนผู้ใช้ที่แตกต่างกัน แต่เมื่อคุณใช้อักขระ * (ดังที่แสดงในส่วนก่อนหน้า) นั่นเป็น catch-all ซึ่งหมายถึงตัวแทนผู้ใช้ทั้งหมด คุณสามารถดูรายชื่อตัวแทนผู้ใช้ได้ที่นี่

ไม่อนุญาต

กฎ Disallow ระบุโฟลเดอร์ ไฟล์ หรือแม้แต่ไดเร็กทอรีทั้งหมดที่จะแยกออกจากการเข้าถึง Web robots ตัวอย่าง ได้แก่ :

อนุญาตให้หุ่นยนต์แมงมุมทั้งเว็บไซต์:

ตัวแทนผู้ใช้: *
ไม่อนุญาต:

ไม่อนุญาตโรบ็อตทั้งหมดจากเว็บไซต์ทั้งหมด:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /

ไม่อนุญาตโรบ็อตทั้งหมดจาก “/myfolder/” และไดเรกทอรีย่อยทั้งหมดของ “myfolder”:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /myfolder/

ไม่อนุญาตให้โรบ็อตทั้งหมดเข้าถึงไฟล์ใดๆ ที่ขึ้นต้นด้วย “myfile.html”:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /myfile.html

ไม่อนุญาตให้ Googlebot เข้าถึงไฟล์และโฟลเดอร์ที่ขึ้นต้นด้วย "my":

User-agent: googlebot
ไม่อนุญาต: /my

อนุญาต

คำสั่งนี้ใช้ได้กับ Googlebot เท่านั้นและแจ้งว่าสามารถเข้าถึงโฟลเดอร์ไดเรกทอรีย่อยหรือหน้าเว็บได้แม้ว่าจะไม่อนุญาตไดเรกทอรีหลักหรือหน้าเว็บก็ตาม

ใช้ตัวอย่างต่อไปนี้: ไม่อนุญาตโรบ็อตทั้งหมดจาก /scripts/folder ยกเว้น page.php:

ไม่อนุญาต: /scripts/
อนุญาต: /scripts/page.php

รวบรวมข้อมูลล่าช้า

สิ่งนี้จะบอกบอทว่าต้องรอนานแค่ไหนเพื่อรวบรวมข้อมูลหน้าเว็บ เว็บไซต์อาจใช้สิ่งนี้เพื่อรักษาแบนด์วิดท์ของเซิร์ฟเวอร์ Googlebot ไม่รู้จักคำสั่งนี้ และ Google ขอให้คุณเปลี่ยนอัตราการรวบรวมข้อมูลผ่าน Search Console หลีกเลี่ยงความล่าช้าในการรวบรวมข้อมูลหากเป็นไปได้ หรือใช้อย่างระมัดระวัง เนื่องจากอาจส่งผลกระทบอย่างมากต่อการรวบรวมข้อมูลเว็บไซต์ในเวลาที่เหมาะสมและมีประสิทธิภาพ

แผนผังเว็บไซต์

บอกบอทของเครื่องมือค้นหาว่าจะหาแผนผังไซต์ XML ได้ที่ไหนในไฟล์ robots.txt ตัวอย่าง:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /directory-name/
แผนผังเว็บไซต์: https://www.domain.com/sitemap.xml

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการสร้างแผนผังเว็บไซต์ XML โปรดดูที่: XML Sitemap คืออะไรและจะสร้างได้อย่างไร

อักขระตัวแทน

มีอักขระสองตัวที่สามารถช่วยควบคุมโรบ็อตเกี่ยวกับวิธีจัดการประเภท URL เฉพาะ:

บทบาท. ดังที่ได้กล่าวไว้ก่อนหน้านี้ มันสามารถใช้คำสั่งกับหุ่นยนต์หลายตัวด้วยกฎชุดเดียว อีกวิธีหนึ่งคือการจับคู่ลำดับของอักขระใน URL เพื่อไม่อนุญาตให้ใช้ URL เหล่านั้น

ตัวอย่างเช่น กฎต่อไปนี้จะไม่อนุญาตให้ Googlebot เข้าถึง URL ใดๆ ที่มี "หน้า":

User-agent: googlebot
ไม่อนุญาต: /*หน้า

อักขระ $ $ บอกให้โรบ็อตจับคู่ลำดับใดๆ ที่ส่วนท้ายของ URL ตัวอย่างเช่น คุณอาจต้องการบล็อกการรวบรวมข้อมูลของ PDF ทั้งหมดบนเว็บไซต์:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /*.pdf$

โปรดทราบว่าคุณสามารถรวมอักขระตัวแทน $ และ * และสามารถรวมกันได้สำหรับคำสั่ง allow และ disallow

ตัวอย่างเช่น ไม่อนุญาตไฟล์ asp ทั้งหมด:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /*asp$

สิ่งนี้จะไม่แยกไฟล์ที่มีสตริงการสืบค้นหรือโฟลเดอร์เนื่องจาก $ ซึ่งกำหนดจุดสิ้นสุด
ยกเว้นเนื่องจากไวด์การ์ดนำหน้า asp – /pretty-wasp
ยกเว้นเนื่องจากไวด์การ์ดนำหน้า asp – /login.asp
ไม่ถูกยกเว้นเนื่องจาก $ และ URL รวมถึงสตริงการสืบค้น (?forgotten-password=1) – /login.asp?forgotten-password=1

ไม่รวบรวมข้อมูลเทียบกับไม่จัดทำดัชนี

หากคุณไม่ต้องการให้ Google จัดทำดัชนีหน้าเว็บ มีวิธีแก้ไขอื่นๆ นอกเหนือจากไฟล์ robots.txt ตามที่ Google ชี้ให้เห็นที่นี่:

ฉันควรใช้วิธีใดในการบล็อกโปรแกรมรวบรวมข้อมูล
robots.txt: ใช้หากการรวบรวมข้อมูลเนื้อหาของคุณทำให้เกิดปัญหาบนเซิร์ฟเวอร์ของคุณ ตัวอย่างเช่น คุณอาจต้องการไม่อนุญาตให้รวบรวมข้อมูลสคริปต์ปฏิทินที่ไม่มีที่สิ้นสุด คุณไม่ควรใช้ robots.txt เพื่อบล็อกเนื้อหาส่วนตัว (ใช้การตรวจสอบสิทธิ์ฝั่งเซิร์ฟเวอร์แทน) หรือจัดการ Canonicalization เพื่อให้แน่ใจว่าไม่มีการจัดทำดัชนี URL ให้ใช้เมตาแท็กของโรบ็อตหรือส่วนหัว X-Robots-Tag HTTP แทน
เมตาแท็กของโรบ็อต: ใช้หากคุณต้องการควบคุมการแสดงหน้า HTML แต่ละหน้าในผลการค้นหา (หรือเพื่อให้แน่ใจว่าไม่แสดงหน้านั้น)
ส่วนหัว X-Robots-Tag HTTP: ใช้หากคุณต้องการควบคุมการแสดงเนื้อหาที่ไม่ใช่ HTML ในผลการค้นหา (หรือเพื่อให้แน่ใจว่าไม่แสดง)

และนี่คือคำแนะนำเพิ่มเติมจาก Google:

การบล็อก Google จากการรวบรวมข้อมูลหน้ามีแนวโน้มที่จะลบหน้าออกจากดัชนีของ Google
อย่างไรก็ตาม robots.txt Disallow ไม่ได้รับประกันว่าหน้าจะไม่ปรากฏในผลลัพธ์: Google อาจยังคงตัดสินใจตามข้อมูลภายนอกเช่นลิงก์ขาเข้าว่ามีความเกี่ยวข้อง หากคุณต้องการบล็อกหน้าจากการจัดทำดัชนีอย่างชัดแจ้ง คุณควรใช้เมตาแท็ก noindex robots หรือส่วนหัว X-Robots-Tag HTTP แทน ในกรณีนี้ คุณไม่ควรไม่อนุญาตให้ใช้หน้าใน robots.txt เนื่องจากต้องมีการรวบรวมข้อมูลหน้าเพื่อให้แท็กมองเห็นและปฏิบัติตามได้

เคล็ดลับในการสร้าง robots.txt โดยไม่มีข้อผิดพลาด

ต่อไปนี้คือเคล็ดลับบางประการที่คุณควรคำนึงถึงเมื่อคุณสร้างไฟล์ robots.txt:

คำสั่งต้องคำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ คุณต้องใช้ตัวพิมพ์ใหญ่ "D" ใน Disallow เป็นต้น
ใส่ช่องว่างหลังโคลอนในคำสั่งเสมอ
เมื่อไม่รวมไดเร็กทอรีทั้งหมด ให้ใส่เครื่องหมายทับก่อนและหลังชื่อไดเร็กทอรี เช่น: /directory-name/
ไฟล์ทั้งหมดที่ไม่ได้ยกเว้นโดยเฉพาะจะถูกรวมไว้สำหรับบอทที่จะรวบรวมข้อมูล

ตัวทดสอบ robots.txt

ทดสอบไฟล์ robots.txt ของคุณเสมอ เป็นเรื่องปกติที่คุณอาจคิดว่าผู้เผยแพร่เว็บไซต์ทำผิด ซึ่งอาจทำลายกลยุทธ์ SEO ของคุณ (เช่น หากคุณไม่อนุญาตให้รวบรวมข้อมูลของหน้าสำคัญหรือเว็บไซต์ทั้งหมด)

ใช้เครื่องมือทดสอบ robots.txt ของ Google คุณสามารถหาข้อมูลเกี่ยวกับเรื่องนั้นได้ที่นี่

คู่มือโปรโตคอลการยกเว้นโรบ็อต

หากคุณต้องการข้อมูลเชิงลึกมากกว่าบทความนี้ ดาวน์โหลด Robots Exclusion Protocol Guide ของเรา เป็น PDF ฟรีที่คุณสามารถบันทึกและพิมพ์เพื่อใช้อ้างอิงเพื่อให้คุณได้รับข้อมูลเฉพาะมากมายเกี่ยวกับวิธีสร้าง robots.txt ของคุณ

ปิดความคิด

ไฟล์ robots.txt เป็นไฟล์ที่ดูเหมือนง่าย แต่ช่วยให้ผู้เผยแพร่เว็บไซต์สามารถให้คำสั่งที่ซับซ้อนว่าต้องการให้บอทรวบรวมข้อมูลเว็บไซต์อย่างไร การทำให้ไฟล์นี้ถูกต้องเป็นสิ่งสำคัญ เนื่องจากโปรแกรม SEO ของคุณอาจลบล้างได้หากทำผิด

เนื่องจากมีความแตกต่างมากมายในการใช้ robots.txt โปรดอ่านคำแนะนำเบื้องต้นของ Google เกี่ยวกับ robots.txt

คุณมีปัญหาในการจัดทำดัชนีหรือปัญหาอื่นๆ ที่ต้องการความเชี่ยวชาญด้านเทคนิค SEO หรือไม่? หากคุณต้องการคำปรึกษาและบริการฟรี ติดต่อเราวันนี้