ข้อผิดพลาดในการรวบรวมข้อมูลในเครื่องมือเพิ่มประสิทธิภาพ

เผยแพร่แล้ว: 2022-04-17

อาจมีบางครั้งที่โปรแกรมรวบรวมข้อมูล SISTRIX ไม่สามารถจับภาพเนื้อหาทั้งหมดบนหน้าเว็บได้อย่างสมบูรณ์ ในที่นี้ เราจะพิจารณาสาเหตุที่พบบ่อยที่สุดรวมถึงสาเหตุต่างๆ และแสดงวิธีแก้ไขปัญหาเหล่านี้แก่คุณ

ซอฟต์แวร์รวบรวมข้อมูล SISTRIX

การเข้าถึงทั้งหมดที่เกี่ยวข้องกับกล่องเครื่องมือ SISTRIX ดำเนินการโดยโปรแกรมรวบรวมข้อมูล SISTRIX โปรแกรมรวบรวมข้อมูลนี้สามารถระบุได้ด้วยคุณลักษณะที่แตกต่างกันสองประการ: ประการหนึ่งคือตัวแทนผู้ใช้ ซึ่งจะถูกส่งทุกครั้งที่มีการเข้าถึงหน้า โดยค่าเริ่มต้น user-agent คือ:

 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

ในทางกลับกัน ที่อยู่ IP ทั้งหมดของ SISTRIX Crawler จะชี้ไปที่ชื่อโฮสต์ของโดเมน “sistrix.net” ตัวอย่างเช่น โปรแกรมรวบรวมข้อมูลของเราบน IP 136.243.92.8 จะส่งคืน Reverse-DNS-Entry 136-243-92-8.crawler.sistrix.net

SISTRIX Crawler คอยจับตาดูความเร็วในการโหลดของหน้าที่เยี่ยมชมอย่างต่อเนื่องอย่างใกล้ชิด และจะปรับความเร็วที่ขอหน้าใหม่ตามอัตรานี้ ด้วยวิธีนี้ เราจึงมั่นใจได้ว่าเราจะไม่โหลดเว็บเซิร์ฟเวอร์มากเกินไป ดูข้อมูลเพิ่มเติมได้ที่ crawler.sistrix.net

ในเครื่องมือเพิ่มประสิทธิภาพ คุณยังมีความสามารถในการควบคุม user-agent และความเข้มของการรวบรวมข้อมูลของ Optimizer Crawler คุณจะพบการตั้งค่าเหล่านี้ในแต่ละโครงการภายใต้ "การจัดการโครงการ > โปรแกรมรวบรวมข้อมูล" ในกล่อง "การตั้งค่าการรวบรวมข้อมูล" และ "ความเร็วในการรวบรวมข้อมูล"

robots.txt

ก่อนเข้าถึงเว็บไซต์ในครั้งแรก โปรแกรมรวบรวมข้อมูลของเราจะขอไฟล์ที่มีชื่อ “robots.txt” ในไดเร็กทอรีราก เช่นเดียวกับชื่อโฮสต์แต่ละชื่อของโดเมน หากโปรแกรมรวบรวมข้อมูลพบไฟล์นี้ โปรแกรมจะวิเคราะห์และปฏิบัติตามกฎและข้อจำกัดที่พบในไฟล์อย่างใกล้ชิด กฎที่นับเฉพาะ "sistrix" จะได้รับการยอมรับเช่นเดียวกับกฎทั่วไปที่มีตัวระบุ "*" หากคุณใช้ไฟล์ robots.txt เราขอให้คุณโปรดตรวจสอบเนื้อหาเพื่อให้แน่ใจว่าโปรแกรมรวบรวมข้อมูล SISTRIX ไม่ได้ถูกจำกัดโดยไม่ได้ตั้งใจ

หากคุณอ้างถึงแผนผังเว็บไซต์ใน robots.txt โปรแกรมรวบรวมข้อมูลของเราจะเข้าถึงเป็นฐานการรวบรวมข้อมูล

คุ้กกี้

SISTRIX Crawler จะไม่บันทึกคุกกี้ขณะตรวจสอบหน้า โปรดตรวจสอบให้แน่ใจว่าโปรแกรมรวบรวมข้อมูลของเราสามารถเข้าถึงทุกส่วนของหน้าโดยไม่ต้องยอมรับคุกกี้ คุณจะพบ IP ของโปรแกรมรวบรวมข้อมูลของเราใน "การจัดการโครงการ" ใต้ "การตั้งค่าโปรแกรมรวบรวมข้อมูล"

JavaScript

โปรแกรมรวบรวมข้อมูลของเราไม่ได้ใช้ JavaScript โปรดตรวจสอบให้แน่ใจว่าทุกหน้าสามารถเข้าถึงได้เป็นหน้า HTML แบบคงที่ เพื่อให้โปรแกรมรวบรวมข้อมูลของเราสามารถวิเคราะห์ได้

ข้อจำกัดด้านเซิร์ฟเวอร์

สามารถจำกัด SISTRIX Crawler ได้ที่ฝั่งเซิร์ฟเวอร์ ในกรณีนี้ โปรแกรมรวบรวมข้อมูลของเราจะได้รับข้อความแสดงข้อผิดพลาดที่มีรหัสสถานะ HTTP 403 (จำกัด) เมื่อเข้าถึงหน้าเว็บในครั้งแรก หลังจากนั้นจะไม่สามารถเข้าถึงหน้าใด ๆ บนเซิร์ฟเวอร์นี้ได้ ข้อจำกัดด้านเซิร์ฟเวอร์ดังกล่าวอาจถูกนำมาใช้ในระดับระบบที่แตกต่างกัน จุดเริ่มต้นที่ดีคือการตรวจสอบไฟล์ ".htaccess" ของ Apache-webserver หากไม่พบเบาะแสใดๆ ที่นี่ คุณควรติดต่อผู้ให้บริการหรือโฮสต์ น่าเศร้าที่เราไม่สามารถปิดใช้งานข้อจำกัดเหล่านี้ได้ด้วยตนเอง

ตัวอย่างข้อจำกัดทั่วไป

ข้อจำกัดของ robots.txt

หาก robots.txt จำกัดโปรแกรมรวบรวมข้อมูลของ Optimizer คุณจะได้รับข้อผิดพลาด “robots.txt บล็อกการรวบรวมข้อมูล” โปรดตรวจสอบว่ามีข้อจำกัดทั่วไป (User-Agent: *) หรือเฉพาะ (User-Agent: Sistrix) ใน robots.txt ของคุณ หากคุณเปลี่ยน user-agent ในการตั้งค่าโปรแกรมรวบรวมข้อมูลของโปรเจ็กต์ของคุณ โปรดตรวจสอบสิ่งเหล่านั้นด้วย

มีการรวบรวมข้อมูลเพจเพียงเล็กน้อยหรือไม่มีเลย

มีสาเหตุหลายประการที่ทำให้โปรแกรมรวบรวมข้อมูลของเราสามารถรวบรวมข้อมูลได้เพียงเล็กน้อยหรือไม่สามารถรวบรวมข้อมูลได้เลย ในโครงการ Optimizer ไปที่ “วิเคราะห์ > โหมดผู้เชี่ยวชาญ” คุณจะพบรายการเอกสาร HTML ที่รวบรวมข้อมูลทั้งหมดบนโดเมนได้ที่นี่ คุณสามารถค้นหารหัสสถานะได้โดยการเลื่อนไปทางขวาเล็กน้อยในตาราง สิ่งนี้ควรบอกคุณว่าเหตุใดจึงไม่มีการรวบรวมข้อมูลทุกหน้าที่เชื่อมโยงกับโดเมนนี้

  • 200 : หากรหัสสถานะคือ 200 แต่ไม่มีการรวบรวมข้อมูลหน้าอื่น สาเหตุมักมาจากสาเหตุใดสาเหตุหนึ่งต่อไปนี้:
    • ลิงก์ภายในที่ขาดหายไป : โปรแกรมรวบรวมข้อมูลของเราติดตามลิงก์ภายในทั้งหมดที่ไม่ถูกบล็อกสำหรับโปรแกรมรวบรวมข้อมูล โปรดตรวจสอบว่ามีลิงก์ภายในในหน้าเริ่มต้น และหากหน้าเป้าหมายอาจถูกบล็อกสำหรับโปรแกรมรวบรวมข้อมูลของเราโดยการตั้งค่า robots.txt หรือโปรแกรมรวบรวมข้อมูล
    • การตั้งค่า Geo-IP : ในการนำเสนอเว็บไซต์ในภาษาที่ตรงกันของผู้ใช้ทุกคน IP จะถูกตรวจสอบสำหรับประเทศต้นทาง โปรแกรมรวบรวมข้อมูลทั้งหมดของเราตั้งอยู่ในประเทศเยอรมนี ซึ่งทำให้จำเป็นต้องไวท์ลิสต์ Crawler-IP ของเรา หากคุณต้องการให้เข้าถึงเนื้อหาภาษาทั้งหมดที่มีอยู่หลัง Geo-IP-Barrier
  • 301 / 302 : หากรหัสสถานะ 301 หรือ 302 ปรากฏขึ้น โปรดตรวจสอบว่าลิงก์นำไปสู่โดเมนอื่น เช่น sistrix.at ซึ่งนำไปสู่ ​​sistrix.de ผ่านการเปลี่ยนเส้นทาง 301 โปรแกรมรวบรวมข้อมูลของ Optimizer จะอยู่บนโดเมน (หรือโฮสต์หรือไดเรกทอรี) ที่ป้อนในการตั้งค่าโครงการเสมอ ถ้าฉันสร้างโครงการสำหรับ sistrix.at โปรแกรมรวบรวมข้อมูลของเราจะรู้จักการเปลี่ยนเส้นทาง 301 และแสดงในโหมดผู้เชี่ยวชาญ แต่จะไม่ติดตามการเปลี่ยนเส้นทางไปที่ sistrix.de เนื่องจากเป็นโดเมนอื่น
  • 403 : หากมีการส่งรหัสสถานะ 403 ทันที หรือหลังจากหน้าเว็บที่รวบรวมข้อมูลได้สองสามหน้า (รหัสสถานะ 200) แสดงเพียงรหัส 403 คุณควรตรวจสอบสาเหตุที่เซิร์ฟเวอร์จำกัดไม่ให้โปรแกรมรวบรวมข้อมูลของเราร้องขอหน้า โปรดดูรายการสำหรับ "ข้อจำกัดด้านเซิร์ฟเวอร์"
  • 5xx : หากรหัสสถานะ 500 หรือ 5xx แสดงในช่องรหัสสถานะ แสดงว่าเซิร์ฟเวอร์ไม่สามารถดูแลคำขอของเราได้เนื่องจากข้อผิดพลาดของเซิร์ฟเวอร์ ในกรณีนี้ คุณควรรอสักครู่แล้วใช้ปุ่ม "เริ่มโปรแกรมรวบรวมข้อมูลใหม่" ในเมนู "การจัดการโครงการ" หากรหัสสถานะ 5xx แสดงขึ้นเรื่อย ๆ ให้ตรวจสอบว่าเหตุใดเซิร์ฟเวอร์ทำงานหนักเกินไปและไม่สามารถส่งหน้าได้

เหตุใด Google จึงค้นหาเนื้อหาอื่น/มากกว่า SISTRIX

โปรแกรมรวบรวมข้อมูลของเราเริ่มต้นด้วยหน้าเริ่มต้นของโครงการเสมอ แม้ว่าอาจมีการเพิ่มหน้าเริ่มต้นเพิ่มเติมในการตั้งค่าโปรแกรมรวบรวมข้อมูล จากนี้ไป เราจะติดตามลิงก์ภายในทั้งหมดที่ไม่ถูกบล็อก ในหน้าที่มีการเชื่อมโยงเหล่านี้ เราจะติดตามลิงก์ภายในทั้งหมดจนกว่าเราจะพบลิงก์ทั้งหมดที่เรายังไม่ได้ร้องขอ

สิ่งที่อาจเกิดขึ้นคือ ตัวอย่างเช่น หน้า Landingpage ของ AdWords ที่ไม่ได้เชื่อมโยงภายในจะไม่ปรากฏในผลลัพธ์ ซึ่งมักจะทำเพื่อไม่ให้ส่งผลต่อการติดตาม AdWords ซึ่งจะทำให้โปรแกรมรวบรวมข้อมูลของเรามองไม่เห็นหน้าดังกล่าว แน่นอนว่า Google ตระหนักถึงหน้าเหล่านี้

หากคุณเข้าสู่แผนผังเว็บไซต์ของโครงการของเรากับ Google ก็สามารถจ่ายเงินเพื่อลิงก์ไปยังภายใน robots.txt ได้ ด้วยวิธีนี้ โปรแกรมรวบรวมข้อมูลของเราสามารถจดจำและใช้เป็นฐานรวบรวมข้อมูลได้

อีกสาเหตุหนึ่งที่ค่าระหว่างหน้าที่จัดทำดัชนีของการค้นหาโดย Google กับจำนวนหน้าที่รวบรวมข้อมูลในเครื่องมือเพิ่มประสิทธิภาพของคุณอาจต่างกันอาจเป็นเนื้อหาที่ซ้ำกันในดัชนีการค้นหาของ Google