Semalt: วิธีบล็อก Darodar Robots.txt

ไฟล์ Robots.txt เป็นไฟล์ข้อความทั่วไปซึ่งมีคำแนะนำเกี่ยวกับวิธีที่โปรแกรมรวบรวมข้อมูลเว็บหรือบอทควรรวบรวมข้อมูลเว็บไซต์ แอปพลิเคชันของพวกเขาเห็นได้ชัดในบอตของ เครื่องมือค้นหา ซึ่งพบได้ทั่วไปในเว็บไซต์ที่ได้รับการปรับปรุงมากมาย ในฐานะที่เป็นส่วนหนึ่งของ Robots Exclusion Protocol (REP) ไฟล์ robots.txt จะเป็นองค์ประกอบสำคัญของการทำดัชนีเนื้อหาเว็บไซต์รวมถึงทำให้เซิร์ฟเวอร์สามารถตรวจสอบคำขอของผู้ใช้ได้

Julia Vashneva ผู้จัดการความสำเร็จของลูกค้าอาวุโสของ Semalt อธิบายว่าการเชื่อมโยงเป็นส่วนหนึ่งของ Search Engine Optimization (SEO) ซึ่งเกี่ยวข้องกับการดึงดูดปริมาณการใช้งานจากโดเมนอื่นภายในช่องของคุณ สำหรับลิงก์ "ติดตาม" เพื่อถ่ายโอนลิงค์ของน้ำจำเป็นต้องมีไฟล์ robots.txt บนพื้นที่โฮสต์เว็บไซต์ของคุณเพื่อทำหน้าที่เป็นผู้สอนวิธีที่เซิร์ฟเวอร์โต้ตอบกับไซต์ของคุณ จากที่เก็บถาวรนี้มีคำแนะนำโดยอนุญาตหรือไม่อนุญาตให้ตัวแทนผู้ใช้บางรายทำงานอย่างไร

รูปแบบพื้นฐานของไฟล์ robots.txt

ไฟล์ robots.txt มีสองบรรทัดสำคัญ:

ตัวแทนผู้ใช้: [ชื่อผู้ใช้ตัวแทน]

ไม่อนุญาต: [ไม่ควรรวบรวมข้อมูล URL]

ไฟล์ robots.txt ที่สมบูรณ์ควรมีสองบรรทัดนี้ อย่างไรก็ตามบางรายการสามารถมี user-agent และ directives ได้หลายบรรทัด คำสั่งเหล่านี้อาจมีลักษณะต่าง ๆ เช่นอนุญาตปิดการใช้งานหรือรวบรวมข้อมูลล่าช้า โดยปกติจะมีการแบ่งบรรทัดซึ่งแยกชุดคำสั่งแต่ละชุด คำสั่งอนุญาตหรือไม่อนุญาตแต่ละรายการจะถูกคั่นด้วยตัวแบ่งบรรทัดนี้โดยเฉพาะอย่างยิ่งสำหรับ robots.txt ที่มีหลายบรรทัด

ตัวอย่าง

ตัวอย่างเช่นไฟล์ robots.txt อาจมีรหัสเช่น:

ตัวแทนผู้ใช้: darodar

ไม่อนุญาต: / plugin

ไม่อนุญาต: / API

ไม่อนุญาต: / _comments

ในกรณีนี้นี่คือไฟล์บล็อก robots.txt ที่ จำกัด โปรแกรมรวบรวมข้อมูลเว็บ Darodar ไม่ให้เข้าถึงเว็บไซต์ของคุณ ในไวยากรณ์ข้างต้นโค้ดบล็อกลักษณะของเว็บไซต์เช่นปลั๊กอิน, API และส่วนความคิดเห็น จากความรู้นี้เป็นไปได้ที่จะได้รับประโยชน์มากมายจากการดำเนินการไฟล์ข้อความของหุ่นยนต์อย่างมีประสิทธิภาพ ไฟล์ Robots.txt สามารถทำงานได้มากมาย ตัวอย่างเช่นพวกเขาพร้อมที่จะ:

1. อนุญาตเนื้อหาเว็บซอฟต์แวร์รวบรวมข้อมูลทั้งหมดลงในหน้าเว็บไซต์ ตัวอย่างเช่น

ตัวแทนผู้ใช้: *

ไม่อนุญาตให้ใช้:

ในกรณีนี้เนื้อหาของผู้ใช้สามารถเข้าถึงได้โดยโปรแกรมรวบรวมข้อมูลเว็บใด ๆ ที่ถูกร้องขอให้ไปที่เว็บไซต์

2. บล็อกเนื้อหาเว็บเฉพาะจากโฟลเดอร์เฉพาะ ตัวอย่างเช่น;

ตัวแทนผู้ใช้: Googlebot

ไม่อนุญาต: / example-subfolder /

ไวยากรณ์นี้มีชื่อตัวแทนผู้ใช้ Googlebot เป็นของ Google มัน จำกัด บอตไม่ให้เข้าถึงหน้าเว็บใด ๆ ในสตริง www.ourexample.com/example-subfolder/

3. บล็อกโปรแกรมสืบค้นเว็บเฉพาะจากหน้าเว็บเฉพาะ ตัวอย่างเช่น;

ตัวแทนผู้ใช้: Bingbot

ไม่อนุญาต: /example-subfolder/blocked-page.html

Bing ผู้ใช้ - เอเจนต์เป็นของ Bing ซอฟต์แวร์รวบรวมข้อมูลเว็บ ไฟล์ robots.txt ประเภทนี้จะ จำกัด โปรแกรมตรวจสอบเนื้อหาเว็บของ Bing ไม่ให้เข้าถึงหน้าเว็บเฉพาะด้วยสตริง www.ourexample.com/example-subfolder/blocked-page

ข้อมูลสำคัญ

  • ไม่ใช่ผู้ใช้ทุกคนที่ใช้ไฟล์ robts.txt ของคุณ ผู้ใช้บางคนอาจตัดสินใจเพิกเฉย โปรแกรมรวบรวมข้อมูลเว็บดังกล่าวส่วนใหญ่มีโทรจันและมัลแวร์
  • เพื่อให้สามารถมองเห็นไฟล์ Robots.txt ได้ควรมีอยู่ในไดเรกทอรีเว็บไซต์ระดับบนสุด
  • อักขระ "robots.txt" เป็นตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ ดังนั้นคุณไม่ควรเปลี่ยนแปลงสิ่งใด ๆ รวมถึงการใช้อักษรตัวพิมพ์ใหญ่ในบางด้าน
  • "/robots.txt" เป็นโดเมนสาธารณะ ทุกคนสามารถค้นหาข้อมูลนี้ได้โดยเพิ่มลงในเนื้อหาของ URL ใด ๆ คุณไม่ควรจัดทำดัชนีรายละเอียดหรือหน้าเว็บที่คุณต้องการให้เป็นแบบส่วนตัว