robots.txt คืออะไร ? [อัพเดตล่าสุด]

  • by
robot-txt-คือ

robots.txt คือ ไฟล์ที่ทำหน้าที่ แจ้ง Search Engine ว่า หน้าไหน หรือไฟล์ไหนบ้าง ที่ Crawler หรือ Robot สามารถ / ไม่ สามารถ เข้าไปเก็บข้อมูลจากเว็บไซต์ของคุณได้

เป้าหมายหลัก ของ การใช้งาน ไฟล์ robots.txt

เพื่อป้องกัน การ เรียก request ที่มากเกินไปใน URL ใดๆ แต่ไม่ได้ใช้เพื่อกันหน้าเว็บออกจาก Google หากต้องการกันหน้าเว็บออกจาก Google คุณควรใช้ คำสั่ง noindex เพราะหากหน้าเว็บอื่นๆ ชี้ไปที่หน้าเว็บของคุณหรือทำ Backlink ไปหาเว็บไซต์ของคุณ หน้าเว็บนั้นจะยังคงถูกจัดทำดัชนีได้โดยไม่ต้องไปที่หน้าเว็บ

หมายเหตุ : ระบบ Crawler / Robots เก็บข้อมูลนั้น เป็นระบบที่ ถูกตั้ง Default ว่าให้เก็บข้อมูลของทุกเว็บไซต์ นั้นหมายความว่าคุณไม่จำเป็นต้องทำก็ได้ หากคุณไม่มีหน้าไหนที่ไม่อยากให้ Crawler เก็บข้อมูล

แต่ ! ถ้าหากคุณมี หน้า ที่ไม่อยากให้ robot เก็บข้อมูล และต้องการลดปริมาณ Crawl Budget ในแต่ละครั้งที่ Robot เก็บข้อมูล จากเว็บไซต์ของคุณ คุณต้องมี robots.txt

robot-txt-วิธีใช้

พื้นฐานการใช้งาน robots.txt เบื้องต้น

ไฟล์ text หรือ .txt ที่คุณสร้างขึ้นมา ต้องเป็นไฟล์ข้อความที่เข้ารหัสแบบ UTF-8 (ซึ่งรวมถึง ASCII) คุณจะใช้การเข้ารหัสข้อความแบบอื่นไม่ได้

ไฟล์ต้องมีชื่อ robots.txt

ไฟล์ต้องถูกเก็บไว้ที่ ระดับ Root Domain ยกตัวอย่างเช่น

เว็บไซต์ https://hapuk.org >>> ไฟล์ robots.txt อยู่ถูกเก็บไว้ใน Root โดยตรงนั้นก็คือ https://hapuk.org/robots.txt

robots.txt สามารถใช้ได้กับ Subdomain เช่น http://website.example.com/robots.txt

ตัวอย่างของ ข้อมูล ภายใน ไฟล์ robots.txt

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

: จะหมายความว่า หากเป็น Crawler ที่ชื่อว่า Googlebot จะไม่อนุญาติให้เข้า URL ใน Sub Folder "nogooglebot" เช่น  
example.com/nogooglebot/ และ example.com/nogooglebot/....

---------------------------------

# Group 2 
User-agent: * 
Allow: / 

: จะหมายความว่า ทุกๆ Crawler สามารถที่จะเข้าถึง ทั้งเว็บไซต์ ( ซึ่งจะมีค่าเท่ากับการไม่ใช้ robots.txt เลย ) 

---------------------------------

Sitemap: http://www.example.com/sitemap.xml

: ส่วนนี้จะเป็นตัวบอก Crawler ว่า แผนผังเว็บไซต์ หรือ Sitemap ของเรา URL อะไร เพื่อให้ง่ายต่อการ เก็บข้อมูล 

ยกตัวอย่างกรณีใช้ robots.txt จริง เคส 1

User-agent: *
Disallow: /wp-admin/

Sitemap: https://hapuk.org/sitemap_index.xml

: ข้อมูลด้านบน คือ ข้อมูลในไฟล์ robots.txt ของเว็บไซต์ HAPUK.ORG มีความหมายว่า 

ห้าม Crawler ทุกตัว เก็บข้อมูลใน Sub Folder  : wp-admin

Sitemap URL : https://hapuk.org/sitemap_index.xml 


ยกตัวอย่างกรณีใช้ robots.txt จริง เคส 2

User-agent: *
Disallow:
Sitemap: https://www.example.com/sitemap.xml

: จะหมายความว่า Robot ทุกตัว สามารถเข้ามาเก็บข้อมูลได้ทุกหน้า  และมี 
sitemap  URL : https://www.example.com/sitemap.xml

กรณีต่างๆเกี่ยวกับการใช้ robots.txt

User-agent: *

Disallow: /


ไม่อนุญาติให้ robot ทุกตัวเข้ามาเก็บข้อมูลภายในเว็บไซต์


User-agent: *

Disallow: /calendar/

Disallow: /junk/

ไม่อนุญาติให้ robot ทุกตัวเข้ามาเก็บ ข้อมูลใน Sub Folder : calender และ junk


User-agent: Googlebot-news

Allow: /

User-agent: *

Disallow: /

อนุญาติ Googlebot-news เพียงตัวเดียวเท่านั้น ที่สามารถเข้ามาเก็บข้อมูลได้


User-agent: Unnecessarybot

Disallow: /

User-agent: *

Allow: /

ไม่อนุญาติให้ Unnecassarybot มาเก็บข้อมูล เพียงตัวเดียว ส่วน Robot ทีเหลือสามารถเข้ามาเก็บข้อมูลได้


User-agent: *

Disallow: /private_file.html


ไม่อนุญาติให้ Robot ทุกตัว เก็บข้อมูล หน้า private_file.html


User-agent: Googlebot-Image

Disallow: /images/dogs.jpg


ไม่อนุญาติให้ Googlebot-Image เก็บข้อมูลรูปภาพ ที่ชื่อว่า dogs.jpg


User-agent: Googlebot-Image

Disallow: /


ไม่อนุญาติให้ Googlebot-Image เก็บข้อมูลรูปภาพทั้งหมด ภายในเว็บไซต์


User-agent: Googlebot

Disallow: /*.gif$


ไม่อนุญาติให้ Googlebot เก็บข้อมูล ไฟล์ประเภท .gif


User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /


ไม่อนุญาติให้ Crawler ทุกตัวเก็บข้อมูล แต่ยังคงให้ Adsense ads :Mediapartners-Google วิเคราะห์ว่าควรโชว์ โฆษณา ประเภทไหนให้กับ USER ดี


User-agent: Googlebot

Disallow: /*.xls$


ไม่อนุญาติให้ Googlebot เก็บข้อมูล ประเภท .xls


สำหรับวันนี้ ผมคงต้องกล่าวคำว่า สวัสดีครับ ไว้เจอกันใหม่ ในบทความต่อไปครับ

ปล. หากท่านใด สนใจ/ต้องการ บริการรับทำ seo ของทางทีมงาน HAPUK.ORG ติดต่อสอบถามเพิ่มเติมได้ที่นี่ > รับทำ seo

ที่มาของเนื้อหา วันนี้ คือ สร้างไฟล์ robots.txt – Search Console ความช่วยเหลือ