robots.txt คืออะไร ? [อัพเดตล่าสุด]

  • by
  • 3 min read
robot-txt-คือ

robots.txt คือ ไฟล์ที่ทำหน้าที่ แจ้ง Search Engine ว่า หน้าไหน หรือไฟล์ไหนบ้าง ที่ Crawler หรือ Robot สามารถ / ไม่ สามารถ เข้าไปเก็บข้อมูลจากเว็บไซต์ของคุณได้ ด้วยการ Crawl ปกติ ที่ไม่ใช่การ crawl มาจาก Backlink

เป้าหมายหลักของการใช้งาน ไฟล์ robots.txt

เพื่อป้องกัน การ เรียก request ที่มากเกินไปใน URL ใดๆ แต่ไม่ได้ใช้เพื่อกันหน้าเว็บออกจาก Google หากต้องการกันหน้าเว็บออกจาก Google คุณควรใช้ คำสั่ง noindex เพราะหากหน้าเว็บอื่นๆ ชี้ไปที่หน้าเว็บของคุณหรือทำ Backlink ไปหาเว็บไซต์ของคุณ หน้าเว็บนั้นจะยังคงถูกจัดทำดัชนีได้โดยไม่ต้องไปที่หน้าเว็บ

คำสั่ง noindex ใส่ไว้ใน <head> : <meta name=”googlebot” content=”noindex”>

หมายเหตุ : ระบบ Crawler / Robots เก็บข้อมูลนั้น เป็นระบบที่ ถูกตั้ง Default ว่าให้เก็บข้อมูลของทุกเว็บไซต์ นั้นหมายความว่าคุณไม่จำเป็นต้องทำก็ได้ หากคุณไม่มีหน้าไหนที่ไม่อยากให้ Crawler เก็บข้อมูล

แต่ ! ถ้าหากคุณมี หน้า ที่ไม่อยากให้ robot เก็บข้อมูล และต้องการลดปริมาณ Crawl Budget ( ลิมิตการ crawl ในแต่ละวัน ) ในแต่ละครั้งที่ Robot เก็บข้อมูล จากเว็บไซต์ของคุณ คุณต้องมี robots.txt

robot-txt-วิธีใช้

พื้นฐานการใช้งาน robots.txt เบื้องต้น

ไฟล์ text หรือ .txt ที่คุณสร้างขึ้นมา ต้องเป็นไฟล์ข้อความที่เข้ารหัสแบบ UTF-8 (ซึ่งรวมถึง ASCII) คุณจะใช้การเข้ารหัสข้อความแบบอื่นไม่ได้

ไฟล์ต้องมีชื่อ robots.txt

ไฟล์ต้องถูกเก็บไว้ที่ ระดับ Root Domain ยกตัวอย่างเช่น

เว็บไซต์ https://hapuk.org >>> ไฟล์ robots.txt อยู่ถูกเก็บไว้ใน Root โดยตรงนั้นก็คือ https://hapuk.org/robots.txt

robots.txt สามารถใช้ได้กับ Subdomain เช่น http://website.example.com/robots.txt

ตัวอย่างของ ข้อมูล ภายใน ไฟล์ robots.txt

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

: จะหมายความว่า หากเป็น Crawler ที่ชื่อว่า Googlebot จะไม่อนุญาติให้เข้า URL ใน Sub Folder "nogooglebot" เช่น  
example.com/nogooglebot/ และ example.com/nogooglebot/....

---------------------------------

# Group 2 
User-agent: * 
Allow: / 

: จะหมายความว่า ทุกๆ Crawler สามารถที่จะเข้าถึง ทั้งเว็บไซต์ ( ซึ่งจะมีค่าเท่ากับการไม่ใช้ robots.txt เลย ) 

---------------------------------

Sitemap: http://www.example.com/sitemap.xml

: ส่วนนี้จะเป็นตัวบอก Crawler ว่า แผนผังเว็บไซต์ หรือ Sitemap ของเรา URL อะไร เพื่อให้ง่ายต่อการ เก็บข้อมูล 

ยกตัวอย่างกรณีใช้ robots.txt จริง เคส 1

User-agent: *
Disallow: /wp-admin/

Sitemap: https://hapuk.org/sitemap_index.xml

: ข้อมูลด้านบน คือ ข้อมูลในไฟล์ robots.txt ของเว็บไซต์ HAPUK.ORG มีความหมายว่า 

ห้าม Crawler ทุกตัว เก็บข้อมูลใน Sub Folder  : wp-admin

Sitemap URL : https://hapuk.org/sitemap_index.xml 


ยกตัวอย่างกรณีใช้ robots.txt จริง เคส 2

User-agent: *
Disallow:
Sitemap: https://www.example.com/sitemap.xml

: จะหมายความว่า Robot ทุกตัว สามารถเข้ามาเก็บข้อมูลได้ทุกหน้า  และมี 
sitemap  URL : https://www.example.com/sitemap.xml

กรณีต่างๆเกี่ยวกับการใช้ robots.txt

User-agent: *

Disallow: /


ไม่อนุญาติให้ robot ทุกตัวเข้ามาเก็บข้อมูลภายในเว็บไซต์


User-agent: *

Disallow: /calendar/

Disallow: /junk/

ไม่อนุญาติให้ robot ทุกตัวเข้ามาเก็บ ข้อมูลใน Sub Folder : calender และ junk


User-agent: Googlebot-news

Allow: /

User-agent: *

Disallow: /

อนุญาติ Googlebot-news เพียงตัวเดียวเท่านั้น ที่สามารถเข้ามาเก็บข้อมูลได้


User-agent: Unnecessarybot

Disallow: /

User-agent: *

Allow: /

ไม่อนุญาติให้ Unnecassarybot มาเก็บข้อมูล เพียงตัวเดียว ส่วน Robot ทีเหลือสามารถเข้ามาเก็บข้อมูลได้


User-agent: *

Disallow: /private_file.html


ไม่อนุญาติให้ Robot ทุกตัว เก็บข้อมูล หน้า private_file.html


User-agent: Googlebot-Image

Disallow: /images/dogs.jpg


ไม่อนุญาติให้ Googlebot-Image เก็บข้อมูลรูปภาพ ที่ชื่อว่า dogs.jpg


User-agent: Googlebot-Image

Disallow: /


ไม่อนุญาติให้ Googlebot-Image เก็บข้อมูลรูปภาพทั้งหมด ภายในเว็บไซต์


User-agent: Googlebot

Disallow: /*.gif$


ไม่อนุญาติให้ Googlebot เก็บข้อมูล ไฟล์ประเภท .gif


User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /


ไม่อนุญาติให้ Crawler ทุกตัวเก็บข้อมูล แต่ยังคงให้ Adsense ads :Mediapartners-Google วิเคราะห์ว่าควรโชว์ โฆษณา ประเภทไหนให้กับ USER ดี


User-agent: Googlebot

Disallow: /*.xls$


ไม่อนุญาติให้ Googlebot เก็บข้อมูล ประเภท .xls


สำหรับวันนี้ ผมคงต้องกล่าวคำว่า สวัสดีครับ ไว้เจอกันใหม่ ในบทความต่อไปครับ

ปล. หากท่านใด สนใจ/ต้องการ บริการรับทำ seo ของทางทีมงาน HAPUK.ORG ติดต่อสอบถามเพิ่มเติมได้ที่นี่ > รับทำ seo

ที่มาของเนื้อหา วันนี้ คือ สร้างไฟล์ robots.txt – Search Console ความช่วยเหลือ