Back to Question Center
0

Semalt ให้คำแนะนำเกี่ยวกับวิธีการจัดการกับบอท, แมงมุมและโปรแกรมรวบรวมข้อมูล

1 answers:

นอกเหนือจากการสร้าง URL ที่เป็นมิตร เครื่องมือค้นหา ไฟล์. htaccess ช่วยให้เว็บมาสเตอร์สามารถบล็อกบอตที่เฉพาะเจาะจงได้จากการเข้าถึงเว็บไซต์ของตน วิธีหนึ่งในการบล็อกหุ่นยนต์เหล่านี้คือผ่านไฟล์ robots.txt อย่างไรก็ตามรอสส์บาร์เบอร์ Semalt ผู้จัดการฝ่ายลูกค้าสัมพันธ์กล่าวว่าเขาได้เห็นโปรแกรมรวบรวมข้อมูลบางส่วนที่ไม่สนใจคำขอนี้ วิธีหนึ่งที่ดีที่สุดคือการใช้ไฟล์. htaccess เพื่อไม่ให้พวกเขาสร้างดัชนีเนื้อหาของคุณ

บอทเหล่านี้คืออะไร?

เป็นซอฟต์แวร์ที่ใช้โดยเครื่องมือค้นหาเพื่อลบเนื้อหาใหม่จากอินเทอร์เน็ตเพื่อวัตถุประสงค์ในการจัดทำดัชนี

ปฏิบัติหน้าที่ดังต่อไปนี้

  • ไปที่หน้าเว็บที่คุณลิงก์กับ
  • ตรวจสอบรหัส HTML ของคุณเพื่อดูข้อผิดพลาด
  • พวกเขาบันทึกสิ่งที่หน้าเว็บที่คุณกำลังเชื่อมโยงไปและดูว่าหน้าเว็บใดลิงก์ไปยังเนื้อหาของคุณ
  • พวกเขาทำดัชนีเนื้อหาของคุณ

อย่างไรก็ตามบอทบางแห่งอาจเป็นอันตรายและค้นหาไซต์ของคุณสำหรับที่อยู่อีเมลและแบบฟอร์มที่มักใช้ในการส่งข้อความหรือสแปมที่ไม่พึงประสงค์ อื่น ๆ แม้แต่มองหาช่องโหว่ความปลอดภัยในรหัสของคุณ

สิ่งที่จำเป็นในการบล็อกโปรแกรมรวบรวมข้อมูลเว็บ?

ก่อนที่จะใช้ไฟล์. htaccess คุณจำเป็นต้องตรวจสอบสิ่งต่อไปนี้:

1 ไซต์ของคุณต้องทำงานบนเซิร์ฟเวอร์ Apache ปัจจุบันแม้เว็บโฮสติ้ง บริษัท ครึ่งที่ดีในงานของพวกเขาให้คุณสามารถเข้าถึงไฟล์ที่ต้องการ

2 คุณควรเข้าใช้งานเซิร์ฟเวอร์ที่บันทึกไว้ในเว็บไซต์ของคุณเพื่อให้คุณสามารถระบุตำแหน่งของบอทที่เข้าเยี่ยมชมเว็บเพจของคุณได้

โปรดทราบว่าไม่มีทางใดที่คุณจะสามารถป้องกันบอทที่เป็นอันตรายได้ทั้งหมดยกเว้นกรณีที่คุณปิดกั้นทุกอย่างแม้จะเป็นข้อมูลที่คุณคิดว่าเป็นประโยชน์ บอทใหม่ขึ้นมาทุกวันและคนรุ่นเก่า ๆ จะได้รับการแก้ไข วิธีที่มีประสิทธิภาพมากที่สุดคือการรักษาความปลอดภัยรหัสของคุณและทำให้ยากสำหรับบอทสแปมคุณ

ระบุบอท

บอทสามารถระบุด้วยที่อยู่ IP หรือจาก "User Agent String" ที่ส่งไปในส่วนหัว HTTP ตัวอย่างเช่น Google ใช้ "Googlebot"

คุณอาจต้องใช้รายการนี้กับบอท 302 ถ้าคุณมีชื่อของบอตที่คุณต้องการเก็บไว้โดยใช้. htaccess

ถ้าคุณรู้ว่าหน้าใดที่เข้าชมหรือเวลาที่เข้าชมคุณสามารถมาพร้อมกับบอทที่ไม่ต้องการได้ง่ายขึ้น คุณสามารถค้นหาไฟล์บันทึกด้วยพารามิเตอร์เหล่านี้

เมื่อคุณได้ตั้งข้อสังเกตว่าคุณต้องการบล็อกอะไร จากนั้นคุณสามารถรวมไฟล์เหล่านี้ไว้ในไฟล์. htaccess โปรดทราบว่าการบล็อก ธ ปท - 6AG1671-5AE10-4AX0 SIEMENS. ไม่เพียงพอที่จะหยุดการทำงาน อาจมี IP หรือชื่อใหม่

วิธีการปิดกั้นพวกเขา

ดาวน์โหลดสำเนาของไฟล์. htaccess ทำการสำรองข้อมูลหากจำเป็น

วิธีที่ 1: การปิดกั้นโดย IP

ข้อมูลโค้ดนี้บล็อกบอตโดยใช้ที่อยู่ IP 197.0.0.1

คำสั่งปฏิเสธ, อนุญาต

ปฏิเสธจาก 197.0.0.1

บรรทัดแรกหมายความว่าเซิร์ฟเวอร์จะบล็อกคำขอทั้งหมดที่ตรงกับรูปแบบที่คุณระบุและอนุญาตให้ผู้อื่นทั้งหมด

บรรทัดที่สองบอกเซิร์ฟเวอร์ให้ออก 403: ห้ามหน้า

วิธีที่ 2: การบล็อคโดยตัวแทนผู้ใช้

วิธีที่ง่ายที่สุดคือการใช้โปรแกรมเขียนใหม่ของ Apache

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule - [F, L]

บรรทัดแรกช่วยให้แน่ใจว่าได้มีการเปิดใช้งานโมดูลเขียนใหม่ บรรทัดที่สองคือเงื่อนไขที่กฎใช้กับ "F" ในบรรทัดที่ 4 บอกเซิร์ฟเวอร์ให้คืนค่า 403: ห้ามไม่ให้ "L" หมายถึงนี่เป็นกฎสุดท้าย

จากนั้นคุณจะอัปโหลดไฟล์. htaccess ไปยังเซิร์ฟเวอร์ของคุณและเขียนทับไฟล์ที่มีอยู่ เมื่อถึงเวลาคุณจะต้องอัปเดต IP ของ bot ในกรณีที่คุณทำผิดพลาดเพียงอัปโหลดข้อมูลสำรองที่คุณทำ

November 29, 2017
Semalt ให้คำแนะนำเกี่ยวกับวิธีการจัดการกับบอท, แมงมุมและโปรแกรมรวบรวมข้อมูล
Reply