Web Scraping là gì? Những điều chưa biết về Web Scraping


Kiến thức   30/07/2019 - Admin


Đối với người quản trị website thuật ngữ Web Scraping chắc không còn xa lạ. Tuy nhiên không phải ai cũng rõ về Scraping là gì? Trong bài viết này hãy cùng làm rõ về khái niệm Scraping là gì. Và làm sao để phát hiện ngăn chặn kịp thời để không gây hại đến website.

Web Scraping là gì?

Web Scraping là gì

Web Scraping là gì

Web scraping là một quá trình tự động để thu nhập thông tin từ website. Hiện nay phổ biến nhất là kiểu site scraping. Site scraping tập trung vào sao chép và đánh cắp thông tin từ các website. Đối với các hành vi tái sử dụng nội dung có thể không được chấp nhận từ chủ sở hữu website.

Crawl là gì?

Thông thường, các con bot sẽ tiến hành sao chép dữ liệu bằng cách crawling. Crawl là gì? Crawl hiểu nôm na được hiểu là một thuật ngữ để mô tả quá trình thu nhập dữ liệu trên hệ thống website của các bot. Các con bot này sẽ truy cập trực tiếp vào mã nguồn website. Sau đó chúng tiến hành phân tích cấu trúc, tiến hành lấy nội dung và đăng tải lên ở các website khác.

Web Scraping là gì

Web scraping là một quá trình tự động để thu nhập thông tin từ website.

Có một dạng scraping nâng cao đó là database scraping. Kiểu này khá giống site scraping. Ngoài việc tạo các tin tặc để tạo con bot tương tác với phần ứng dụng để lấy dữ liệu từ cơ sở dữ liệu của website. Database scraping có thể được dùng trong các trường hợp nhằm để đánh cắp tài sản sở hữu trí tuệ, danh sách đơn giá, danh sách khách hàng lưu trữ bí mật và  tập dữ liệu khác thường gây khó chịu với người nhập liệu nhưng rất dễ dàng với các con bot.

 

Lấy ví dụ để người đọc dễ hình dung. Giả dụ một hãng cho thuê ô tô, nếu công ty tạo một con bot để kiểm tra giá thường xuyên của công ty đối thủ và áp dụng giảm giá  sẽ có nhiều thuận lợi cạnh tranh hơn. Ngược lại để xử lý các mối nguy do Scaping gây ra, doanh nghiệp đó cũng nên tiến hành triển khai các biện pháp phát hiện và giải quyết các con bot.

Xem thêm: Cách kiểm tra keylog trên máy tính của bạn
                  Tìm hiểu denial of service là gì?


Những điều nên biết về Scraping

Có thể nhiều người khá rõ khái niệm Scraping là gì. Nhưng để quản trị website tốt và giảm thiểu nguy hiểm từ Scraping vẫn nên tìm hiểu rõ hơn về nó.

Web Scraping là gì

Không phải mọi Web Scraping đều xấu

 

Không phải mọi Web Scraping đều xấu

Trong nhiều trường hợp, khi chủ website muốn truyền tải dữ liệu đến càng nhiều người càng tốt. Ví dụ các website được xây dựng để cung cấp dữ liệu cho các website công cộng khác.Điều này sử dụng khá nhiều với các website du lịch. Khi các con bot trên website tiến hành lấy  dữ liệu website từ API hay Scraping, tiến hành phân loại và điều hướng đến website.

 

Làm sao để phát hiện và ngăn chặn Scraping

Khi đã hiểu rõ Scraping là gì bạn có thể phát hiện và ngăn chặn nó. Như đã đề cập ở trên không phải tất cả Scraping đều gây hại và nguy hiểm. Site scraping là một công cụ mạnh mẽ. Mục đích đúng đắn nó có thể tự động hóa việc thu nhập thông tin cách nhanh chóng. Tuy nhiên khi sử dụng với mục đích sai nó có thể dẫn tới những hậu quả nghiêm trọng. Như việc đánh cắp tài sản trí tuệ, thông tin dữ liệu phi pháp

Để phát hiện và ngăn chặn Scraping kịp thời người có thế áp dụng biện pháp sau:

Quy trình phân loại client

Sử dụng công cụ phân tích

Các công cụ phân tích có khả năng kiểm tra cấu trúc của web request và các thông tin header. Khi được kết hợp các thông tin này lại với các thông tin của các con bot được trả về, chủ của trang web sẽ xác định được đâu là con bot hợp phát đâu là con bot phi pháp có nguy cơ ảnh hưởng đến web .

 

Với cách tiếp cận “challenge-based” này sẽ sử dụng các công nghệ web để đánh giá hành vi của client. Nhưng nó có hỗ trợ cookie và JavaScript hay không? Chủ website có thể nghĩ đến sử dụng CAPTCHA để chặn các một vài cuộc tấn công.

 

Lựa chọn cách tiếp cận hành vi 

Hầu hết các con bot đều có khả năng liên kết lẫn nhau với các chương trình gốc cline. Nếu đặc điểm của các con bot này khác với client gốc ban đầu, chủ website có thể nghĩ đến việc sử dụng các điểm bất thường để phát hiện, ngăn chặn và giảm thiểu chúng.

 

Web Scraping mang lại những mặt lợi ích và tiêu cực tùy thuộc vào mục đích sử dụng. Hy vọng với bài viết trên bạn đọc đã có thể hiểu rõ hơn về Web Scraping là gì và cách phát hiện, ngăn chặn nó để không gây ảnh hưởng đến website.

 


Keywords: Web Scraping là gì scraping