Cách công cụ tìm kiếm thu thập thông tin và lập chỉ mục: Craw và Index là gì?

Nếu bạn đang tự hỏi làm thế quái nào Google có thể hiểu nội dung trên website bạn?

Câu trả lời ngắn gọn là công cụ tìm kiếm đã thu thập và lập chi mục các thông tin trên site bạn.

Hay thuật ngữ vẫn gọi chúng là Crawl và Index, đây chính khái niệm cơ bản bạn cần nắm rõ.

Từ đó hiểu rõ được cách Google hay các công cụ tìm kiếm khác hoạt động như thế nào.

crawl và index là gì

Nguyên tắc cơ bản của công cụ tìm kiếm

cách công cụ tìm kiếm hoạt động

ảnh từ Neilpatel.com

Google đã giải thích cách công cụ tìm kiếm hoạt động rằng “Before you search, web crawlers gather information from across hundreds of billions of webpages and organize it in the Search index.

Có thể hiểu như sau:

Trước khi bạn tìm kiếm, các cọn bọ đã thu thập thông tin từ hàng trăm tỉ các trang và sắp xếp nó trên kết quả tìm kiếm

Web crawler hay còn được gọi là các spider hoặc spiderbot, thường được gọi tắt là crawler.

Chúng là những con internet bot (các con robot siệu nhỏ được lập trình sẵn), lướt qua hệ thống World Wide Web.

Với mục đích Index (lập chỉ mục website).

Crawl là gì?

Crawl là quá trình khi Google ghé thăm một website.

Để thực hiện mục đích thu thập thông tin được cho phép.

Quá trình này được thực hiện bởi các con bọ (Spider crawler) của Google.

Bạn có thể tưởng tượng rằng Google đang tung ra hàng triệu triệu con robot nhỏ, luồn lách khắp trên thế giới internet để thu thập mọi thông tin có thể.

Nhưng bạn có thể sử dụng file robost.txt để chặn hoặc hướng dẫn chúng những gì Google có thể thu thập.

Nếu chưa biết cách file robots.txt hoạt động như thế nào hãy bấm vào đây.

Google Crawl

Crawl căn bản có thể hiểu là đi theo một con lối mòn.

Trong thế giới của SEO, crawl có nghĩa là các con bọ nó sẽ đi theo các links và thu thập thông tin.

Khi các bot đến website của bạn (bất kỳ trang nào), chúng cũng lần theo tất cả các trang được liên kết trên website đó.

Đây chính là lí do vì sao mọi website cần có sitemap, vì chúng có chứa tất cả các đường link trên website.

Các con bot của Google có thể sử dụng chúng để nhìn sâu hơn vào một website (giống như bản đồ).

Một điều đặc biệt là công cụ tìm kiếm rất chú ý đến các website mới, các thay đổi trên website, và các link chết. Chúng cũng sẽ xác định site nào cần crawl, tần suất như thế nào và sẽ crawl bao nhiêu trang một lần đi.

Index là gì?

Sau khi việc crawl đã hoàn thành, các kết quả sẽ được sắp xếp và hiện trên công cụ tìm kiếm Google.

Bạn có thể hiểu như sau khi các con bọ của Google đi thập được thông tin của tất cả website trên thế giới.

Từ đó dựa trên thuật toán của riêng Google sẽ sắp xếp và hiển thị các kết quả ở ví trị ở trang 1,2,3… trên Google Search.
crawling và indexing

Google index

Google sẽ dựa vào các tín hiệu như: keyword, backlink và các thuật toán để sếp hạng (Google RankBrain, Core Web Vital).

Đến thời điểm hiện tại đã có rất nhiều thuật toán đã được ra mắt (đâu đó khoảng 11 cái)

Mục đích nhằm nâng cao chính xác kết quả tìm kiếm hơn, cũng như loại bỏ kết quả không tốt.

Goolge Search Index chứa hàng trăm tỷ website, giống như phần mục lục của một cuốn sách.

Mỗi mục lục sẽ đại diện cho trang với từ khóa tương ứng.

Với Knowledge Graph (sơ đồ tri thức) Google ngày càng thông minh hơn và hiểu người dùng hơn. Nó sẽ giúp bạn có câu trả lời tốt nhất không chỉ đơn thuần là thông tin cơ bản như text, có thể là chỉ đường, tìm kiếm món ăn, đặt xe…

Crawl Budget

Ngoài Crawl và Index còn có khái niệm nữa mà ít ai để ý là Crawl Budget – tốc độ thu thập dữ liệu.

Về cơ bản Crawl Budget là một thuật ngữ được sử dụng để mô tả số lượng tài nguyên mà Google sẽ thu thập thông tin một trang web.

Có hàng triệu triệu các websites trên toàn thế giới, liệu tất cả mọi người có hài lòng với tỷ lệ crawl và index?

Không! Phần lớn mọi người liên tục có thắc mắc rằng tại sao các bài viết của họ không được lập chỉ mục.

Crawl Budget sẽ bị ảnh thưởng bởi hai yếu tố cốt lõi đó là:

  • Website nhanh đến mức nào – ví dụ GG có thể crawl bao nhiêu dữ liệu mà không ảnh hưởng đến trải nghiệm người dùng.
  • Tầm quan trọng của website – nếu bạn là một website tin tức lớn, nội dung được cập nhật lên tục -> bạn sẽ được GG crawl lên tục

Nếu bạn là một website mới, các website kinh doanh nhỏ lẻ có khoảng vài chục bài viết -> rất có thể crawl budget sẽ thấp và ít được crawl.

Trong một bài viết khác mình sẽ nói chi tiết hơn về các vấn đề ảnh hưởng đến tốc độ crawl.

Nếu bạn còn thắc mắc gì hãy comment ở dưới mình sẽ trả lời ngay khi có thể nhé.

Chia sẻ lên:
Đăng ký
Thông báo về
guest
3 Bình Luận
Inline Feedbacks
View all comments

The Manor Central Park
29/06/2018 5:43 chiều

bài viết chất lượng cao và nội dung rất hay so với các bài viết về index google

Lê Đức Nhân
Lê Đức Nhân
29/09/2019 9:14 chiều

Mình mới tìm hiểu.Đọc trên trang google cũng không hiểu lắm.May sao tìm được bài viết của bạn,rất dễ hiểu.Bạn viết rất có tâm.Mong đọc thêm những bài viết hay từ bạn.

yến
yến
25/03/2021 7:28 chiều

Mình cũng mới tìm hiểu về website, bài viết của bạn rất hữu ích. Cám ơn nhé <3