Nếu bạn đang tự hỏi làm thế quái nào Google có thể hiểu nội dung trên website bạn?
Câu trả lời ngắn gọn là công cụ tìm kiếm đã thu thập và lập chi mục các thông tin trên site bạn.
Hay thuật ngữ vẫn gọi chúng là Crawl và Index, đây chính khái niệm cơ bản bạn cần nắm rõ.
Từ đó hiểu rõ được cách Google hay các công cụ tìm kiếm khác hoạt động như thế nào.
Nguyên tắc cơ bản của công cụ tìm kiếm
ảnh từ Neilpatel.com
Google đã giải thích cách công cụ tìm kiếm hoạt động rằng “Before you search, web crawlers gather information from across hundreds of billions of webpages and organize it in the Search index.”
Có thể hiểu như sau:
Web crawler hay còn được gọi là các spider hoặc spiderbot, thường được gọi tắt là crawler.
Chúng là những con internet bot (các con robot siệu nhỏ được lập trình sẵn), lướt qua hệ thống World Wide Web.
Với mục đích Index (lập chỉ mục website).
Crawl là gì?
Crawl là quá trình khi Google ghé thăm một website.
Để thực hiện mục đích thu thập thông tin được cho phép.
Quá trình này được thực hiện bởi các con bọ (Spider crawler) của Google.
Bạn có thể tưởng tượng rằng Google đang tung ra hàng triệu triệu con robot nhỏ, luồn lách khắp trên thế giới internet để thu thập mọi thông tin có thể.
Nhưng bạn có thể sử dụng file robost.txt để chặn hoặc hướng dẫn chúng những gì Google có thể thu thập.
Nếu chưa biết cách file robots.txt hoạt động như thế nào hãy bấm vào đây.
Google Crawl
Crawl căn bản có thể hiểu là đi theo một con lối mòn.
Trong thế giới của SEO, crawl có nghĩa là các con bọ nó sẽ đi theo các links và thu thập thông tin.
Khi các bot đến website của bạn (bất kỳ trang nào), chúng cũng lần theo tất cả các trang được liên kết trên website đó.
Đây chính là lí do vì sao mọi website cần có sitemap, vì chúng có chứa tất cả các đường link trên website.
Các con bot của Google có thể sử dụng chúng để nhìn sâu hơn vào một website (giống như bản đồ).
Index là gì?
Sau khi việc crawl đã hoàn thành, các kết quả sẽ được sắp xếp và hiện trên công cụ tìm kiếm Google.
Bạn có thể hiểu như sau khi các con bọ của Google đi thập được thông tin của tất cả website trên thế giới.
Từ đó dựa trên thuật toán của riêng Google sẽ sắp xếp và hiển thị các kết quả ở ví trị ở trang 1,2,3… trên Google Search.
Google index
Google sẽ dựa vào các tín hiệu như: keyword, backlink và các thuật toán để sếp hạng (Google RankBrain, Core Web Vital).
Đến thời điểm hiện tại đã có rất nhiều thuật toán đã được ra mắt (đâu đó khoảng 11 cái)
Mục đích nhằm nâng cao chính xác kết quả tìm kiếm hơn, cũng như loại bỏ kết quả không tốt.
Goolge Search Index chứa hàng trăm tỷ website, giống như phần mục lục của một cuốn sách.
Mỗi mục lục sẽ đại diện cho trang với từ khóa tương ứng.
Crawl Budget
Ngoài Crawl và Index còn có khái niệm nữa mà ít ai để ý là Crawl Budget – tốc độ thu thập dữ liệu.
Có hàng triệu triệu các websites trên toàn thế giới, liệu tất cả mọi người có hài lòng với tỷ lệ crawl và index?
Không! Phần lớn mọi người liên tục có thắc mắc rằng tại sao các bài viết của họ không được lập chỉ mục.
Crawl Budget sẽ bị ảnh thưởng bởi hai yếu tố cốt lõi đó là:
- Website nhanh đến mức nào – ví dụ GG có thể crawl bao nhiêu dữ liệu mà không ảnh hưởng đến trải nghiệm người dùng.
- Tầm quan trọng của website – nếu bạn là một website tin tức lớn, nội dung được cập nhật lên tục -> bạn sẽ được GG crawl lên tục
Nếu bạn là một website mới, các website kinh doanh nhỏ lẻ có khoảng vài chục bài viết -> rất có thể crawl budget sẽ thấp và ít được crawl.
Trong một bài viết khác mình sẽ nói chi tiết hơn về các vấn đề ảnh hưởng đến tốc độ crawl.
Nếu bạn còn thắc mắc gì hãy comment ở dưới mình sẽ trả lời ngay khi có thể nhé.
bài viết chất lượng cao và nội dung rất hay so với các bài viết về index google
Mình mới tìm hiểu.Đọc trên trang google cũng không hiểu lắm.May sao tìm được bài viết của bạn,rất dễ hiểu.Bạn viết rất có tâm.Mong đọc thêm những bài viết hay từ bạn.
Mình cũng mới tìm hiểu về website, bài viết của bạn rất hữu ích. Cám ơn nhé <3