*** Tối ưu Offpage SEO nền tảng thành công SEO 2022 !
HOT **** Hướng dẫn tốt nhất về SEO Onpage 2022 !
Chú ý: Không chèn Link vô nghĩa trong bài viết !
Các thành viên bị lỗi đăng ký không gửi email vui lòng liên hệ Facebook: Lee Nam để được trợ giúp

Quản lý file Robots.txt một cách hiệu quả

Thảo luận trong 'Chia sẻ kinh nghiệm' bắt đầu bởi v2SEO, 1 Tháng mười 2014.

  1. v2SEO

    v2SEO Well-Known Member

    Tham gia ngày:
    4 Tháng chín 2014
    Bài viết:
    326
    Đã được thích:
    165
    Việc quản lý file robots.txt sao cho hiệu quả vẫn luôn là tâm điểm trong suốt thời gian qua và cho đến nửa cuối năm nay, nó vẫn chưa có dấu hiệu lắng xuống. Khoảng thời gian ngắn trước đó, Google đã cho nâng cấp mảng Blocked URLs với công cụ kiểm tra robots.txt thế hệ mới, giúp thu thập và sửa chữa các lỗi và những cảnh báo trong file robots.txt của bạn. Đối với một chuyên gia SEO dày dặn kinh nghiệm, họ coi file robots.txt là một thành tố tuy giản đơn, nhưng lại đóng vai trò nền tảng trong SEO. Với những ai ít hiểu biết về khía cạnh này thì những lỗi căn bản trong file robots.txt có thể gây ra việc ngăn chặn công cụ tìm kiếm thu thập thông tin bên trong trang web của bạn.

    [​IMG]

    Robots.txt và tầm quan trọng của nó

    Bạn có thể hiểu file Robots.txt này là một nguồn lực giúp cho các công cụ tìm kiếm có thể hiểu được các trang hay các thành phần trong một website, cũng như phân biệt được đâu là loại trang mà chúng không cần tốn thời gian để quét thông tin.

    Nếu quản lý sai cách, nó có thể gây nguy hiểm cho thứ hạng tìm kiếm, nhưng ngược lại, một khi file robots.txt này được kiểm soát chặt chẽ thì nó có thể đem lại lợi ích, giúp bạn thông báo cho Google biết những nội dung tìm kiếm không quan trọng mà bạn có trong trang web, hay các nội dung trùng lặp và nội dung bạn không muốn công cụ tìm kiếm thu thập.

    Nhưng hãy cẩn trọng…

    Trong khi đây là một công cụ hữu ích cho các webmaster, thì bạn cũng cần phải hiểu làm thể nào để sử dụng và kiểm tra file robots.txt. Dưới đây là 3 dạng chỉ thị của file robots.txt:

    1. Cấp độ trang (page level)
    Disallow: /examplepage.html

    2. Cấp độ thư mục (Folder Level)
    Disallow: /example-folder/

    3. Chỉ thị ký tự đại diện (Wildcard Directive)
    Bất cứ trang con nào của một thư mục (Disallow: /example- folder/*)

    Dạng file (Disallow: /*.pdf)

    Những lỗi phổ biến

    Dưới đây là những lỗi phổ biến của robots.txt mà bạn nên tránh:

    Disallow: /
    Disallow: / điều này có nghĩa là Google bots sẽ không truy cập vào phần này khi vào website của chúng ta.
    Disallow: /images/

    Disallow: /videos/
    Ngăn chặn các thư mục trong một website có chứa nội dung có thể index như hình ảnh, videos. Điều này có thể giảm ấn tượng của Google đối với trang web của bạn trên Google Search Queries.

    Disallow: /*.css

    Disallow: /*.js

    Ngăn chặn các công cụ tìm kiếm truy cập vào nơi chứa dữ liệu file CSS và Javascript của bạn.
    Disallow: /*.pdf

    Disallow: /*.doc

    Ngăn chặn định dạng trang bởi nó không phải là trang HTML. Điều này có thể gây trở ngại cho thứ hạng của bạn vì chúng là yếu tố giúp bạn tăng vị trí trên bảng xếp hạng và là cách kiếm thêm lượng truy cập từ công cụ tìm kiếm.

    Quản lý file Robots.txt

    Google đã nỗ lực thành công trong việc giúp bạn quản lý tốt file robots.txt. Nhưng hãy để ý đến một công cụ tìm kiếm khác, đó là Bing.

    Thông tin thu thập của Bing’s Webmaster Tools cho thấy robots.txt hiển thị cả nội dung. Thật là tuyệt vời khi bạn có thể nhìn thấy những trang bị khuất tầm nhìn công cụ tìm kiếm và cả những liên kết tin cậy chưa được công cụ tìm kiếm công nhận. Hãy nhìn ví dụ bên dưới, nó chỉ ra trang đầu tiên bị loại bỏ có 295 inbound links trỏ vào.

    [​IMG]

    Bên cạnh Bing’s Webmaster Tools, bạn cũng có thể xem xét toàn bộ thông tin với SEMrush Beta Site Audit, nó chỉ ra những URL đã bị loại trừ qua robots.txt.

    [​IMG]

    Thêm vào đó, nếu bạn muốn quan sát những dữ liệu tương tự, thì cũng có những công cụ khác mà bạn có thể sử dụng. Trong khi SEMrush giúp bạn nhìn vào các yếu tố SEO trong trang và độ mạnh cạnh tranh, thì Steliner lại cho phép bạn tổng hợp thông tin về robots.txt exclusion trong khi nó đào sâu vào các vấn đề trùng lặp trong nội dung trên trang web. Hơn nữa, ngoài việc chỉ ra số lượng liên kết inbound links mà mỗi trang có được, nó còn cung cấp “page power” để đo khối lượng và trang được liên kết với các trang khác.

    [​IMG]

    Cuối cùng, Google Webmaster Tools cũng cung cấp các công cụ kiểm tra Robots.txt Tester. Các công cụ khác sẽ giúp bạn hiểu những gì bạn đang có, nhưng Google sẽ giúp bạn thấy cả những lỗi có trong file robots.txt. Google cũng cung cấp những chỉ thị trực tiếp đến nơi đang có lỗi để rút ngắn thời gian của bạn.

    [​IMG]

    Cuối cùng

    Robots.txt nếu được sử dụng đúng cách có thể hỗ trợ bạn một cách đắc lực trong việc nâng cao thứ hạng trên công cụ tìm kiếm với các trang web thu thập dữ liệu. Điều này không có nghĩa là nó sẽ ngay lập tức loại bỏ nội dung từ các công cụ tìm kiếm như các thẻ meta noindex, chính vì thế mà bạn cần phải thay đổi những file robots.txt đồng thời quản lý nó chặt chẽ, vì cứ mỗi một trang không được index thì thứ hạng của bạn cũng sẽ bị giảm đi.

    Hy vọng bài viết này đã giúp bạn định hướng được những chiến lược trong việc quản lý file robots.txt. Hơn hết, tôi cũng hy vọng cho đến thời điểm này thì bạn cũng có thể thấy việc điều chỉnh những lỗi robots.txt ra khỏi nội dung được Google bots thu thập nó dễ dàng hơn như thế nào.

    (Nguồn : thế giới seo)​
    #1
  2. seovg

    seovg Thành viên chính thức

    Tham gia ngày:
    4 Tháng tư 2016
    Bài viết:
    9
    Đã được thích:
    1
    đang mò mãi mà chưa ra cái này
    #2
  3. jackestate

    jackestate Thành viên chính thức

    Tham gia ngày:
    18 Tháng ba 2016
    Bài viết:
    76
    Đã được thích:
    3
    ẹc mình chạy bằng blogspot có cần quản lý cái này không bạn
    #3
  4. Công ty máy chiếu VNPC

    Công ty máy chiếu VNPC Thành viên chính thức

    Tham gia ngày:
    26 Tháng một 2016
    Bài viết:
    276
    Đã được thích:
    23
    Chặn thư mục thì chặn nhưng vẫn phải cho phép googlebot và các bot search khác vào file .js và css của giao diện nhé. Không là khi tìm nạp google hiện thị dạng không có css liền đó
    Mã:
    Allow: /*.js$
    Allow: /*.css$
    #4
  5. thohongoc

    thohongoc Thành viên chính thức

    Tham gia ngày:
    11 Tháng chín 2014
    Bài viết:
    59
    Đã được thích:
    3
    File robot.txt cực kỳ quan trọng để định hướng website. Vì vậy đẫ làm so phải hiểu cái này. bài viết này khá hay, mình đọc và đồng tình với ý kiến của bạn
    #5
  6. gomsusangtao

    gomsusangtao Thành viên chính thức

    Tham gia ngày:
    6 Tháng mười hai 2016
    Bài viết:
    11
    Đã được thích:
    0
    Bạn có thể hiểu file Robots.txt này là một nguồn lực giúp cho các công cụ tìm kiếm có thể hiểu được các trang hay các thành phần trong một website,
    #6
  7. lqsang1912951

    lqsang1912951 Thành viên mới

    Tham gia ngày:
    10 Tháng mười một 2016
    Bài viết:
    8
    Đã được thích:
    0
    Cảm ơn bác đã post bài nhé, bài viết rất hay ^^. Tks chủ thớt nhiều nhé. Hy vọng chủ thớt post càng nhìu bài càng tốt nhé, mang lại kiến thức hay thêm cho mọi người. tks chủ thớt nhiều ^^. Xem thêm tại đây nhé:
    #7
  8. Công ty máy chiếu VNPC

    Công ty máy chiếu VNPC Thành viên chính thức

    Tham gia ngày:
    26 Tháng một 2016
    Bài viết:
    276
    Đã được thích:
    23
    Không biết có ai chặn bot của Ahref như mình không vậy? Thực sự mình rất ghét cái ahref kia, nó chẳng phải họ hàng thân thít gì với google, muốn sử dụng phải trả phí, lại là công cụ cho đối thủ bắt chước đi backlink ở những trang mình đi, trong khi tự tìm nguồn backlink riêng, một mình một cõi lại ngon hơn thì tội gì đi xem đối thủ họ làm gì.
    #8
  9. quynhtrangv86

    quynhtrangv86 Thành viên chính thức

    Tham gia ngày:
    4 Tháng một 2016
    Bài viết:
    137
    Đã được thích:
    11
    cảm ơn bạn, bài viết rất hữu ích, trước đây mình còn không biết file robots để làm gì nữa
    #9
  10. traimaido

    traimaido Thành viên chính thức

    Tham gia ngày:
    6 Tháng mười hai 2016
    Bài viết:
    76
    Đã được thích:
    3
    Sao em có 1 site cứ cập nhật file Robot.txt trong webmaster tool nó lại tự xóa nhỉ
    #10

Chia sẻ trang này