Các công cụ SEO bá đạo nhất thế giới
HOT *** 06 Checklist tốt nhất về SEO Onpage 2016 !
Chú ý: Không chèn Link vô nghĩa trong bài viết !
Các thành viên bị lỗi đăng ký không gửi email vui lòng liên hệ Facebook: Lee Nam để được trợ giúp

Định nghĩa đơn giản về thuật ngữ LDA

Thảo luận trong 'Tài liệu SEO' bắt đầu bởi NghiHQ, 12 Tháng chín 2014.

  1. NghiHQ

    NghiHQ Thành viên chính thức

    Tham gia ngày:
    26 Tháng tám 2014
    Bài viết:
    80
    Đã được thích:
    99
    Có thể bạn đã nghe qua "phân tích ngữ nghĩa", "phân tích ngữ nghĩa ẩn" hoặc "Phân phối Dirichlet ẩn" (Đều gọi tắt là LDA) trong các cuộc nói chuyện của chuyên gia SEO hay SEO newbies, những người muốn thể hiện sự hiểu biết của bản thân. Đây là một chủ đề phức tạp mà hiện chưa có tài liệu SEO nào chính thức nói về nó. Dưới đây sẽ giải thích đơn giản về chủ đề này:

    Phân phối Dirichlet ẩn là mẫu dùng để xác định ý nghĩa của một từ hoặc một tài liệu dựa vào ngữ cảnh xung quanh.

    Đơn giản phải không? Nhưng phức tạp ở chỗ chúng ta không hiểu cách Google sử dụng LDA này trong các thuật toán của nó như thế nào.

    Làm sao Google biết được chúng ta muốn gì?

    Để biết được chính xác ý định của người dùng, SE phải biết ngữ cảnh mà người dùng đang tìm kiếm. Ví dụ Ice (cửa hàng vàng bạc đá quý) và ice (dạng vật chất được cấu tạo bởi 2 nguyên tử hydro và một nguyên tử oxy) là 2 truy vấn hoàn toàn khác nhau, và có thể bạn sẽ bực mình khi cái mà bạn đang muốn tìm cách làm tan chay hoàn toàn một khối băng chứ không phải hình ảnh của mấy chiếc vòng đeo tay hay đôi bông tai vàng chóe.

    http://thesoigieo.com/upload/uploads/thesoigieo-331100.png
    Link ảnh ice
    Vậy làm thế nào để Google phân biệt được? Bằng cách xem xét các từ ngữ xuất hiện cùng từ khóa, SE có thể suy luận ra ý nghĩa chính xác của từ khóa đang tìm kiếm. Ví dụ khi “ice" xuất hiện cùng các như chuông, quà tặng, Valentine, v.v… thì SE có thể suy luận rằng khách hàng đang muốn tìm cửa hàng đồ trang sức hay cái gì đó tương tự. Nhưng nếu “ice” xuất hiện cùng các từ như đông lạnh, phía bắc, nhà bếp, nó sẽ thiên về các kết quả liên quan đến nước .

    Nếu bạn chỉ cần tìm hiểu thế này là đủ thì hãy xuống dưới, bấm tweet cho bài viết này hoặc điền email đăng ký nhận những bài viết hay khác. Nếu bạn thực sự muốn hiểu tường tận về LDA, mời bạn đọc tiếp.

    Chi tiết về Phân phối ẩn LDA

    LDA hoạt động dựa trên giả định xác suất. Thông qua máy học tập, một chương trình có thể tổng hợp các từ và ý nghĩa của chúng dựa vào ngữ cảnh xung quanh. Sau đây là một ví dụ:

    Michael Jordan là một trong những nhà nghiên cứu LDA hàng đầu. Khi nghe đến cái tên này bạn sẽ nghĩ ngay đến cầu thủ bóng rổ Michael Jordan phải không. Google cũng vậy. Tất cả kết quả trả về là cầu thủ bóng rổ Michael Jordan cùng với các từ liên quan như bóng rổ, thể thao, Nike, v.v… Tuyệt nhiên không một kết quả nào trả về trang nói về vị học giả Michael Jordan. Trừ khi thêm vào một từ nhận diện như máy học tập, nhà nghiên cứu hay trí tuệ nhân tạo.

    Giả định rằng chủ đề của một tài liệu và nội dung của nó liên quan mật thiết với nhau. Các thuật toán thu thập dữ liệu liên quan đến từ khóa tìm kiếm và ngữ cảnh xuất hiện của nó, khi đó kết quả trả về sẽ phù hợp hơn. Kết quả của truy vấn “Michael Jordan” là các kết quả liên quan đến môn bóng rổ nếu không có các từ nhận diện như “nhà nghiên cứu”, làm thay đổi ngữ nghĩa của từ khóa này.

    Tại sao mật độ từ khoá không có tác dụng

    Thuật toán sẽ nhận dạng, xử lý và “gán” nghĩa cho từ, cụm từ khóa đang tìm kiếm giúp SE trả về các kết quả chính xác hơn. Điều này cũng có nghĩa là kết quả không nhất thiết phải chính xác từng từ trong truy vấn của người tìm kiếm.

    Bởi vì "Michael Jordan " thường xuất hiện cùng với các từ liên quan đến bóng rổ, cho nên khi người ta tìm kiếm bằng cái tên này, nó sẽ trả về kết quả là cầu thủ bóng rổ Michael Jordan hơn là nhà nghiên cứu trùng tên, mặc dù Michael Jordan là một nhà nghiên cứu có tầm ảnh hưởng lớn trong lĩnh vực thống kê .

    Tiếp tục ví dụ, tìm kiếm bằng cụm từ "số liệu thống kê Michael Jordan ", kết quả trả về là một trang có tiêu đề "Michael Jordan thống kê số liệu nghề nghiệp", cho thấy ý định kết hợp ở mặt bên của Google.

    Đây chính là một trong những lý do tại sao mật độ từ khóa không còn tác dụng. Nhồi nhét hàng tá từ khóa dù có chính xác với truy vấn đến đâu cũng không tốt, vì SE có thể suy ra ý nghĩa của các truy vấn tìm kiếm mà không cần dựa vào nội dung bài viết. Và bởi vì SE có thể giải thích (ở một mức độ nhất định) ý nghĩa của cụm từ để phù hợp với mục đích cơ bản. Hơn nữa, SE có thể mở rộng phân tích chất lượng cả bài viết, nếu bài viết bị nhồi nhét từ khóa một cách gượng gạo, không tự nhiên, thì bài viết đó chắc chắn sẽ không có thứ hạng cao trong bảng xếp hạng.

    Điều này cũng có nghĩa là trật tự sắp xếp hay từ loại của từ trong tìm kiếm cũng không ảnh hưởng nhiều đến kết quả. Tìm kiếm "Michael Jordan" và "Jordan Michael" đều trả lại kết quả tương tự. Google biết những gì người dùng đang tìm kiếm, và trả về các kết quả phù hợp nhất cho câu hỏi của họ , hơn là trả về chính xác các từ trong truy vấn tìm kiếm.

    Nhưng cũng phải thừa nhận rằng, những đoạn văn bản chính xác với truy vấn tìm kiếm vẫn được ưu tiên, hay những tên miền trùng với truy vấn vẫn thu hút người dùng vào xem nhiều hơn.Phân phối Dirichlet ẩn LDA là một bước nhay vọt trong phân tích ngữ nghĩa, bộ máy có khả năng “thấu hiểu” tốt ý định của người dùng, tránh những nội dung đáp ứng các truy vấn một cách khô khan.

    Vì vậy, đừng do dự khi không biết nên viết vào ô tìm kiếm "bán bóng đèn huỳnh quang" hay "bóng đèn huỳnh quang bán", cứ thoải mái viết, Google “hiểu những điều bạn muốn”.

    Phân phối Dirichlet ẩn không giả quyết mọi vấn đề

    Bạn có thể tưởng tượng kết quả khi SE đoán sai ý định của người dùng hoặc do cách dùng từ quá phức tạp. Những nhà văn thích chơi chữ luôn là thử thách đối với SE.

    Một bài viết về ban nhạc Rolling Stones nhưng lại giới thiệu về nhóm bằng những từ ngữ ẩn dụ như những viên “đá quý”, sáng loáng, không bám bụi rong rêu. SE có lẽ sẽ phải mất thời gian khá lâu mới có thể xác định được nội dung chính xác của bài biết này, do sự đa dạng nghĩa của các từ mà tác giả dùng trong bài viết. Đây chỉ là một ví dụ điển hình, và tôi cũng không chắc chắn liệu SE có phân biệt được ý nghĩa của cụm từ này (Rolling stones) trong bài viết kia không, nhưng lý thuyết là vậy.

    Nguồn: thesoigieo.com
    #1

Chia sẻ trang này