Mục lục bài viết
ToggleThực thể trong khoa học máy tính có thể đề cập đến một số khái niệm khác nhau, tùy thuộc vào ngữ cảnh. Trong lập trình, các thực thể có thể tham chiếu đến một thực thể HTML, ánh xạ mối quan hệ thực thể trong cơ sở dữ liệu hoặc là một phần của mô hình lập trình, giống như các hệ thống thành phần thực thể thường thấy trong phát triển trò chơi.
Nói một cách tổng quát hơn, một thực thể đề cập đến một phần thông tin, cho dù đó là một ký tự, một từ, một đối tượng hoặc một số đơn vị trừu tượng khác. Chính xác những gì bao gồm một thực thể và việc sử dụng nó phụ thuộc vào ngữ cảnh. Các thực thể được Google sử dụng theo cách có liên quan để cung cấp kết quả tìm kiếm phong phú hơn và nội dung liên quan.
Tầm quan trọng của các thực thể trong SEO
Google định nghĩa một thực thể là: “Một sự vật hoặc khái niệm là số ít, duy nhất, được xác định rõ và có thể phân biệt được.” Đây là một định nghĩa rất rộng, nhưng nó quan trọng trong lĩnh vực SEO. Thật không may, Google không công bố chi tiết chính xác về việc sử dụng các thực thể của họ, vì vậy thông tin phần lớn thu thập được từ các bằng sáng chế, thông tin do các nhà phát triển của Google cung cấp và thử nghiệm.
Mặc dù chưa xác định được hoạt động chính xác của các thực thể, nhưng có những phương pháp giúp Google hiểu nội dung trên trang web của bạn tốt hơn. Hình thức SEO này liên quan đến việc thêm dữ liệu có cấu trúc vào các trang. Có một số định dạng khác nhau có thể được sử dụng để cung cấp dữ liệu có cấu trúc, chẳng hạn như JSON-LD , vi dữ liệu và RDFa. Tất cả các định dạng khác nhau này đều cung cấp một lược đồ về thông tin thích hợp trên một trang.
Dữ liệu có cấu trúc có thể chỉ định loại nội dung trên trang (ví dụ: công thức nấu ăn, bài báo, bài đánh giá phim), bất kỳ người nào được đề cập (những người trong trang hoặc tác giả của trang), thời điểm trang được xuất bản và các nội dung khác dữ liệu. Thông tin phụ thuộc nhiều vào trang. Ví dụ: một trang chứa công thức có thể bao gồm thời gian chuẩn bị, thời gian nấu, nguyên liệu, năng suất công thức và các thành phần trong dữ liệu có cấu trúc của nó.
Google không đảm bảo rằng dữ liệu có cấu trúc đã cung cấp sẽ được sử dụng trong kết quả tìm kiếm. Nó xếp hạng thông tin này trên 3 yếu tố chính: nội dung, mức độ liên quan và tính đầy đủ. Nội dung cập nhật và chất lượng cao, có liên quan nhiều đến nội dung trang và không thiếu bất kỳ thông tin thích hợp nào, sẽ có nhiều khả năng được Google xem xét và đưa vào kết quả tìm kiếm.
Cách Google sử dụng các thực thể trong tìm kiếm
Trong tìm kiếm, thoạt nhìn một thực thể có thể giống với một từ khóa và cả hai đều liên quan đến nội dung trên trang web. Tuy nhiên, khi một từ khóa bị ràng buộc bởi ngôn ngữ, thì một thực thể có thể là bất kỳ thứ gì có thể phân biệt được riêng lẻ: thương hiệu, con người, địa điểm, khái niệm và hơn thế nữa.
Các thực thể được sử dụng để hiểu các khái niệm và mối quan hệ của chúng trong nội dung. Ví dụ: ai đó có thể tìm kiếm “các tổng thống của Hợp chủng quốc Hoa Kỳ”. Tất cả các loại nội dung có thể được trả lại cho cụm từ tìm kiếm này. Mỗi tổng thống có thể có rất nhiều thông tin được lưu trữ về họ. Thông tin này có thể được phổ biến trên nhiều phương tiện – dữ liệu hình ảnh, video, âm thanh và văn bản. Tất cả thông tin này có thể được xem xét dưới sự bảo trợ của từng chủ tịch.
Bằng cách xem xét dữ liệu về mặt thực thể, Google có thể hiểu sâu hơn về nội dung và cung cấp các kết quả tìm kiếm phù hợp hơn. Theo cách này, mỗi thực thể có thể được coi là một nút, và các nút này được liên kết với nhau bằng các mối quan hệ. Các thông tin như ngày sinh, ngày mất, thành tích đáng chú ý, các tổng thống khác và các nhà lãnh đạo thế giới đều có thể liên quan đến các nút này theo một cách nào đó và thông tin này có thể được đưa vào kết quả tìm kiếm.
Sơ đồ tri thức của Google như một ví dụ về ứng dụng của các thực thể
- Ứng dụng của Google về khái niệm này được gọi là Sơ đồ tri thức của Google . Rất tiếc, Google không công bố thông tin về hoạt động bên trong của Sơ đồ tri thức, vì vậy, dữ liệu công khai có liên quan đến việc triển khai chính xác Sơ đồ tri thức và cách nó liên quan đến SEO bị hạn chế.
- Thông tin Sơ đồ tri thức của Google được sử dụng để cung cấp nội dung bổ sung cho kết quả tìm kiếm. Vì vậy, ví dụ: kết quả tìm kiếm cho “Thomas Jefferson” sẽ bao gồm một hộp chứa dữ liệu thích hợp về anh ấy: hình ảnh, thành tích đáng chú ý, một đoạn giới thiệu ngắn và dữ liệu tiểu sử khác, như ngày sinh và ngày mất. Các tìm kiếm liên quan, chẳng hạn như các tổng thống và chính khách khác từ thời đại của ông, cũng được liệt kê.
Thông tin này được lấy từ Sơ đồ tri thức của Google. Thomas Jefferson là một thực thể và hình ảnh, dữ liệu tiểu sử và các tìm kiếm có liên quan đều là một phần của thực thể. Mặc dù việc triển khai chính xác của nó vẫn chưa được biết, nhưng có một số manh mối về cách nó hoạt động.
Một khái niệm được gọi là ‘đồng xuất hiện’ rất quan trọng trong cách Google hình thành mối quan hệ giữa các thực thể khác nhau. Đồng xuất hiện đề cập đến tần suất hai thực thể khác nhau được liên kết với nhau theo một cách nào đó, chẳng hạn như tần suất cả hai tên khác nhau được đề cập cùng nhau. Bằng cách này, Google có thể ‘tìm hiểu’ về mối quan hệ giữa chủ tịch và phó chủ tịch bằng tần suất tên của họ được đề cập cùng nhau.
SEO dựa trên thực thể là một lĩnh vực mới, có đầy đủ các khả năng, nhưng vẫn cần phát triển các phương pháp tiếp cận vững chắc. Điều này bao gồm lý thuyết, kỹ thuật và công cụ sử dụng các thực thể để tối ưu hóa trang web của bạn.
Để bắt đầu, chúng ta hãy phá vỡ sự nhầm lẫn trong việc hiểu các thực thể SEO thực sự là gì. Nhiều bài báo đã được xuất bản về các thực thể và vai trò của chúng trong sự phát triển của lập chỉ mục web. Tuy nhiên, đối với nhiều chuyên gia, nó vẫn khó hiểu. Tại sao các đơn vị có thể thiết lập một chiến lược SEO bền vững và chúng có thể được sử dụng như thế nào để cải thiện hiệu suất trang web?
Hướng dẫn này nhằm mục đích chỉ ra lý do tại sao bạn cần các thực thể để nỗ lực SEO của bạn hiệu quả hơn và cách sử dụng các thực thể để cải thiện SEO trên trang, củng cố kiến trúc của trang web và cải thiện các chiến lược thu được lưu lượng truy cập của bạn.
1. Thực thể SEO là gì?
SEO là viết tắt của Search Engine Optimization, thực hành tăng số lượng và chất lượng lưu lượng truy cập vào trang web của bạn thông qua các kết quả của công cụ tìm kiếm không phải trả tiền.
Ngay từ đầu, người làm SEO đã chủ yếu tập trung vào các từ khóa để tăng lượng truy cập.
SEO dựa trên thực thể là tất cả về việc tập trung vào các thực thể hơn là từ khóa. Nói như vậy thì đơn giản, nhưng nó đòi hỏi một sự thay đổi tư duy cơ bản.
Từ khóa là gì?
Trong SEO , một từ khóa được tạo thành từ một hoặc nhiều từ được nhập bởi người dùng trong một công cụ tìm kiếm như Google hoặc Bing.
Khi công cụ tìm kiếm bắt đầu, khái niệm từ khóa đã hình thành cơ sở của các chiến lược tham chiếu tự nhiên, với mục đích đảm bảo khả năng hiển thị của một trang trong kết quả của công cụ tìm kiếm , đối với một hoặc nhiều cụm từ cụ thể.
Từ khóa có hai đặc điểm cơ bản:
- Chúng mang theo sự mơ hồ. Một từ khóa có thể đề cập đến một số chủ đề rất khác nhau. Ví dụ: từ khóa “Cookie” có thể đề cập đến một loại bánh quy có thể ăn được hoặc thông tin được gửi bởi một máy chủ Web khi một trang tải.
- Một từ khóa phần lớn thời gian dành riêng cho một ngôn ngữ. Từ khóa “machine à laver” trong tiếng Pháp tương ứng với “máy giặt” trong tiếng Anh hoặc “lavadora” trong tiếng Tây Ban Nha.
Thực thể là gì?
Nói chung, một thực thể (hay chính xác hơn là thực thể được đặt tên ) chỉ định một thứ hoặc khái niệm duy nhất, được xác định rõ ràng và có thể được liên kết với một biểu đồ tri thức.
Không giống như một từ khóa, cuối cùng chỉ là một tập hợp các chữ cái cụ thể cho một ngôn ngữ, một thực thể mang ý nghĩa và độc lập với ngôn ngữ và các từ khóa đồng nghĩa chỉ định nó.
Chính xác hơn, trong thế giới SEO, một thực thể liên quan đến bất kỳ chủ đề nào có thể được liên kết với sơ đồ tri thức của các công cụ tìm kiếm , chẳng hạn như Sơ đồ tri thức của Google.
Chúng tôi biết rằng Wikipedia hoạt động như một tập hợp hạt giống đáng tin cậy chính cho Sơ đồ tri thức. Để đơn giản, chúng ta có thể gọi một Thực thể là bất kỳ chủ đề nào có thể được gắn vào trang bài viết Wikipedia , (trừ các trang phân loại hoặc một danh mục).
Ví dụ :
Loại thực thể | Từ đồng nghĩa của từ khóa | Thực thể tương ứng |
Người | kèn | Donald trump |
Vị trí | Paris | Paris, Pháp |
Tổ chức | Bảng chữ cái | Alphabet Inc |
Biến cố | NHỮNG THỨ KIA | Trưng bày tiêu dùng điện tử |
Khái niệm / Điều | SEO | Tối ưu hóa công cụ tìm kiếm |
Để tối ưu hóa SEO trên trang và tại chỗ, chúng ta nên tập trung vào việc sử dụng các thực thể cơ bản nào để giúp công cụ tìm kiếm hiểu được ý nghĩa cơ bản của nội dung.
Lưu ý: có những loại thực thể khác, chẳng hạn như bạn, thương hiệu của bạn, công ty của bạn, mặc dù không có trang Wikipedia, nhưng có thể được liên kết với Sơ đồ tri thức khác (chẳng hạn như Google MyBusiness hoặc Linkedin). Tuy nhiên, tối ưu hóa các thực thể này sẽ chỉ cải thiện danh tiếng của bạn chứ không phải SEO của bạn.
Các lỗi thường gặp liên quan đến các thực thể
Có rất nhiều lỗi trên web về các thực thể trong SEO. Chúng tôi có vẻ cần thiết phải loại bỏ bất kỳ sự mơ hồ hoặc nhầm lẫn nào ở đây.
Các lỗi gặp phải trong tài liệu SEO
Lấy ví dụ, bài viết này trên Search Engine Watch về tối ưu hóa nội dung bằng cách sử dụng các thực thể.
Tác giả gợi ý rằng “cầu thủ”, “giày bóng rổ tốt nhất” và “bóng rổ” là các thực thể được Google phát hiện trong quá trình phân tích một văn bản về bóng rổ.
Kết quả phân tích văn bản bằng API NLP của Google
Những sai lầm được thực hiện ở đây là gì? Giày bóng rổ tốt nhất chắc chắn không đề cập đến một thực thể, vì không có trang Wikipedia về chủ đề này.
Giày bóng rổ cũng không phải là một thực thể. Đây là một từ khóa đồng nghĩa đề cập đến Giày thể thao thực thể .
Ngay cả từ Nike đề cập đến thực thể Nike, Inc thực thể này được phát hiện một cách chính xác bởi Google NLP, mà tạo ra một từ đồng nghĩa: chữ “ Nike ” nhưng liên kết đến các trang Wikipedia của thực thể Nike, Inc .
Những điều cần nhớ từ điều này:
Google chỉ liệt kê các từ khóa trong giao diện API ngôn ngữ tự nhiên của nó . Các thực thể tương ứng với các liên kết Wikipedia được liên kết với mỗi từ.
Các lỗi khác gặp phải
Ví dụ mà Wikipedia đưa ra trên trang của mình liên quan đến các thực thể được đặt tên cũng gây nhầm lẫn.
Đây là một trích dẫn trên trang Wikipedia (kể từ ngày 12 tháng 1 năm 2021):
… Hãy xem xét câu Trump là tổng thống của Hoa Kỳ . Cả Trump và Hoa Kỳ đều được đặt tên là các thực thể vì chúng đề cập đến các đối tượng cụ thể (Donald Trump và Hoa Kỳ). Tuy nhiên, tổng thống không phải là một thực thể được đặt tên vì nó có thể được sử dụng để chỉ nhiều đối tượng khác nhau trong các thế giới khác nhau ”
Trích từ Wikipedia (có tranh luận)
Tuyên bố này sai vì những lý do sau:
- Trumplà một từ khóa đồng nghĩa với thực thể Donald Trump (và do đó từ Trump không tự bản thân nó là một thực thể, tùy thuộc vào ngữ cảnh, nó cũng có thể đề cập đến thực thể Trump (trò chơi bài) bằng tiếng Anh hoặc Trump trong tiếng Pháp)
- Tương tự như vậy, Presidentlà một từ khóa đồng nghĩa với thực thể Tổng thống Hoa Kỳ (được xác định trong Sơ đồ tri thức của Google bằng ID / m / 060d2), có thể dễ dàng phân biệt bằng cách phân tích ngữ cảnh của câu, đặc biệt vì thực thể này chính xác là có tên trong câu trên.
Câu nói được Wikipedia đưa ra làm ví dụ cuối cùng ám chỉ 3 thực thể: Donald Trump , Tổng thống Hoa Kỳ và Hợp chủng quốc Hoa Kỳ .
Thuật ngữ được Google sử dụng: Thực thể, Chủ đề hay cả hai?
Như chúng ta sẽ thấy bên dưới, Google sử dụng các thực thể trong hầu hết các dịch vụ web của mình (Google Tìm kiếm, Google Khám phá, Google Tin tức và Google Xu hướng nói riêng).
Mặt khác, Google hầu như không bao giờ sử dụng thuật ngữ Thực thể , ưu tiên thuật ngữ Chủ đề bằng tiếng Pháp hoặc Chủ đề bằng tiếng Anh, như được hiển thị trong ảnh chụp màn hình bên dưới. Tất cả “Chủ đề” được đề cập thực sự là Thực thể.
2. Google sử dụng các thực thể như thế nào?
Tại sao Google sử dụng các thực thể
Trước khi trả lời câu hỏi “Làm thế nào”, điều thú vị là đầu tiên bạn nên đặt câu hỏi “Tại sao”. Tại sao các thực thể ngày nay lại là trung tâm của các thuật toán và dịch vụ của Google và tại sao chúng đang có xu hướng thay thế các từ khóa từng chút một?
Một lý do là hiển nhiên. Nếu Google sử dụng các thực thể, đó là bởi vì các thực thể này có thể kết nối tất cả thông tin của thế giới với nhau, bất kể ngôn ngữ. Các thực thể có thể hiểu được ý nghĩa của thông tin này cũng như các trung tâm quan tâm của người dùng.
Google sử dụng các thực thể vì những thực thể này giúp cho việc kết nối tất cả thông tin của thế giới với nhau, bất kể ngôn ngữ là gì. Các thực thể có thể hiểu được ý nghĩa của thông tin này cũng như các trung tâm quan tâm của người dùng.
Bằng cách phát hiện các thực thể có trong các trang web, Google sẽ có thể liên kết hai trang web nói về cùng một thứ bằng các ngôn ngữ khác nhau.
Trong ví dụ ngược lại, Google cung cấp, thông qua Discover, một bài báo bằng tiếng Anh cho một người dùng Pháp quan tâm đến thực thể “Tối ưu hóa công cụ tìm kiếm” (và người trước đây đã tham khảo các trang web tiếng Anh về cùng chủ đề).
Chúng ta sẽ thấy rằng cá nhân hóa thông qua các thực thể vượt xa Google Discover.
Các dịch vụ của Google sử dụng các thực thể nào?
Trong bài viết năm 2018 “ Giúp bạn trong suốt hành trình Tìm kiếm ”, Google đã tuyên bố phát hiện và lập chỉ mục các thực thể có trong tất cả các trang được xuất bản trên Web, với nhiều ứng dụng chính.
Nếu phải tóm tắt tất cả các ứng dụng này, chúng ta có thể nói rằng Google sử dụng các thực thể để diễn giải và phân loại các trang web, thiết lập mối quan hệ giữa các thực thể (và do đó giữa các trang web) và cung cấp câu trả lời tốt hơn cho các câu hỏi cho người dùng Web.
Sơ đồ tri thức
Theo báo cáo của Google , Sơ đồ tri thức được Google Tìm kiếm sử dụng để giúp người dùng khám phá thông tin nhanh hơn và dễ dàng hơn. Sơ đồ tri thức này chứa hầu hết các thực thể trong thế giới thực như con người, địa điểm và đồ vật và được làm mới bằng cách kết xuất Wikipedia hàng đêm.
Việc sử dụng Sơ đồ tri thức về cơ bản cho phép Google:
- Trình bày bảng tri thức cho các thực thể được người dùng Internet tìm kiếm,
- Tinh chỉnh kết quả của các dịch vụ khác của nó dựa trên sở thích của người dùng.
Tìm kiếm trên Google
Việc sử dụng các thực thể cho phép Google cá nhân hóa các kết quả được cung cấp bởi công cụ tìm kiếm của mình, dựa trên lợi ích của người dùng và lịch sử tìm kiếm của Google.
Không cần đoán trước chi tiết về các bản cập nhật cho thuật toán của Google, nhiều người đã tập trung vào các thực thể:
- Google Hummingbird: Với bản cập nhật này, Google đã chuyển đổi cách xử lý các truy vấn của người dùng internet bằng cách chuyển từ cách tiếp cận dựa trên từ khóa (chuỗi) sang cách tiếp cận dựa trên thực thể (sự vật).
- Google Rankbrain: RankBrain cho phép Google phản hồi tốt hơn các truy vấn mà nó chưa từng gặp phải trước đây. Điều này đạt được bằng cách sử dụng các thực thể và một lớp trí tuệ nhân tạo.
- Google BERT: Cài đặt này sử dụng Xử lý ngôn ngữ tự nhiên (NLP) để hiểu các truy vấn tìm kiếm, diễn giải văn bản trên các trang web và do đó xác định các thực thể và mối quan hệ kết nối chúng.
Nhờ những cải tiến liên tiếp này, Google hiện có thể định dạng lại các yêu cầu của người dùng Internet và có thể là cũng định dạng lại nội dung của các trang Web.
Các đề xuất tìm kiếm do Google cung cấp cũng ngày càng bao gồm các đề xuất thực thể.
Các đề xuất 1,3,4 & 5 là các đề xuất thực thể
Bằng cách tìm kiếm “nữ hoàng” mà không sử dụng gợi ý, chúng tôi nhận được sự kết hợp của nhiều ý tưởng trong kết quả, nhưng bằng cách sử dụng hộp gợi ý, chúng tôi có thể nhận được danh sách kết quả khá ngạc nhiên vì nó không có lỗi (không có gợi ý về vua hoặc phim, ví dụ), điều này cho thấy rõ ràng rằng Google chỉ cung cấp kết quả tìm kiếm dựa trên các thực thể và không chỉ dựa trên từ khóa.
Kết quả chưa được lọc cho “nữ hoàng”Kết quả dựa trên thực thể cho “nữ hoàng” loại bỏ sự uy nghiêm của Elizabeth II
Google Khám phá
Như đã thấy ở trên, tất cả các kết quả do Google Discover cung cấp đều dựa trên sở thích của người dùng, tức là các thực thể có trong các trang web mà họ sử dụng. Từ các trang này, Google xây dựng cái mà nó gọi là “ Lớp chủ đề ” (đọc Thực thể cho chủ đề), tức là biểu đồ về sở thích của mỗi người dùng.
Bất cứ khi nào một bài báo mới được xuất bản trên web bao gồm một trong những lĩnh vực quan tâm này, Google có thể đề xuất bài viết đó cho người dùng tương ứng trong Google Khám phá.
xu hướng Google
Google cung cấp hai loại nghiên cứu về công cụ xu hướng của mình:
- Tìm kiếm theo “cụm từ tìm kiếm”, tức là theo từ khóa
- Tìm kiếm theo “chủ đề”, tức là theo thực thể.
Đây là ví dụ về xu hướng cho thực thể / m / 060d2 đã thấy ở trên và có thể truy cập tại URL https://trends.google.com/trends/explore?geo=US&q=%2Fm%2F060d2
Làm cách nào để Google phát hiện các thực thể?
Các nghiên cứu mà chúng tôi thực hiện với InLinks, và đặc biệt thông qua các báo cáo của Ngành , cho thấy rằng Google chỉ phát hiện trung bình 20% các thực thể có trong một văn bản.
Kết quả này đạt được khi sử dụng Google NLP API.
Tuy nhiên, các nghiên cứu của chúng tôi cho thấy rằng trong nhiều trường hợp, API của Google không trực tiếp phát hiện thực thể chính trong các bài viết mà nó cung cấp trên Google Discover.
Do đó, hợp lý khi nghĩ rằng Google sử dụng các phương pháp khác nhau để xác định các thực thể hiện diện trên một trang:
- Một thuật toán NLP, tương tự như API của nó (API của họ phát hiện gần như 100% mọi người, địa điểm và tổ chức, nhưng rất ít khái niệm / sự vật),
- Các yếu tố ngoài trang, chẳng hạn như các thực thể được phát hiện trong các trang khác của trang web (hoạt động như các thực thể theo ngữ cảnh và cho phép thêm một bước xác định)
- Các yếu tố trên trang, chẳng hạn như đánh dấu Schema.org để chỉ định rõ ràng các thực thể có trong trang