AI Capabilities and Limitations — Ghi chú học tập

  • Khoá này mô tả "phía cỗ máy": bốn thuộc tính của generative AI mà các năng lực con người trong khung 4D phản hồi lại — hai mặt của cùng một hệ thống.
  • Bốn thuộc tính lõi: Next Token Prediction, Knowledge, Working Memory và Steerability — chúng ổn định ngay cả khi model đổi version.
  • Kiến thức bền vững vì các thuộc tính giữ nguyên; chỉ ranh giới (boundaries) dịch chuyển khi model mạnh lên, còn bản chất thuộc tính thì không đổi.
  • AI có "tính cách" qua 2 giai đoạn huấn luyện — pretraining (document completer) và fine-tuning (assistant) — mỗi giai đoạn để lại fingerprints: sycophancy, verbosity, over-caution, loose confidence calibration.

TL;DR — Nếu khung 4D (khoá AI Fluency) dạy năng lực con người để cộng tác với AI, thì khoá AI Capabilities & Limitations dạy thuộc tính của cỗ máy mà những năng lực đó phản hồi lại. Hai mặt của một hệ thống. Trục chính cần thuộc: 4 thuộc tính lõi của generative AINext Token Prediction · Knowledge · Working Memory · Steerability. Kiến thức này bền vững vì thuộc tính không đổi khi model lên version — chỉ boundaries dịch.

Course roadmap (mô hình tư duy về "cỗ máy")

Phần Câu hỏi cốt lõi
What we mean by AI Generative AI là gì, khác gì các loại AI khác?
How AI is trained Pretraining & fine-tuning tạo nên "tính cách" của AI thế nào?
Properties of AI Bốn thuộc tính: Next Token Prediction · Knowledge · Working Memory · Steerability
Putting it all together Khi các thuộc tính va vào nhau trong tình huống thật thì sao?
Next steps Dùng hiểu biết này để xài AI an toàn · hiệu quả · có đạo đức ra sao?

⭐ Bốn thuộc tính ở hàng Properties of AIbảng vàng của khoá — gần như mọi bài sau đều quay về nó.


1. Hai mặt của một hệ thống: 4D ↔ thuộc tính máy

Ý lớn của lesson mở đầu: Khung 4D mô tả human competencies (năng lực con người). Khoá này mô tả machine properties (thuộc tính máy) mà những năng lực đó phản hồi lại. Ghép vào nhau là một hệ thống cộng tác người–máy.

  • AI Fluency / 4D dạy YOU làm việc với AI thế nào (Delegation · Description · Discernment · Diligence — xem ghi chú khoá AI Fluency).
  • Capabilities & Limitations dạy AI có thể làm việc với bạn thế nào — bằng cách hiểu nó hoạt động ra sao bên trong.
  • Hiểu thuộc tính máy → biết vì sao một kỹ thuật 4D lại hiệu quả (ví dụ: vì sao phải Description rõ — vì AI chỉ dự đoán token, không "đọc được suy nghĩ").

2. Generative AI là gì (và không là gì)

Đa số AI ngoài đời KHÔNG phải generative. Spam filter, gợi ý video, phát hiện gian lận… đều là AI phân loại / dự đoán (classification & prediction): chúng sắp xếp · xếp hạng · gán nhãn dữ liệu có sẵn. Khoá này nói về loại còn lại: generative AI — cụ thể là transformer-based text models sinh ra nội dung mới, từng token một (one token at a time).

Generative AI Classification / Prediction AI
Làm gì Tạo nội dung mới Sắp xếp · xếp hạng · gán nhãn nội dung có sẵn
Ví dụ Viết email, tóm tắt, dịch, trả lời chatbot Lọc spam, gợi ý sản phẩm, tag ảnh, phát hiện gian lận
Cơ chế Đoán token kế tiếp dựa trên xác suất Khớp mẫu để gán vào nhóm/điểm

🧠 Mẹo phân biệt khi làm bài tập: hỏi "nó đẻ ra cái gì mới, hay chỉ chọn/chấm/dán nhãn cái đã có?". Autocomplete gợi ý từ tiếp = ranh giới (đoán token → hơi generative), nhưng tag ảnh / lọc spam / recommendation = classification.


3. AI có "tính cách" từ đâu — Pretraining & Fine-tuning

Sự lịch sự, hữu ích, thận trọng của AI KHÔNG phải phép màu tự nảy ra. Nó được huấn luyện vào qua 2 giai đoạn, và mỗi giai đoạn để lại "dấu vân tay" (fingerprints) dự đoán được trên cách AI cư xử.

Giai đoạn Làm gì Kết quả
Stage 1 — Pretraining Đọc khối lượng văn bản khổng lồ, học một việc duy nhất: đoán chữ tiếp theo Thành document completer (cỗ máy hoàn thành văn bản) cực mạnh — nhưng chưa hề có khái niệm "giúp bạn"
Stage 2 — Fine-tuning Dùng human preferences (đánh giá của con người về câu trả lời tốt) để nắn Biến document completer thành assistant: coi input của bạn là request, trả lời thay vì lảm nhảm, từ chối yêu cầu có hại

🎯 Đích nhắm của fine-tuning thường gói trong 3 chữ H: Helpful · Honest · Harmless (hữu ích · trung thực · vô hại).

Bốn "dấu vân tay" của fine-tuning (rất hay ra thi)

Vì fine-tuning dựa trên phán đoán của con người, mà con người có thiên kiến → AI thừa hưởng 4 fingerprints xuất hiện ở mọi model:

Fingerprint (EN) Là gì Hỏng ở đâu cho anh
Sycophancy (nịnh/dễ đồng ý) Có xu hướng validate ý anh thay vì phản biện Chỗ anh cần góp ý thật — nó gật theo khung sai của anh
Verbosity (dài dòng) Mặc định trả lời dài dù câu hỏi chỉ cần 1 câu Chỗ anh cần gọn, dưới áp lực thời gian
Over-caution (thận trọng thái quá) Hedge / rào trước cả khi rủi ro thật rất thấp Vùng xám hợp lệ — nó từ chối/cảnh báo dư thừa
Loose confidence calibration (hiệu chỉnh tự tin lỏng lẻo) Mức tự tin nó tuyên bố ≠ mức đúng thật Anh tin theo giọng chắc nịch mà nội dung lại sai

⚠️ Cái thứ 4 nguy nhất & dễ quên nhất: loose confidence calibration — AI nói "chắc chắn" không có nghĩa nó đúng. Giọng tự tin chỉ là sản phẩm của fine-tuning, không phải thước đo độ đúng. (Ăn khớp với bài Next Token Prediction: trơn tru ≠ đúng.)

Góc Delivery Manager: giống tuyển một bạn rất lễ phép, nhiệt tình nhưng quen nói "dạ được ạ" — anh phải chủ động mời phản biện ("cứ phản đối thẳng nếu thấy em sai") thì mới gỡ được sycophancy. Biết trước fingerprint → đọc hành vi AI đỡ bị lừa.


4. Bốn thuộc tính lõi — mỗi cái là một continuum

Ý lớn nhất của bài: generative AI không đồng đều "giỏi" hay "dở". Nó mạnh–yếu dọc theo 4 trục dự đoán được. Quan trọng hơn: mỗi thuộc tính là một continuum (phổ liên tục) từ capability (năng lực) → limitation (giới hạn). Cùng một cơ chế vừa cho bạn năng lực vừa tạo ra giới hạn — không phải hai thứ tách rời. Càng lệch về phía phải, càng phải verify & bù trừ.

Thuộc tính Câu hỏi ✅ Capability (vùng nên tin) ⚠️ Limitation (vùng phải verify)
Next Token Prediction (dự đoán token kế tiếp) Câu trả lời của AI từ đâu ra? Lối mòn quen: tóm tắt, đổi định dạng, giải thích khái niệm phổ biến Vùng lạ, mẫu thưa — "đúng thật" vs "nghe có vẻ đúng"
Knowledge (kiến thức) AI thật sự biết gì? Chủ đề phổ biến, ngôn ngữ thông dụng, có nhiều & nhất quán trong training Hiếm, sau cutoff, niche, địa phương, hoặc còn tranh cãi
Working Memory (bộ nhớ làm việc) AI đang chú ý vào cái gì lúc này? Tài liệu vừa đủ, phiên hiện tại, bạn cấp đúng ngữ cảnh Doc/hội thoại quá dài, kỳ vọng nhớ xuyên phiên (the cliff — vách rơi)
Steerability (khả năng điều hướng) Mình kiểm soát được tới đâu? Lệnh ngắn, cụ thể, kiểm chứng được ("trả lời dạng bảng", "dưới 100 từ") Chuỗi suy luận dài, yêu cầu trừu tượng, đòi độ chính xác tuyệt đối

Đào sâu cơ chế (để đọc lại là thấm)

  • Next Token Prediction — AI không tra cứu rồi đọc ra; nó chỉ lặp lại "token nào khả năng cao đứng tiếp?" hàng nghìn lần. Hệ quả: nó tối ưu cho "sounds true" (nghe có vẻ đúng), không phải "is true" (đúng thật) — hai cái trùng ở vùng phổ biến, tách ở vùng hiếm. Gốc của hallucination (bịa) là đây: vùng lạ nó vẫn đoán, không biết cách im lặng.
  • Knowledge = thứ đông cứng từ training tại knowledge cutoff. Ví như người giỏi bị "nhốt phòng" từ ngày X: trước X & phổ biến → nhớ; rare / post-cutoff / niche-local / contested → mù mờ. Lỗ hổng Knowledge + cơ chế NTP = hallucination trơn tru.
  • Working Memory = context window, thông tin anh nạp vào ngay phiên này (prompt + tài liệu dán + lịch sử chat). Như mặt bàn: nạp đúng & vừa → bám sát cả dữ liệu nội bộ; quá dài → loãng; hết phiên = trí nhớ về 0 ("the cliff"). AI không tự nhớ buổi hôm qua — muốn nhớ phải nạp lại.
  • Steerability = mức hành vi bẻ theo chỉ dẫn một cách đáng tin. Lệnh cụ thể, verify được bằng mắt ("dạng bảng", "<100 từ") → ghì tốt; lệnh trừu tượng ("hay hơn", "tinh tế hơn") → trôi. Mẹo bù: chẻ lệnh to trừu tượng → nhiều lệnh nhỏ kiểm chứng được.

🧩 Một câu ráp cả 4: Knowledge = nó có sẵn gì · Working Memory = anh vừa đưa gì · Next Token Prediction = nó dệt chữ thế nào · Steerability = anh ghì được tới đâu.

🎯 Calibrated trust (niềm tin được hiệu chỉnh): đừng tin hay nghi AI trọn gói. Hãy định vị task của bạn trên continuum — nó nằm gần đầu capability hay đầu limitation của từng trục? Đó mới là cách dùng AI khôn ngoan.


5. Vì sao kiến thức này "bền vững"

Model đổi version liên tục, nhưng bốn thuộc tính giữ nguyên. Cái dịch chuyển là boundaries (ranh giới khả năng) — model mạnh lên thì context window dài hơn, kiến thức mới hơn, lái dễ hơn — nhưng bản chất thuộc tính thì không đổi.

  • Đây là lý do học thuộc tính thay vì học mẹo cho từng model: thuộc tính bền, mẹo thì lỗi thời.
  • Song hành với luận điểm "lasting framework" của 4D bên AI Fluency — cả hai khoá đều cố ý dạy thứ không hết hạn.

Góc Delivery Manager: giống như đánh giá năng lực một thành viên mới. Boundaries (kinh nghiệm, tốc độ) sẽ tăng theo thời gian; nhưng bản chất cách họ làm việc — cách tiếp nhận yêu cầu, điểm dễ sai — mới là thứ mình cần nắm để giao việc đúng. Với AI, "bản chất" = bốn thuộc tính này.


Bài tập & tự vấn

Lesson mở đầu — Mapping Your Current AI Use

  • Liệt kê 4–6 việc thật đã dùng AI trong 2 tuần qua (càng cụ thể càng tốt, ví dụ "soạn email báo trễ tiến độ cho khách" thay vì "viết lách"). Với mỗi việc ghi 1 dòng: lần đầu đã dùng được luôn, hay phải sửa lại?
  • Đưa list cho AI và hỏi "mỗi việc này có thể hỏng ở đâu nếu mình lơ là?" — đối chiếu với trải nghiệm thật; không khớp thì phản biện lại.
  • Tự vấn: việc nào thấy an toàn khi giao AI, việc nào rủi ro — vì sao? Hành vi nào của AI từng thấy mà chưa giải thích được lúc đó?

Lesson "What we mean by generative AI" — Generative or Not?

  • Kể 5 tính năng AI đã chạm tuần này (autocomplete, tag ảnh, lọc spam, chatbot, dịch, gợi ý sản phẩm, trợ lý giọng nói…). Với mỗi cái tự phán: đẻ ra nội dung mới (generative) hay sắp xếp/xếp hạng/gán nhãn cái có sẵn (classification)?
  • Đưa list cho AI nhờ chấm. Cái nào sai/chưa chắc → nhờ giải thích sự khác biệt trong 1 câu. Rồi hỏi: "cái nào dễ có failure mode mà khoá này sẽ giúp mình hiểu nhất?"
  • Quay lại task list ở lesson trước, gắn nhãn mỗi task bằng câu hỏi thuộc tính hợp nhất lúc này: từ đâu ra? (Next Token Prediction) · biết gì? (Knowledge) · chú ý cái gì? (Working Memory) · kiểm soát tới đâu? (Steerability). Đây là dự đoán để test qua 4 lesson sau, không cần đúng ngay.

Lesson "How AI gets its character" — Fingerprints on Your Own Work

  • Chọn 1 task anh từng chạy qua AI và biết rõ output tốt trông ra sao. Chạy 3 lần có biến tấu để bắt fingerprint:
    • Run 1 — Straight: prompt bình thường, lưu output làm chuẩn.
    • Run 2 — Sycophancy test: mở đầu bằng một giả định sai ("anh thấy chiến lược này bất khả chiến bại") → xem nó gật theo hay phản biện. Rồi thử lại với lời mời thẳng: "cứ phản đối thật lòng nếu thấy anh sai" → so 2 phản hồi.
    • Run 3 — Verbosity test: hỏi 1 câu chỉ cần 1 câu trả lời → đo độ dài. Hỏi lại kèm "trả lời trong 1 câu" → khoảng chênh chính là verbosity default.
    • (Optional) Caution test: hỏi thứ ở vùng xám hợp lệ → xem mức rào trước có tương xứng rủi ro thật hay chỉ phản xạ.
  • Tự vấn: fingerprint nào lộ rõ nhất trên việc của anh? Gọi tên nó trước có làm anh đọc hành vi AI khác đi không? Sycophancy đắt nhất ở đâu (chỗ cần góp ý thật)? Verbosity đắt nhất ở đâu (chỗ cần gọn, gấp)?

🔖 Giữ list này lại — các lesson sau sẽ quay lại và nhìn nó khác đi mỗi lần.


Từ khoá cần thuộc (đề thi 100% tiếng Anh)

🔴 Core — gần như chắc ra thi, hiểu sâu:

  • Generative AI vs classification / prediction AI — đẻ nội dung mới vs gán nhãn cái có sẵn
  • Next Token Prediction · Knowledge · Working Memory · Steerability — 4 thuộc tính lõi
  • Continuum (capability ↔ limitation) — cùng một cơ chế cho cả hai mặt
  • Calibrated trust — định vị task trên continuum, không tin/nghi trọn gói
  • Pretraining vs Fine-tuning — document completer vs assistant
  • Sycophancy · Verbosity · Over-caution · Loose confidence calibration — 4 fingerprints của fine-tuning

🟡 Important — nên nắm rõ:

  • Document completer · Helpful · Honest · Harmless (mục tiêu fine-tuning) · Human preferences
  • Transformer-based text models · one token at a time
  • Knowledge cutoff · the cliff (mất ngữ cảnh khi quá dài / xuyên phiên) · context window
  • Hallucination · "sounds true" vs "is true"
  • Boundaries dịch, thuộc tính giữ nguyên (lý do framework bền) · lasting framework

🟢 Good-to-know — biết để khỏi bỡ ngỡ:

  • Ví dụ classification: spam filter, recommendation, fraud detection
  • Steerability ví dụ: "respond as a table", "under 100 words"
  • Bài tập: Generative or Not?, Fingerprints on Your Own Work

Nguồn: AI Capabilities & Limitations (Anthropic Academy), xây trên AI Fluency Framework của Prof. Rick Dakan & Prof. Joseph Feller — CC BY-NC-SA 4.0.

Muốn tự kiểm tra? Đề thi thử sẽ có ở tab "Đề thi thử" khi hoàn tất khoá.

Câu hỏi thường gặp

Khoá AI Capabilities & Limitations dạy gì?
Nó mô tả "phía cỗ máy": bốn thuộc tính của generative AI (Next Token Prediction, Knowledge, Working Memory, Steerability). Khung 4D dạy năng lực con người để cộng tác với AI; khoá này dạy các thuộc tính máy mà những năng lực đó phản hồi lại — hai mặt của một hệ thống.
Bốn thuộc tính lõi của generative AI là gì?
Next Token Prediction (dự đoán token kế tiếp), Knowledge (kiến thức), Working Memory (bộ nhớ làm việc) và Steerability (khả năng điều hướng).
Vì sao tài liệu này được coi là "bền vững" khi model liên tục đổi?
Vì bốn thuộc tính giữ nguyên qua các version. Model mạnh lên thì boundaries (ranh giới khả năng) dịch chuyển, nhưng bản chất thuộc tính — cách AI dự đoán token, lưu kiến thức, dùng bộ nhớ làm việc, được điều hướng — thì không đổi.
Generative AI được huấn luyện qua mấy giai đoạn?
Hai giai đoạn. Pretraining — đọc lượng văn bản khổng lồ, học đoán token kế tiếp, thành document completer (chưa có khái niệm "giúp bạn"). Fine-tuning — dùng human preferences để nắn thành assistant: coi input là request, trả lời hữu ích, từ chối yêu cầu có hại (mục tiêu Helpful · Honest · Harmless).
Bốn "dấu vân tay" (fingerprints) fine-tuning để lại là gì?
Sycophancy (xu hướng nịnh/đồng ý theo người dùng), Verbosity (mặc định dài dòng), Over-caution (thận trọng thái quá), và Loose confidence calibration (mức tự tin tuyên bố không khớp độ đúng thật). Chúng xuất hiện ở mọi model vì fine-tuning dựa trên phán đoán của con người.

Đề thi thử (22 câu)

Đề thi thử tự biên soạn, bám sát đề thi chứng chỉ thật. Bản tương tác — chấm điểm, đáp án & giải thích từng câu — nằm ở tab “Đề thi thử” trên trang.

  1. What we mean by generative AI According to the lesson, what most fundamentally distinguishes generative AI from the AI in spam filters and recommendation engines?

    • A. Generative AI runs faster and uses less computational power
    • B. Generative AI produces new content rather than classifying, sorting, or ranking existing content
    • C. Generative AI never makes mistakes once it is trained
    • D. Generative AI works only with images, not text
  2. What we mean by generative AI The course focuses specifically on which kind of generative AI?

    • A. Rule-based expert systems
    • B. Convolutional networks for image classification
    • C. Transformer-based text models that produce content one token at a time
    • D. Reinforcement-learning game agents
  3. What we mean by generative AI Which of the following everyday features is best classified as NON-generative (classification/prediction) AI?

    • A. A chatbot writing a custom reply to your question
    • B. A model drafting a summary of a long document
    • C. A spam filter sorting incoming email into junk or inbox
    • D. A tool translating a paragraph into Japanese
  4. What we mean by generative AI The course frames each of the four core properties as:

    • A. A binary switch that is either fully on or fully off
    • B. A continuum running from capability to limitation
    • C. A feature unique to a single Claude model version
    • D. A setting the user manually configures before each task
  5. What we mean by generative AI Why does the course say the SAME mechanism gives you both a capability and a limitation?

    • A. Because limitations are bugs that engineers forgot to remove
    • B. Because the capability and the limitation are two ends of one underlying property, not two separate things
    • C. Because every AI model is intentionally weakened for safety
    • D. Because capabilities only appear in paid versions
  6. What we mean by generative AI Which set correctly lists the four core properties the course explores?

    • A. Next Token Prediction, Knowledge, Working Memory, Steerability
    • B. Delegation, Description, Discernment, Diligence
    • C. Pre-training, Fine-tuning, Context, Alignment
    • D. Accuracy, Speed, Safety, Cost
  7. What we mean by generative AI The property that answers "Where do AI answers come from?" is:

    • A. Knowledge
    • B. Working Memory
    • C. Next Token Prediction
    • D. Steerability
  8. What we mean by generative AI Rare, post-cutoff, niche, local, or contested topics push which property toward its limitation end?

    • A. Steerability
    • B. Knowledge
    • C. Working Memory
    • D. Next Token Prediction
  9. What we mean by generative AI Very long documents, very long conversations, and expecting cross-session continuity ("the cliff") describe the limitation end of:

    • A. Working Memory
    • B. Knowledge
    • C. Steerability
    • D. Next Token Prediction
  10. What we mean by generative AI Short, concrete, verifiable instructions like "respond as a table" or "under 100 words" sit at the capability end of which property?

    • A. Knowledge
    • B. Next Token Prediction
    • C. Steerability
    • D. Working Memory
  11. What we mean by generative AI The course defines "calibrated trust" as:

    • A. Granting or withholding trust in AI wholesale
    • B. Always trusting AI on factual tasks and never on creative ones
    • C. Locating your specific task on the continuum rather than trusting the AI all-or-nothing
    • D. Trusting only the newest model version available
  12. What we mean by generative AI On the Next Token Prediction continuum, which task sits nearest the capability (low-risk) end?

    • A. Inventing a novel proof for an unsolved problem
    • B. Reformatting and summarizing a well-known, common concept
    • C. Reporting precise facts about a tiny local event after the cutoff
    • D. Producing a guaranteed-correct legal citation
  13. Why the framework lasts Why does the course argue this framework stays durable even as models change versions?

    • A. Because the four properties stay the same; only the boundaries shift as models get stronger
    • B. Because the properties are legally frozen by Anthropic
    • C. Because new models stop having any limitations at all
    • D. Because users memorize model-specific tricks that never expire
  14. How AI gets its character According to the lesson, an AI's politeness, helpfulness, and caution are best explained as:

    • A. Emergent magic that appears spontaneously at large scale
    • B. Behaviors trained in stage by stage, each leaving predictable fingerprints
    • C. Hard-coded rules written by engineers for each question
    • D. A side effect of the user's own prompt wording only
  15. How AI gets its character What does the model learn to do during PRETRAINING?

    • A. Follow human instructions and decline harmful requests
    • B. Predict what text comes next across vast amounts of data
    • C. Rate the quality of its own answers
    • D. Memorize a fixed list of approved responses
  16. How AI gets its character After pretraining alone (before fine-tuning), the model is best described as:

    • A. A helpful assistant that treats your input as a request
    • B. A powerful document completer with no concept of helping you
    • C. A classifier that sorts text into categories
    • D. A safety filter that blocks harmful content
  17. How AI gets its character Fine-tuning turns the document completer into an assistant primarily by using:

    • A. More raw internet text
    • B. Human judgments/preferences about what makes a good response
    • C. A larger context window
    • D. A faster GPU cluster
  18. How AI gets its character Which trio best captures the target behaviors fine-tuning aims for?

    • A. Fast, Cheap, Scalable
    • B. Helpful, Honest, Harmless
    • C. Creative, Concise, Confident
    • D. Accurate, Anonymous, Automated
  19. How AI gets its character An AI tends to validate your framing instead of pushing back, even when your premise is wrong. This fingerprint is called:

    • A. Verbosity
    • B. Over-caution
    • C. Sycophancy
    • D. Loose confidence calibration
  20. How AI gets its character You ask a question that has a one-sentence answer, but the AI returns three paragraphs. Which fingerprint is at work?

    • A. Verbosity
    • B. Sycophancy
    • C. Over-caution
    • D. Hallucination
  21. How AI gets its character The mismatch between how confident an AI sounds and how reliable it actually is, is referred to in the lesson as:

    • A. Over-caution
    • B. Loose confidence calibration
    • C. Sycophancy
    • D. Knowledge cutoff
  22. How AI gets its character Why do these four fingerprints (sycophancy, verbosity, over-caution, loose calibration) show up across essentially every model?

    • A. Because every model shares the same brand name
    • B. Because they arise from fine-tuning on human judgments, which carry human biases
    • C. Because they are required by law
    • D. Because users always write biased prompts