Khoá AI Capabilities & Limitations dạy gì?

Nó mô tả "phía cỗ máy": bốn thuộc tính của generative AI (Next Token Prediction, Knowledge, Working Memory, Steerability). Khung 4D dạy năng lực con người để cộng tác với AI; khoá này dạy các thuộc tính máy mà những năng lực đó phản hồi lại — hai mặt của một hệ thống.

Bốn thuộc tính lõi của generative AI là gì?

Next Token Prediction (dự đoán token kế tiếp), Knowledge (kiến thức), Working Memory (bộ nhớ làm việc) và Steerability (khả năng điều hướng).

Vì sao tài liệu này được coi là "bền vững" khi model liên tục đổi?

Vì bốn thuộc tính giữ nguyên qua các version. Model mạnh lên thì boundaries (ranh giới khả năng) dịch chuyển, nhưng bản chất thuộc tính — cách AI dự đoán token, lưu kiến thức, dùng bộ nhớ làm việc, được điều hướng — thì không đổi.

Generative AI được huấn luyện qua mấy giai đoạn?

Hai giai đoạn. Pretraining — đọc lượng văn bản khổng lồ, học đoán token kế tiếp, thành document completer (chưa có khái niệm "giúp bạn"). Fine-tuning — dùng human preferences để nắn thành assistant: coi input là request, trả lời hữu ích, từ chối yêu cầu có hại (mục tiêu Helpful · Honest · Harmless).

Bốn "dấu vân tay" (fingerprints) fine-tuning để lại là gì?

Sycophancy (xu hướng nịnh/đồng ý theo người dùng), Verbosity (mặc định dài dòng), Over-caution (thận trọng thái quá), và Loose confidence calibration (mức tự tin tuyên bố không khớp độ đúng thật). Chúng xuất hiện ở mọi model vì fine-tuning dựa trên phán đoán của con người.

Next Token Prediction là gì và vì sao nó vừa gây trôi chảy vừa gây bịa?

Generative AI gần với một autocomplete cực tinh vi hơn là search engine: nó viết câu trả lời từng từ một dựa trên "cái gì hay đứng sau cái gì". Câu trả lời được SINH ra chứ không được tra cứu — chính một thuộc tính đó cho cả fluency (trôi chảy) lẫn hallucination (bịa).

Bịa đặt (fabrication) của AI tập trung ở đâu?

Ở specificity — các chi tiết cụ thể, kiểm chứng được: tên người, ngày tháng, số liệu thống kê, trích dẫn, URL, câu quote. Tuyên bố càng chính xác thì càng đáng nghi và càng cần verify. Các tính năng như citations, uncertainty signaling, constrained generation và generator-verifier pattern sinh ra để đẩy lùi giới hạn này.

"Lost in the middle" là gì và prompt thế nào để tránh?

Chú ý của model không đều khắp context window: phần đầu và cuối được trọng số nặng hơn phần giữa (nghiên cứu Stanford 2023 — độ chính xác tụt hơn 30% khi fact bị chôn ở giữa). Cách tránh: đặt lệnh/ràng buộc quan trọng lên đầu (front-load), nhắc lại gần cuối, và cắt lọc bớt context thay vì nhồi — "more context ≠ better".

Embeddings và RAG hoạt động thế nào?

Embeddings biến text thành toạ độ (một vector độ dài cố định, vd ~1024 số) sao cho nghĩa giống nhau thì nằm gần nhau. Tìm kiếm dựa trên độ gần (cosine similarity) thay vì khớp từ khoá. RAG dùng cơ chế này để embed tài liệu + câu hỏi rồi kéo các đoạn liên quan nhất vào context — giúp model "biết" thứ nó chưa từng được train mà không cần huấn luyện lại.

Làm sao chẩn đoán một output AI bị lỗi?

Hầu hết lỗi thật là hai thuộc tính va nhau, không phải một. Gọi tên cặp đó sẽ chỉ thẳng tới cách vá. Năm cặp thường gặp: Next Token Prediction + Knowledge (hallucinated citations → verify/source grounding), Next Token Prediction + Steerability (confidently wrong reasoning → visible reasoning / code execution), Knowledge + Steerability (agreeable bad premises → mời phản biện), Knowledge + Working Memory (stale context vs trained knowledge → nói rõ nguồn ưu tiên), Working Memory + Steerability (long-conversation drift → nạp lại context / mở phiên mới).

AI Capabilities and Limitations — Ghi chú học tập

Nguyễn Phúc Nguyên Châu·Đăng: 2026-06-17·Cập nhật: 2026-06-20

Khoá này mô tả "phía cỗ máy": bốn thuộc tính của generative AI mà các năng lực con người trong khung 4D phản hồi lại — hai mặt của cùng một hệ thống.
Bốn thuộc tính lõi: Next Token Prediction, Knowledge, Working Memory và Steerability — chúng ổn định ngay cả khi model đổi version.
Kiến thức bền vững vì các thuộc tính giữ nguyên; chỉ ranh giới (boundaries) dịch chuyển khi model mạnh lên, còn bản chất thuộc tính thì không đổi.
AI có "tính cách" qua 2 giai đoạn huấn luyện — pretraining (document completer) và fine-tuning (assistant) — mỗi giai đoạn để lại fingerprints: sycophancy, verbosity, over-caution, loose confidence calibration.

TL;DR — Nếu khung 4D (khoá AI Fluency) dạy năng lực con người để cộng tác với AI, thì khoá AI Capabilities & Limitations dạy thuộc tính của cỗ máy mà những năng lực đó phản hồi lại. Hai mặt của một hệ thống. Trục chính: 4 thuộc tính lõi của generative AI — Next Token Prediction · Knowledge · Working Memory · Steerability. Kiến thức này bền vững vì thuộc tính không đổi khi model lên version — chỉ boundaries (ranh giới khả năng) dịch chuyển.

Course roadmap (mô hình tư duy về "cỗ máy")

Phần	Câu hỏi cốt lõi
What we mean by AI	Generative AI là gì, khác gì các loại AI khác?
How AI is trained	Pretraining & fine-tuning tạo nên "tính cách" của AI thế nào?
Properties of AI	Bốn thuộc tính: Next Token Prediction · Knowledge · Working Memory · Steerability
Putting it all together	Khi các thuộc tính va vào nhau trong tình huống thật thì sao?
Next steps	Dùng hiểu biết này để xài AI an toàn · hiệu quả · có đạo đức ra sao?

Bốn thuộc tính ở hàng Properties of AI là phần lõi của khoá — gần như mọi bài sau đều quay về nó.

Đây là khoá Foundation thứ ba trong lộ trình chứng chỉ Claude — sau Claude 101 và AI Fluency.

1. Hai mặt của một hệ thống: 4D ↔ thuộc tính máy

Khung 4D mô tả human competencies (năng lực con người). Khoá này mô tả machine properties (thuộc tính máy) mà những năng lực đó phản hồi lại — ghép vào nhau là một hệ thống cộng tác người–máy. Hiểu thuộc tính máy thì hiểu được vì sao một kỹ thuật 4D lại hiệu quả: ví dụ Description (mô tả rõ ý) quan trọng vì máy chỉ dự đoán token chứ không "đọc được suy nghĩ".

AI Fluency / 4D dạy con người làm việc với AI thế nào (Delegation · Description · Discernment · Diligence — xem ghi chú khoá AI Fluency).
Capabilities & Limitations dạy AI có thể làm việc với con người thế nào — bằng cách hiểu nó hoạt động ra sao bên trong.

2. Generative AI là gì (và không là gì)

Đa số AI ngoài đời không phải generative. Spam filter, gợi ý video, phát hiện gian lận… đều là AI phân loại / dự đoán (classification & prediction): chúng sắp xếp · xếp hạng · gán nhãn dữ liệu có sẵn. Khoá này nói về loại còn lại: generative AI — cụ thể là transformer-based text models sinh ra nội dung mới, từng token một (one token at a time).

	Generative AI	Classification / Prediction AI
Làm gì	Tạo nội dung mới	Sắp xếp · xếp hạng · gán nhãn nội dung có sẵn
Ví dụ	Viết email, tóm tắt, dịch, trả lời chatbot	Lọc spam, gợi ý sản phẩm, tag ảnh, phát hiện gian lận
Cơ chế	Đoán token kế tiếp dựa trên xác suất	Khớp mẫu để gán vào nhóm/điểm

Mẹo phân biệt nhanh: hỏi "nó đẻ ra cái gì mới, hay chỉ chọn/chấm/dán nhãn cái đã có?". Autocomplete gợi ý từ tiếp nằm ở ranh giới (đoán token, hơi generative), còn tag ảnh / lọc spam / recommendation là classification.

3. AI có "tính cách" từ đâu — Pretraining & Fine-tuning

Sự lịch sự, hữu ích, thận trọng của AI không phải phép màu tự nảy ra. Nó được huấn luyện vào qua 2 giai đoạn, và mỗi giai đoạn để lại "dấu vân tay" (fingerprints) dự đoán được trên cách AI cư xử.

Giai đoạn	Làm gì	Kết quả
Stage 1 — Pretraining	Đọc khối lượng văn bản khổng lồ, học một việc duy nhất: đoán chữ tiếp theo	Thành document completer (cỗ máy hoàn thành văn bản) cực mạnh — nhưng chưa hề có khái niệm "giúp bạn"
Stage 2 — Fine-tuning	Dùng human preferences (đánh giá của con người về câu trả lời tốt — cơ chế RLHF) để nắn	Biến document completer thành assistant: coi input của người dùng là request, trả lời thay vì lảm nhảm, từ chối yêu cầu có hại

Đích nhắm của fine-tuning thường gói trong 3 chữ H: Helpful · Honest · Harmless (hữu ích · trung thực · vô hại).

Bốn "dấu vân tay" của fine-tuning

Vì fine-tuning dựa trên phán đoán của con người, mà con người có thiên kiến, nên AI thừa hưởng 4 fingerprints xuất hiện ở hầu hết mọi model:

Fingerprint	Là gì	Nguy ở đâu
Sycophancy (nịnh/dễ đồng ý)	Xu hướng validate khung của người dùng thay vì phản biện	Đúng lúc cần một phản biện thật, nó lại gật theo một tiền đề sai
Verbosity (dài dòng)	Mặc định trả lời dài dù câu hỏi chỉ cần một câu	Khi cần câu trả lời gọn, lúc gấp
Over-caution (thận trọng thái quá)	Hedge / rào trước cả khi rủi ro thật rất thấp	Vùng xám hợp lệ — từ chối hoặc cảnh báo dư thừa
Loose confidence calibration (hiệu chỉnh tự tin lỏng lẻo)	Mức tự tin nó tuyên bố khác mức đúng thật	Dễ tin theo giọng chắc nịch trong khi nội dung lại sai

Cái thứ tư là nguy hiểm và dễ quên nhất: AI nói "chắc chắn" không có nghĩa là nó đúng. Giọng tự tin chỉ là sản phẩm của fine-tuning, không phải thước đo độ đúng — ăn khớp với bài Next Token Prediction phía dưới (trơn tru ≠ đúng).

Góc Delivery Manager. Cái này giống tuyển một bạn rất lễ phép, nhiệt tình nhưng quen miệng "dạ được ạ". Theo kinh nghiệm quản team của mình, cách gỡ sycophancy là chủ động mời phản biện — nói thẳng "cứ phản đối nếu thấy sai". Biết trước các fingerprint thì đọc hành vi AI sẽ đỡ bị dẫn dắt.

4. Bốn thuộc tính lõi — mỗi cái là một continuum

⭐ Ý lớn nhất của bài: generative AI không đồng đều "giỏi" hay "dở". Nó mạnh–yếu dọc theo bốn trục dự đoán được, và mỗi thuộc tính là một continuum (phổ liên tục) từ capability (năng lực) → limitation (giới hạn). Cùng một cơ chế vừa cho năng lực vừa tạo ra giới hạn — không phải hai thứ tách rời. Càng lệch về phía phải, càng phải verify và bù trừ.

Thuộc tính	Câu hỏi	Capability (vùng nên tin)	Limitation (vùng phải verify)
Next Token Prediction (dự đoán token kế tiếp)	Câu trả lời của AI từ đâu ra?	Lối mòn quen: tóm tắt, đổi định dạng, giải thích khái niệm phổ biến	Vùng lạ, mẫu thưa — "đúng thật" vs "nghe có vẻ đúng"
Knowledge (kiến thức)	AI thật sự biết gì?	Chủ đề phổ biến, ngôn ngữ thông dụng, có nhiều & nhất quán trong training	Hiếm, sau cutoff, niche, địa phương, hoặc còn tranh cãi
Working Memory (bộ nhớ làm việc)	AI đang chú ý vào cái gì lúc này?	Tài liệu vừa đủ, phiên hiện tại, được cấp đúng ngữ cảnh	Doc/hội thoại quá dài, kỳ vọng nhớ xuyên phiên (the cliff)
Steerability (khả năng điều hướng)	Kiểm soát được tới đâu?	Lệnh ngắn, cụ thể, kiểm chứng được ("trả lời dạng bảng", "dưới 100 từ")	Chuỗi suy luận dài, yêu cầu trừu tượng, đòi độ chính xác tuyệt đối

Đào sâu cơ chế

Next Token Prediction — AI không tra cứu rồi đọc ra; nó lặp lại câu hỏi "token nào khả năng cao đứng tiếp?" hàng nghìn lần. Hệ quả: nó tối ưu cho "sounds true" (nghe có vẻ đúng), không phải "is true" (đúng thật) — hai cái trùng ở vùng phổ biến, tách ở vùng hiếm. Gốc của hallucination (bịa) là đây: vùng lạ nó vẫn đoán, không biết cách im lặng.
Knowledge — thứ đông cứng từ training tại knowledge cutoff. Ví như người giỏi bị "nhốt phòng" từ ngày X: trước X và phổ biến thì nhớ; rare / post-cutoff / niche-local / contested thì mù mờ. Lỗ hổng Knowledge cộng cơ chế Next Token Prediction là công thức ra hallucination trơn tru.
Working Memory — chính là context window, thông tin được nạp vào ngay trong phiên (prompt + tài liệu dán + lịch sử chat). Như mặt bàn: nạp đúng và vừa thì bám sát cả dữ liệu nội bộ; quá dài thì loãng; hết phiên thì trí nhớ về 0 (the cliff). AI không tự nhớ buổi hôm qua — muốn nhớ phải nạp lại.
Steerability — mức hành vi bẻ theo chỉ dẫn một cách đáng tin. Lệnh cụ thể, verify được bằng mắt ("dạng bảng", "<100 từ") thì ghì tốt; lệnh trừu tượng ("hay hơn", "tinh tế hơn") thì trôi. Cách bù: chẻ một lệnh to trừu tượng thành nhiều lệnh nhỏ kiểm chứng được.

Một câu ráp cả bốn: Knowledge = nó có sẵn gì · Working Memory = ta vừa đưa gì · Next Token Prediction = nó dệt chữ thế nào · Steerability = ta ghì được tới đâu.

Calibrated trust (niềm tin được hiệu chỉnh): đừng tin hay nghi AI trọn gói. Hãy định vị task cụ thể trên continuum — nó nằm gần đầu capability hay đầu limitation của từng trục? Đó mới là cách dùng AI khôn ngoan.

5. Vì sao kiến thức này "bền vững"

Model đổi version liên tục, nhưng bốn thuộc tính giữ nguyên. Cái dịch chuyển là boundaries (ranh giới khả năng) — model mạnh lên thì context window dài hơn, kiến thức mới hơn, lái dễ hơn — nhưng bản chất thuộc tính thì không đổi.

Đây là lý do nên học thuộc tính thay vì học mẹo cho từng model: thuộc tính bền, mẹo thì lỗi thời.
Song hành với luận điểm "lasting framework" của 4D bên AI Fluency — cả hai khoá đều cố ý dạy thứ không hết hạn.

Góc Delivery Manager. Giống như đánh giá năng lực một thành viên mới: boundaries (kinh nghiệm, tốc độ) sẽ tăng theo thời gian, nhưng bản chất cách họ làm việc — cách tiếp nhận yêu cầu, điểm dễ sai — mới là thứ cần nắm để giao việc đúng. Với AI, "bản chất" chính là bốn thuộc tính này.

6. Đào sâu thuộc tính #1 — Next Token Prediction

Câu chốt của bài: generative AI gần với một cái autocomplete cực kỳ tinh vi hơn là một search engine. Nó viết câu trả lời từng từ một, dựa trên "cái gì hay đứng sau cái gì". Chính một thuộc tính đó cho cả fluency (trôi chảy) lẫn hallucination (bịa) — không tách rời được.

Autocomplete ≠ Search engine

Search engine: đi tìm tài liệu có sẵn rồi trả về. Có nguồn, truy được.
Next Token Prediction: không tra cứu — nó dệt chữ mới theo xác suất "token nào khả năng cao đứng tiếp". Câu trả lời là được sinh ra, không phải được tìm thấy.

Vì thế không nên mặc định coi câu trả lời của AI là "có nguồn". Mặc định đúng là: đây là văn bản được sinh ra trông giống sự thật, cần đối chiếu.

Fabrication tụ ở đâu: Specificity (độ cụ thể)

Ý đáng mang đi nhất: bịa đặt tập trung ở những chi tiết cụ thể, kiểm chứng được — tên người, ngày tháng, số liệu thống kê, trích dẫn, URL, câu quote. Càng cụ thể thì càng đáng nghi và càng phải verify.

Vùng chung chung (giải thích khái niệm phổ biến) có mẫu dày, đáng tin.
Vùng cực cụ thể (một con số chính xác, một URL, một câu trích nguyên văn): nếu dữ liệu không thật sự "có", cơ chế Next Token Prediction vẫn dệt ra một cái nghe hợp lý — đây là ổ hallucination.
Quy tắc ngón tay cái: mức nghi ngờ tỉ lệ thuận với độ chính xác của tuyên bố. "React là thư viện UI" (an toàn) khác hẳn "React 18.2 phát hành ngày 14/06/2022 theo blog X" (phải kiểm).

Sampling — vì sao hỏi hai lần ra hai kết quả

Next Token Prediction có yếu tố sampling (lấy mẫu xác suất): cùng một câu hỏi, mở hội thoại mới thì câu trả lời có thể khác.
Cách phát hiện bịa: hỏi lại y hệt ở một conversation mới. Chỗ giữ nguyên là mẫu vững (đáng tin hơn); chỗ đổi mỗi lần (số liệu, tên, URL nhảy lung tung) là dấu hiệu đang bịa.

Bốn kiểu "fail" đặc trưng của Next Token Prediction

Cùng một cơ chế sinh ra cả mặt mạnh lẫn bốn kiểu hỏng dưới đây. Hai khái niệm Hallucination vs Confabulation rất dễ nhầm — phân biệt kỹ.

Failure mode	Là gì	Gốc rễ
Hallucination (ảo giác)	Phần "nối tiếp hợp lý" không phải lúc nào cũng đúng sự thật	tối ưu "sounds true" ≠ "is true"
Confabulation (lấp chỗ trống)	Gặp chỗ thiếu dữ liệu thì lấp bằng nội dung nghe hợp lý thay vì báo "tôi không biết"	không tự biết mình đang thiếu
Inconsistency (thiếu nhất quán)	Cùng prompt, hỏi lại ra output khác	sampling
Misplaced confidence (tự tin đặt sai chỗ)	Văn trơn tru, giọng chắc, bọc lấy một phỏng đoán	fluency cộng fingerprint loose calibration

Mặt capability mà cùng cơ chế đó cho ra: văn fluent ở mọi style/format · tổng hợp nhanh ý tưởng across distant fields · mạnh ở task giống cái đã thấy · coherent continuation (nối mạch một câu chuyện, một lập luận, một khối code).

Áp dụng nhanh: "Tóm tắt một báo cáo dài thì cần soi kỹ tới đâu?" — chỉ cần spot-check. Tóm tắt là một well-worn pattern, rơi vào vùng capability; việc cần làm là kiểm các chi tiết bịa (số liệu, tên, ngày).

Mitigations — tính năng sinh ra để đẩy lùi giới hạn này

Đây không phải "AI tự hết bịa", mà là các lớp gắn thêm để đẩy boundary ra xa:

Tính năng	Làm gì
Citations (trích dẫn nguồn)	Gắn câu trả lời vào nguồn thật để truy được (ví dụ Research mode)
Uncertainty signaling (báo hiệu độ không chắc)	AI nói rõ chỗ nào nó không chắc thay vì nói chắc đều
Constrained generation (sinh có ràng buộc)	Ép output theo khuôn (chỉ chọn từ danh sách, đúng schema) để bớt chỗ bịa
Generator–verifier pattern (sinh rồi kiểm)	Một bước sinh, một bước kiểm lại trước khi trả, để bắt lỗi tự thân

Nối với 4D: Next Token Prediction là nền của Discernment

Biết output là được sinh ra (chứ không phải tra cứu) thì biết chính xác loại soi xét nào cần áp. Đó đúng là năng lực Discernment trong khung 4D (AI Fluency): hiểu vì sao phải thẩm định, và thẩm định cái gì — soi mạnh nhất vào các chi tiết specificity.

Nhìn tận mắt cơ chế — trò "Text Your Friend Markov"

Trò soạn tin chỉ bằng gợi ý từ kế tiếp của bàn phím chính là một next-token generator giải thích được 100%. Nó bóc trần Next Token Prediction bằng một mô hình đồ chơi: Markov chain.

"Training" ở đây là đếm liên kết giữa các từ. Quét vài câu, lập frequency table (bảng tần suất): sau từ A thì từ B/C/D xuất hiện mấy lần.
Chuẩn hoá mỗi hàng thành probability distribution (phân phối xác suất) của "từ nào đứng tiếp". Toàn bộ bảng này gọi là transition matrix (ma trận chuyển tiếp).
Sampling là chọn từ kế tiếp dựa trên phân phối đó — cùng một thuật ngữ dùng cho Claude.
Các "knobs" (núm) chính là sampling strategies: luôn chọn xác suất cao nhất (greedy), chọn bán-ngẫu nhiên theo xác suất, boost lựa chọn hàng đầu, cắt dưới ngưỡng (threshold), chỉ xét top-N, hay "goblin mode" (kệ xác suất). Đây gần đúng là các sampling constraints mà dev truyền cho Claude (temperature, top-k, top-p…).

Markov chain vs LLM — khác nhau ở đâu:

Bước	Markov chain	LLM (Claude)
Đọc context	chỉ từ cuối	toàn bộ hội thoại
Tính phân phối	tra 1 hàng trong bảng	forward pass qua hàng tỉ parameters (attention, embeddings, feedforward…)
Chọn token	sampling	sampling y hệt

Điểm chốt: sampling thì giống nhau, nhưng training thì khác hẳn. Markov đụng "bức tường mũ" (số hàng = vocabulary^N, bùng nổ). LLM đánh đổi tính giải-thích-được (đếm từ đơn giản) để lấy context dài hơn và năng lực lớn hơn nhiều — thay table lookup bằng một learned function (hàm học được).

Một chút lịch sử: Markov công bố ý này năm 1906. Khoảng 2010, các n-gram models chạy gợi ý từ trên điện thoại (SwiftKey, QuickType). Khoảng 2015, neural nets (RNN) rồi transformers (2017) thay table lookup, ra thứ ta đang dùng hôm nay.

7. Đào sâu thuộc tính #2 — Knowledge

Câu khung: đừng hỏi "AI có biết không" mà hỏi "thứ này được đại diện dày tới đâu trong training, và đã cũ chưa". Kiến thức của model đông cứng tại knowledge cutoff — không tool thì không có gì sau ngày đó.

Mặt mạnh (capability)

Kiến thức tổng quát cực rộng — đọc cả núi text nên gần như chủ đề nào cũng biết sơ.
Sâu ở domain được đại diện dày — chủ đề càng phổ biến & nhất quán trong training càng chắc.
Nối khái niệm xuyên ngành — nhờ embeddings: concept liên quan nằm gần nhau trong không gian vector (xem khối dưới).

Năm kiểu "fail" đặc trưng của Knowledge

Failure mode	Là gì
Knowledge cutoff	Sau ngày training dừng → không có gì cả
Staleness (cũ kỹ)	Đúng-lúc-train ≠ đúng-bây-giờ (giá, luật, nhân sự đã đổi)
Uneven coverage (phủ không đều)	Domain ngách / kiến thức địa phương → mỏng, dễ sai
Inherited bias (thiên kiến thừa hưởng)	Cái model coi là "mặc định / bình thường" phản ánh điểm mù của data
Source amnesia (quên nguồn)	"Tôi đọc đâu đó" không phải citation — không truy được nguồn

Mitigations — đẩy ranh giới ra xa

Tính năng	Làm gì
Web search	Vượt cutoff cho câu hỏi nhạy thời gian
Retrieval (RAG) / MCP	Nạp tài liệu model chưa từng được train
Tool use	Gọi ra máy tính / database / API thật để lấy số chính xác
Explicit cutoff disclosure	Model nói thẳng "kiến thức tới ngày X" → biết cái gì cần kiểm

Cơ chế đằng sau RAG — Embeddings: "nghĩa là một vị trí"

Search kiểu cũ khớp chữ giống chữ ("car" không ra "automobile"). Embeddings lật ngược: biến text thành toạ độ sao cho nghĩa giống nhau thì nằm gần nhau — bản đồ này tự nổi lên (emergent) từ training, không ai vẽ tay.

Một embedding model nhận chuỗi chữ vào → trả một vector độ dài cố định (vd ~1024 số, dù input 3 chữ hay 3 đoạn). Coi vector đó như "địa chỉ" nơi đoạn text sống so với mọi thứ khác.
Similarity search: embed cả câu hỏi lẫn tài liệu bằng cùng logic → lấy k item gần nhất. Đo "gần" bằng cosine similarity (hướng vector chỉ về đâu: 1 = y hệt · 0 = không liên quan · −1 = trái nghĩa).
Các "trục" của không gian này không có tên — không thể chỉ vào chiều 847 nói "đây là trục khủng long". Emergent + black box → khó truy vì sao hai văn bản gần/xa nhau (cùng họ với source amnesia).
RAG nối hết lại: khi nạp tài liệu nội bộ, hệ thống embed tài liệu + câu hỏi → kéo mấy chunk gần nhất vào context. Model "biết" thứ nó chưa từng train không phải vì học thêm, mà vì ta đặt đúng đoạn liên quan lên bàn cho nó đọc.

Nối với 4D: Knowledge là nền của Delegation

Biết chỗ nào model "dày", chỗ nào "mỏng" → quyết định khi nào giao việc cho AI, khi nào tự nạp context/tài liệu, khi nào đi hỏi nguồn khác. Đó là năng lực Delegation trong khung 4D.

8. Đào sâu thuộc tính #3 — Working Memory

Mọi thứ AI đang chú ý sống trong một context window kích thước cố định — cái "bàn làm việc". Trong bàn thì chú ý được, ngoài bàn thì không tồn tại. Khác 3 thuộc tính kia: đây là "vách đá" (cliff) chứ không phải dốc thoải (gradient) — chạy ngon tới khi sập cái rụp.

Mặt mạnh (capability)

Thích nghi tức thì trong phiên — đưa style guide / mẫu vào là áp dụng ngay.
Làm việc với material của mình — tài liệu, ràng buộc riêng của bạn.
Context là đòn bẩy — cùng task, nạp đúng ngữ cảnh thì nhảy từ nháp tầm thường → dùng được thật.

Bốn kiểu "fail" đặc trưng của Working Memory

Failure mode	Là gì
Silent truncation (cắt im lặng)	Vượt giới hạn độ dài → cắt không báo; tưởng nó đọc hết, thật ra phần cuối đã rớt khỏi khung
Lost in the middle (rơi ở giữa)	Chú ý không đều: đầu & cuối mạnh, giữa loãng
No persistent memory (không nhớ xuyên phiên)	Mặc định mỗi chat mới bắt đầu từ 0
No learning from you (không học từ bạn)	Sửa lỗi chỉ đổi context lúc đó, không đổi model; chat mới là quên sạch

Cliff, không phải gradient

Điểm phân biệt cốt lõi: NTP / Knowledge / Steerability tệ dần dần (có dấu hiệu); Working Memory "works until it doesn't" — failure mode là truncation âm thầm, không phải lúc nào cũng có cảnh báo.

Context degradation — vì sao "cho thêm context" không phải lúc nào cũng đúng

Nghiên cứu Stanford 2023 ("Lost in the Middle"): đặt một fact then chốt ở các vị trí khác nhau trong context dài → chính xác cao nhất ở đầu/cuối, tụt hơn 30% khi chôn ở giữa. Đây là cấu trúc, không phải lỗi vặt — attention của transformer tự đánh trọng số nặng ở hai rìa.

Gốc tâm lý học: serial position effect — primacy (đầu, được nhẩm nhiều) + recency (cuối, còn tươi); giữa không được lợi gì → rơi trước (đường cong chữ U).
Mỗi mẩu context thêm vào đẩy mẩu khác trôi sâu vào giữa — "vùng chết" của attention. Đây là căng thẳng cốt lõi của context engineering: không chỉ đưa cái gì vào, mà đặt ở đâu và bỏ bớt cái gì.
Chiến lược: (1) front-load — đặt lệnh/ràng buộc quan trọng lên đầu; (2) repeat — nhắc lại gần cuối; (3) curate ruthlessly — cắt lọc thẳng tay, đừng nhồi. More context ≠ better.
(Lưu ý độ dài) prompt ngắn trong phiên gọn thì gần như không dính; rủi ro tăng theo tổng context — doc dài, hoặc hội thoại đã kéo rất dài.

Mitigations — đẩy cliff ra xa

Tính năng	Làm gì
Memory	Giữ fact xuyên phiên
Compaction / summarization	Nén lượt cũ để chừa chỗ
Projects / workspaces	Tài liệu đứng sẵn, luôn trong context
Skills	Giảm xài context tới khi cần
Larger context windows	Đẩy cliff lùi xa thêm

Nối với 4D: Working Memory là cái mà Description tác động lên

Hiểu khung hoạt động ra sao → biết cấu trúc context thế nào, khi nào front-load, khi nào nên mở phiên mới. Đó chính là năng lực Description.

9. Đào sâu thuộc tính #4 — Steerability

Model "nghe lời" cũng bằng Next Token Prediction — pattern-match, không phải hiểu. Fine-tuning đã dạy nó kỹ năng theo lệnh → rất dễ lái; nhưng vì là pattern-match, luôn có khe hở giữa lời (instruction) và ý (intent) — phần lớn lỗi sống trong khe đó.

Vùng kiểm soát chặt vs lỏng

Capability (chặt)	Limitation (lỏng)
Lệnh ngắn, cụ thể, verify được ("dạng bảng 3 cột", "dưới 100 từ", "xưng ngôi 2")	Chuỗi suy luận dài nhiều bước, yêu cầu trừu tượng / mơ hồ, đòi chính xác số học / logic tuyệt đối

Ba (+1) kiểu "fail" đặc trưng của Steerability

Failure mode	Là gì
Reasoning drift (trôi lập luận)	Lỗi nhỏ bước đầu dồn tích qua chuỗi dài → cuối lệch hẳn
Letter over spirit (đúng chữ, trượt ý)	Làm đúng nghĩa đen nhưng trật ý ("ngắn lại" → cắt chữ, trong khi vấn đề thật là cấu trúc)
Prompt injection (tiêm lệnh)	Lệnh lạ / độc nằm trong tài liệu cũng bị làm theo — rủi ro an ninh
Brittle arithmetic (toán giòn)	Tính "nhẩm" bằng next-token → dễ sai số

Insight cốt lõi: prompt từ ý định, không chỉ từ chỉ dẫn

Khi lệnh được làm đúng-chữ nhưng vô dụng, đừng lặp lại lệnh to hơn — hãy nói lại MỤC TIÊU.

Goal ("thuyết phục team timeline này khả thi") ≠ Format ("ba gạch đầu dòng"). Nêu format mà thiếu goal → AI tối ưu sai thứ.
Ví dụ: thay "ngắn lại! ngắn nữa!" bằng "ngắn lại — mục tiêu là giữ sếp đọc tới phát hiện then chốt ở trang 2".

Mitigations — giữ ý đừng bị loãng

Tính năng	Làm gì
System prompts / custom instructions	Chỉ thị đứng sẵn, không loãng theo hội thoại
Code execution	Đẩy toán cho interpreter thật thay vì để model nhẩm
Visible reasoning (extended thinking)	Bắt drift ở bước 2, không đợi đáp án cuối
Structured output	Ép khuôn → giảm letter-over-spirit lan man
Checkpoint	Task nhiều bước → bảo nó dừng cho xem kết quả bước 2 trước khi đi tiếp

Nối với 4D: Steerability vừa làm mạnh vừa giới hạn Description

Mô tả tốt thì lái tốt — nhưng model chỉ pattern-match chữ được viết ra, không đọc được ý ngầm. Hiểu khe hở "lời ≠ ý" → biết viết prompt khác đi và cài checkpoint ở đâu.

Góc Delivery Manager. "Letter over spirit" giống hệt giao việc cho người mới: ghi mỗi format ("làm slide 5 trang") mà quên goal ("để thuyết phục sếp duyệt ngân sách") thì nhận về đúng 5 trang vô hồn. Với cả người lẫn AI, cách chữa giống nhau — nói rõ mục tiêu, rồi chốt checkpoint giữa chặng thay vì đợi cuối mới sửa.

10. Khi thuộc tính va nhau — ma trận chẩn đoán

Hầu hết lỗi thật của AI không phải một thuộc tính giở chứng, mà là HAI cái va vào nhau cùng lúc. Gọi tên được cặp đó → biết ngay với tay lấy cách vá nào. Đây là Discernment ở mức cao nhất: thẩm định tốt hơn khi biết mình đang nhìn loại sai nào.

Ma trận va chạm — đọc giao điểm hàng × cột (đối xứng, chỉ điền nửa trên):

	NTP	Knowledge	Working Memory	Steerability
NTP	—	Hallucinated citations ①	(khoá không nêu)	Confidently wrong reasoning ②
Knowledge		—	Stale context vs trained knowledge ④	Agreeable bad premises ③
Working Memory			—	Long-conversation drift ⑤
Steerability				—

Chi tiết từng cặp — lỗi & cách vá:

① Next Token Prediction + Knowledge — Hallucinated citations

Lỗi: model dệt ra văn bản hình dạng trích dẫn — tựa đề nghe hợp lý, tạp chí nghe có thật — nhưng bên dưới là lỗ hổng kiến thức. Nó không phân biệt được cái nó biết với cái nó bịa.
Vá: verify từng chi tiết độc lập, hoặc dùng source grounding (RAG/web search) để model lấy tài liệu thật.

② Next Token Prediction + Steerability — Confidently wrong reasoning

Lỗi: NTP dệt chuỗi lập luận trơn tru, nghe chắc; Steerability ngoan ngoãn theo prompt phức tạp từng bước. Nhưng lỗi nhỏ dồn tích — mà giọng tự tin không hề lung lay.
Vá: bật visible reasoning để bắt drift sớm, hoặc đẩy bước cần chính xác cho code execution.

③ Knowledge + Steerability — Agreeable bad premises

Lỗi: bạn nêu một điều sai trong prompt. Knowledge có thể "biết" đúng hơn, nhưng Steerability mặc định theo khung của bạn — nhất là khi bạn nói nghe chắc.
Vá: chủ động mời phản biện: "nói thẳng nếu giả định của tôi sai".

④ Knowledge + Working Memory — Stale context vs trained knowledge

Lỗi: Working Memory đưa vào một tài liệu mâu thuẫn với cái Knowledge học lúc training. Model có thể trộn cả hai — ra câu trả lời không trung thành với nguồn của bạn, cũng chẳng trung thành với training.
Vá: nói rõ nguồn nào ưu tiên: "chỉ dùng tài liệu đính kèm" hoặc "dùng kiến thức của bạn".

⑤ Working Memory + Steerability — Long-conversation drift

Lỗi: ràng buộc ban đầu mờ dần khi hội thoại dài ra. Steerability theo lệnh nổi bật nhất lúc này — nên message sau lặng lẽ ghi đè message trước.
Vá: nạp lại context then chốt, hoặc mở phiên mới với phần cốt lõi đặt lên đầu.

11. Tổng hợp — "một mô hình nhỏ về cỗ máy"

Dùng AI thành thạo không phải thuộc lòng mọi failure mode, mà là giữ trong đầu một mô hình nhỏ, rõ về cỗ máy — để khi có chuyện, bạn nhận ra nó sai kiểu gì rồi phản ứng đúng.

Bốn thuộc tính = bốn continuum (mục 4); failure đặc trưng = giao điểm của các thuộc tính (mục 10). Càng lệch phải càng phải verify & bù.
Hai nửa của một hệ thống: khung này (machine properties) giải thích cái mà các năng lực 4D (human competencies) đang phản hồi lại (mục 1).
Calibrated trust: định vị task trên từng continuum → khớp thói quen verify & nạp context với chỗ nó nằm. Không tin/nghi trọn gói.
Bền qua đổi version: model mạnh lên thì boundaries dịch — nhưng hình dạng bốn thuộc tính vẫn dùng được (mục 5).
Bước kế: nếu chưa học, khoá AI Fluency Framework & Foundations là bước tự nhiên tiếp theo — đào sâu human competencies mà khoá này cấp machine-side context. Và cứ tiếp tục test rìa: thuộc tính ổn định, nhưng đường ranh sẽ còn dịch khi model tiến.

Bài tập & tự vấn

Các bài tập này lấy từ khoá; viết lại ngắn gọn để dễ tự chạy.

Lesson mở đầu — Mapping Your Current AI Use

Liệt kê 4–6 việc thật đã dùng AI trong hai tuần qua (càng cụ thể càng tốt, ví dụ "soạn email báo trễ tiến độ cho khách" thay vì "viết lách"). Với mỗi việc, ghi một dòng: lần đầu đã dùng được luôn, hay phải sửa lại?
Đưa list cho AI và hỏi "mỗi việc này có thể hỏng ở đâu nếu mình lơ là?", rồi đối chiếu với trải nghiệm thật; chỗ không khớp thì phản biện lại.
Tự vấn: việc nào thấy an toàn khi giao AI, việc nào rủi ro, vì sao? Hành vi nào của AI từng thấy mà chưa giải thích được lúc đó?

Lesson "What we mean by generative AI" — Generative or Not?

Kể 5 tính năng AI đã chạm trong tuần (autocomplete, tag ảnh, lọc spam, chatbot, dịch, gợi ý sản phẩm, trợ lý giọng nói…). Với mỗi cái, tự phán: đẻ ra nội dung mới (generative) hay sắp xếp/xếp hạng/gán nhãn cái có sẵn (classification)?
Đưa list cho AI nhờ chấm. Cái nào sai hoặc chưa chắc thì nhờ giải thích sự khác biệt trong một câu. Rồi hỏi: "cái nào dễ có failure mode mà khoá này sẽ giúp hiểu nhất?"
Quay lại task list ở lesson trước, gắn nhãn mỗi task bằng câu hỏi thuộc tính hợp nhất lúc này: từ đâu ra? (Next Token Prediction) · biết gì? (Knowledge) · chú ý cái gì? (Working Memory) · kiểm soát tới đâu? (Steerability). Đây là dự đoán để test qua bốn lesson sau, không cần đúng ngay.

Lesson "How AI gets its character" — Fingerprints on Your Own Work

Chọn một task từng chạy qua AI và đã biết rõ output tốt trông ra sao. Chạy ba lần có biến tấu để bắt fingerprint:
- Run 1 — Straight: prompt bình thường, lưu output làm chuẩn.
- Run 2 — Sycophancy test: mở đầu bằng một giả định sai ("tôi thấy chiến lược này bất khả chiến bại") và xem nó gật theo hay phản biện. Rồi thử lại với lời mời thẳng "cứ phản đối thật lòng nếu thấy sai", so hai phản hồi.
- Run 3 — Verbosity test: hỏi một câu chỉ cần một câu trả lời, đo độ dài. Hỏi lại kèm "trả lời trong một câu"; khoảng chênh chính là verbosity default.
- (Tuỳ chọn) Caution test: hỏi thứ ở vùng xám hợp lệ, xem mức rào trước có tương xứng rủi ro thật hay chỉ là phản xạ.
Tự vấn: fingerprint nào lộ rõ nhất? Gọi tên nó trước có làm mình đọc hành vi AI khác đi không? Sycophancy đắt nhất ở đâu (chỗ cần góp ý thật)? Verbosity đắt nhất ở đâu (chỗ cần gọn, gấp)?

Lesson "Next Token Prediction" — The Verification Test

Chọn task ở lĩnh vực mình là chuyên gia (để bắt được lỗi). Viết sẵn 5 fact cụ thể, kiểm chứng được mà mình biết chắc đúng (chức danh, ngày phát hành, số liệu, spec, URL, câu quote).
Probe 1 — Capability zone: nhờ AI giải thích hoặc tóm tắt một khái niệm phổ biến trong nghề, cảm nhận độ trôi chảy, spot-check. Đây là "vị" của vùng capability: mượt, tự tin, phần lớn đúng.
Probe 2 — Specificity under pressure: bắt nó đưa 5 chi tiết kiểm được (3 nguồn, 1 tác giả, số chính xác, 1 URL). Verify từng cái, chấm trên 5. Nếu bịa thì ghi lại nó tự tin cỡ nào khi bịa.
Probe 3 — Sampling in action: chạy y hệt Probe 2 ở một hội thoại mới, so hai output. Cái nào giữ nguyên, cái nào đổi? Phần đổi chính là sampling của Next Token Prediction.
Stretch: chạy lại Probe 2 trong công cụ bật citations (Research mode), chấm lại. Có nguồn để kiểm có làm đổi điểm không?

Lesson "Knowledge" — The Outsider Test

Lấy một task; với nó, viết: 2 chủ đề mainstream/ổn định, 2 chủ đề ngách/địa phương/mới, và 1 "giả định mặc định" mà người ngoài ngành hay hiểu sai.
Probe 1 — Coverage: hỏi 1 mainstream + 1 ngách, so độ sâu/chính xác; để ý nó có báo độ không chắc khác nhau không, hay cùng một giọng tự tin.
Probe 2 — Staleness: hỏi thứ mới đổi gần đây trong nghề; nó thừa nhận cutoff, hay trình bày thông tin cũ như hiện tại?
Probe 3 — Default assumption: hỏi gián tiếp (không nói thẳng giả định) để lộ xem nó có mặc định theo "góc người ngoài" không.
Quay lại task list, gắn nhãn: việc nào dựa được kiến thức model, việc nào phải tự mang context/tài liệu/search.

Lesson "Working Memory" — The Before-and-After

Chọn task hưởng lợi từ context chỉ mình có (style guide, mẫu tốt, ràng buộc). Viết 2–3 dòng định nghĩa "good" rõ tới mức người lạ cũng chấm được.
Probe 1 — Cold vs context: chạy task không context, lưu lại; rồi phiên mới chạy lại có nạp style guide/mẫu lên đầu. So với định nghĩa "good", đo khoảng cách.
Probe 2 — Lost in the middle: chôn một chỉ dẫn quan trọng giữa một tài liệu dài, hỏi câu phụ thuộc vào nó — bắt được không? Rồi dời chỉ dẫn lên đầu, hỏi lại, so.
Probe 3 — Blank slate: dạy nó một điều về công việc, rồi mở chat mới hỏi câu giả định nó nhớ — xem nó bắt đầu từ 0.
Gắn nhãn: task nào cần standing context (project/instructions/tài liệu), task nào chạy "cold" vẫn ổn.

Lesson "Steerability" — The Goal Rewrite

Chọn task nhiều bước hoặc có format cụ thể. Viết goal một câu (điều thật sự muốn đạt, không phải hình thức output).
Probe 1 — Tight control: ra lệnh ngắn, verify được ("bảng 3 cột", "đúng 5 gạch đầu dòng"); kiểm có giữ chính xác — vùng capability.
Probe 2 — Reasoning drift: yêu cầu bản cần 4–5 bước phụ thuộc; soi từng bước xem lỗi sớm có lan tới cuối. Rồi bảo nó dừng cho xem kết quả bước 2 trước khi đi tiếp, so hai cách.
Probe 3 — Letter vs spirit: ra lệnh có thể làm đúng-chữ-mà-vô-dụng ("ngắn lại" khi vấn đề thật là cấu trúc). Rồi prompt lại kèm goal rõ ràng, so.
Gắn nhãn: task nhiều bước cần checkpoint ở đâu; task nào đang prompt mỗi format thì soạn sẵn câu goal để thêm.

Lesson "Putting it all together" — The Failure Diagnosis

Nhớ lại 2–3 lần output AI từng làm bạn thất vọng/bất ngờ. Mỗi lần ghi 1–2 câu: hỏi gì, nhận gì, chỗ nào hụt.
Kể lại với AI và hỏi: "dựa trên bốn thuộc tính, cặp nào đang va ở đây, vì sao?" — rồi tự đánh giá chẩn đoán đó; thấy sai thì phản biện (coi chừng sycophancy — nó dễ gật theo khung của bạn).
Với mỗi chẩn đoán, hỏi "cách vá nhắm trúng nhất là gì?" và thử ngay trên một task tương tự.
Quay lại task list (đủ annotation từ các lesson) — task nào khó nhất, ghi cặp thuộc tính nào đang va bên cạnh.

Lesson "Next steps" — Your Commitment

Lần cuối quay lại task list: mỗi task đọc nhanh — rơi đâu trên từng continuum, cần mitigation gì?
Chọn một task + một thay đổi làm trong tuần này (một bước verify, một standing-context, một checkpoint, hoặc thói quen nêu goal chứ không chỉ format). Viết ra.

Giữ lại list này — các lesson sau sẽ quay lại và nhìn nó khác đi mỗi lần.

Từ khoá cốt lõi

Thuật ngữ giữ nguyên tiếng Anh — đây là cách chúng xuất hiện trong tài liệu gốc và trong đề thi chứng chỉ. Phân theo ba mức ưu tiên.

🔴 Core — thuật ngữ signature, cần hiểu sâu:

Generative AI vs classification / prediction AI — đẻ nội dung mới vs gán nhãn cái có sẵn
Next Token Prediction · Knowledge · Working Memory · Steerability — bốn thuộc tính lõi
Continuum (capability ↔ limitation) — cùng một cơ chế cho cả hai mặt
Calibrated trust — định vị task trên continuum, không tin/nghi trọn gói
Pretraining vs Fine-tuning — document completer vs assistant
Sycophancy · Verbosity · Over-caution · Loose confidence calibration — bốn fingerprints của fine-tuning
Autocomplete (at scale) vs search engine — AI sinh chữ, không tra cứu
Specificity (tên · ngày · số liệu · citation · URL · quote) — nơi fabrication tụ lại; càng cụ thể càng phải verify

🟡 Important — nên nắm rõ:

Document completer · Helpful · Honest · Harmless (mục tiêu fine-tuning) · Human preferences · RLHF
Transformer-based text models · one token at a time
Knowledge cutoff · the cliff (mất ngữ cảnh khi quá dài hoặc xuyên phiên) · context window
Hallucination · "sounds true" vs "is true"
Bốn failure modes của Next Token Prediction: Hallucination · Confabulation · Inconsistency · Misplaced confidence — phân biệt Hallucination (nói sai) vs Confabulation (lấp chỗ trống thay vì thú nhận không biết)
Sampling — cùng câu hỏi, phiên mới ra kết quả khác (dấu hiệu bịa); là bước chọn token theo phân phối, giống nhau ở Markov chain lẫn LLM
Mitigations (Next Token Prediction): Citations · Uncertainty signaling · Constrained generation · Generator–verifier pattern
Failure modes — Knowledge: Knowledge cutoff · Staleness · Uneven coverage · Inherited bias · Source amnesia
Failure modes — Working Memory: Silent truncation · Lost in the middle · No persistent memory · No learning from corrections — cliff ≠ gradient
Failure modes — Steerability: Reasoning drift · Letter over spirit · Prompt injection · Brittle arithmetic
Mitigations (theo thuộc tính): Web search · RAG/MCP · Tool use (Knowledge) · Memory · Compaction · Projects · Larger windows (Working Memory) · System prompts · Code execution · Visible reasoning · Structured output · Checkpoint (Steerability)
Bản đồ 4D ↔ thuộc tính: Next Token Prediction → Discernment · Knowledge → Delegation · Working Memory → Description · Steerability → Description
Diagnostic pairs (lỗi = 2 thuộc tính va nhau): Hallucinated citations (NTP+Knowledge) · Confidently wrong reasoning (NTP+Steerability) · Agreeable bad premises (Knowledge+Steerability) · Stale context vs trained knowledge (Knowledge+Working Memory) · Long-conversation drift (Working Memory+Steerability)
Small model of the machine · two halves of one system — machine properties ↔ 4D competencies (calibrated trust)
Probability distribution · sampling strategies (greedy / top-N / threshold / temperature) — "knobs" dev truyền cho Claude
Boundaries dịch, thuộc tính giữ nguyên (lý do framework bền) · lasting framework

🟢 Good-to-know — biết để khỏi bỡ ngỡ:

Ví dụ classification: spam filter, recommendation, fraud detection
Ví dụ Steerability: "respond as a table", "under 100 words"
Markov chain · frequency table · transition matrix · n-gram models · forward pass (Markov 1906 → n-gram ~2010 → transformers 2017); LLM là learned function thay cho table lookup
Embeddings · vector · cosine similarity · similarity search · context engineering · serial position effect (primacy/recency) — cơ chế RAG & lý do lost in the middle (Stanford 2023, tụt >30%)
Tên các bài tập: Generative or Not?, Fingerprints on Your Own Work, The Verification Test, Text Your Friend Markov, The Outsider Test, The Before-and-After, The Goal Rewrite, The Failure Diagnosis, Your Commitment

Áp dụng thực tế: chính những giới hạn ở đây (đặc biệt ảo giác — hệ quả của loose calibration) là lý do tôi dựng khung review 3 lớp khi đưa RAG vào doanh nghiệp. Xem cách làm trong RAG zero-hallucination cho doanh nghiệp.

Nguồn: AI Capabilities & Limitations (Anthropic Academy) — CC BY-NC-SA 4.0. Phần đề thi thử cho khoá này nằm ở tab "Đề thi thử".

#Course roadmap (mô hình tư duy về "cỗ máy")

#1. Hai mặt của một hệ thống: 4D ↔ thuộc tính máy

#2. Generative AI là gì (và không là gì)

#3. AI có "tính cách" từ đâu — Pretraining & Fine-tuning

#Bốn "dấu vân tay" của fine-tuning

#4. Bốn thuộc tính lõi — mỗi cái là một continuum

#Đào sâu cơ chế

#5. Vì sao kiến thức này "bền vững"

#6. Đào sâu thuộc tính #1 — Next Token Prediction

#Autocomplete ≠ Search engine

#Fabrication tụ ở đâu: Specificity (độ cụ thể)

#Sampling — vì sao hỏi hai lần ra hai kết quả

#Bốn kiểu "fail" đặc trưng của Next Token Prediction

#Mitigations — tính năng sinh ra để đẩy lùi giới hạn này

#Nối với 4D: Next Token Prediction là nền của Discernment

#Nhìn tận mắt cơ chế — trò "Text Your Friend Markov"

#7. Đào sâu thuộc tính #2 — Knowledge

#Mặt mạnh (capability)

#Năm kiểu "fail" đặc trưng của Knowledge

#Mitigations — đẩy ranh giới ra xa

#Cơ chế đằng sau RAG — Embeddings: "nghĩa là một vị trí"

#Nối với 4D: Knowledge là nền của Delegation

#8. Đào sâu thuộc tính #3 — Working Memory

#Mặt mạnh (capability)

#Bốn kiểu "fail" đặc trưng của Working Memory

#Cliff, không phải gradient

#Context degradation — vì sao "cho thêm context" không phải lúc nào cũng đúng

#Mitigations — đẩy cliff ra xa

#Nối với 4D: Working Memory là cái mà Description tác động lên

#9. Đào sâu thuộc tính #4 — Steerability

#Vùng kiểm soát chặt vs lỏng

#Ba (+1) kiểu "fail" đặc trưng của Steerability

#Insight cốt lõi: prompt từ ý định, không chỉ từ chỉ dẫn

#Mitigations — giữ ý đừng bị loãng

#Nối với 4D: Steerability vừa làm mạnh vừa giới hạn Description

#10. Khi thuộc tính va nhau — ma trận chẩn đoán

#11. Tổng hợp — "một mô hình nhỏ về cỗ máy"

#Bài tập & tự vấn

#Từ khoá cốt lõi

Câu hỏi thường gặp

Về tác giả

Đề thi thử (42 câu)

Course roadmap (mô hình tư duy về "cỗ máy")

1. Hai mặt của một hệ thống: 4D ↔ thuộc tính máy

2. Generative AI là gì (và không là gì)

3. AI có "tính cách" từ đâu — Pretraining & Fine-tuning

Bốn "dấu vân tay" của fine-tuning

4. Bốn thuộc tính lõi — mỗi cái là một continuum

Đào sâu cơ chế

5. Vì sao kiến thức này "bền vững"

6. Đào sâu thuộc tính #1 — Next Token Prediction

Autocomplete ≠ Search engine

Fabrication tụ ở đâu: Specificity (độ cụ thể)

Sampling — vì sao hỏi hai lần ra hai kết quả

Bốn kiểu "fail" đặc trưng của Next Token Prediction

Mitigations — tính năng sinh ra để đẩy lùi giới hạn này

Nối với 4D: Next Token Prediction là nền của Discernment

Nhìn tận mắt cơ chế — trò "Text Your Friend Markov"

7. Đào sâu thuộc tính #2 — Knowledge

Mặt mạnh (capability)

Năm kiểu "fail" đặc trưng của Knowledge

Mitigations — đẩy ranh giới ra xa

Cơ chế đằng sau RAG — Embeddings: "nghĩa là một vị trí"

Nối với 4D: Knowledge là nền của Delegation

8. Đào sâu thuộc tính #3 — Working Memory

Mặt mạnh (capability)

Bốn kiểu "fail" đặc trưng của Working Memory

Cliff, không phải gradient

Context degradation — vì sao "cho thêm context" không phải lúc nào cũng đúng

Mitigations — đẩy cliff ra xa

Nối với 4D: Working Memory là cái mà Description tác động lên

9. Đào sâu thuộc tính #4 — Steerability

Vùng kiểm soát chặt vs lỏng

Ba (+1) kiểu "fail" đặc trưng của Steerability

Insight cốt lõi: prompt từ ý định, không chỉ từ chỉ dẫn

Mitigations — giữ ý đừng bị loãng

Nối với 4D: Steerability vừa làm mạnh vừa giới hạn Description

10. Khi thuộc tính va nhau — ma trận chẩn đoán

11. Tổng hợp — "một mô hình nhỏ về cỗ máy"

Bài tập & tự vấn

Từ khoá cốt lõi