Kỹ thuật Promting trong khi sử dụng Chat AI
10/02/2026 09:48
8
Kỹ thuật Promting trong khi sử dụng Chat AI
Tóm tắt (Abstract)
Các hệ thống Trí tuệ Nhân tạo Tạo sinh (GenAI) đang ngày càng được triển khai rộng rãi trên
nhiều ngành công nghiệp và lĩnh vực nghiên cứu đa dạng. Các nhà phát triển và người dùng cuối
tương tác với các hệ thống này thông qua việc sử dụng prompting (tạo câu lệnh nhắc) và prompt
engineering (kỹ thuật tinh chỉnh câu lệnh). Mặc dù prompt engineering là một lĩnh vực được áp
dụng rộng rãi và nghiên cứu sâu rộng, nhưng nó đang gặp phải tình trạng mâu thuẫn về thuật ngữ
và sự hiểu biết rời rạc về mặt bản chất đối với những gì tạo nên một prompt hiệu quả, do lĩnh vực
này mới xuất hiện gần đây. Là kết quả của những nỗ lực này, bài báo này trình bày cuộc khảo sát
toàn diện nhất về prompt engineering tính đến thời điểm hiện tại
VnCOLD trân trọng trích giới thiệu bài báo "The Prompt Report: A Systematic Survey of Prompt
Engineering Techniques" để phục vụ độc giả.
1. Định nghĩa và Thuật ngữ
1.1 Prompt là gì?
Một prompt là một đầu vào cho một mô hình AI Tạo sinh, được sử dụng để định hướng đầu ra của
nó (Meskó, 2023; White et al., 2023; Heston và Khun, 2023; Hadi et al., 2023; Brown et al., 2020).
Các prompt có thể bao gồm văn bản, hình ảnh, âm thanh hoặc các phương tiện khác. Một số ví dụ
về prompt bao gồm văn bản: "viết một email ba đoạn cho một chiến dịch tiếp thị của một công ty
kế toán", một bức ảnh chụp một tờ giấy với dòng chữ "10*17 bằng bao nhiêu" được viết trên đó,
hoặc một bản ghi âm cuộc họp trực tuyến với hướng dẫn "hãy tóm tắt nội dung này". Các prompt
thường có một thành phần văn bản, nhưng điều này có thể thay đổi khi các phương thức phi văn
bản trở nên phổ biến hơn.
Mẫu Prompt (Prompt Template): Các prompt thường được xây dựng thông qua một mẫu prompt
(Shin et al., 2020b). Một mẫu prompt là một hàm chứa một hoặc nhiều biến sẽ được thay thế bằng
một phương tiện nào đó (thường là văn bản) để tạo ra một prompt. Prompt này sau đó có thể được
coi là một bản thể hiện (instance) của mẫu.
1.2 Thuật ngữ
1.2.1 Các thành phần của một Prompt
Có nhiều thành phần phổ biến được bao gồm trong một prompt. Chúng tôi tóm tắt các thành phần
được sử dụng phổ biến nhất và thảo luận về cách chúng phù hợp với các prompt.
Chỉ thị (Directive): Nhiều prompt đưa ra một chỉ thị dưới dạng một hướng dẫn hoặc câu hỏi. Đây
là ý định cốt lõi của prompt, đôi khi được gọi đơn giản là "ý định" (intent).
1.2.2 Các thuật ngữ Prompting (Prompting Terms)
Thuật ngữ trong các tài liệu về prompting đang phát triển nhanh chóng. Hiện tại, có nhiều định
nghĩa chưa được hiểu rõ (ví dụ: prompt, prompt engineering) và các định nghĩa mâu thuẫn nhau
(ví dụ: role prompt so với persona prompt). Việc thiếu một bộ từ vựng nhất quán gây cản trở khả
năng của cộng đồng trong việc mô tả rõ ràng các kỹ thuật prompting đang được sử dụng. Chúng
tôi cung cấp một bộ từ vựng vững chắc gồm các thuật ngữ được sử dụng trong cộng đồng
prompting.
Các thuật ngữ chính bao gồm:+ Prompting: Hành động cung cấp đầu vào (input) cho một mô hình Generative AI (GenAI).
+ Prompt Chain (Chuỗi Prompt): Một chuỗi các prompt trong đó đầu ra của prompt này trở
thành đầu vào cho prompt tiếp theo.
+ Prompting Technique (Kỹ thuật Prompting): Một khuôn mẫu (blueprint) hoặc phương
pháp cụ thể để cấu trúc prompt nhằm đạt được kết quả mong muốn.
+ Prompt Engineering (Kỹ thuật Prompt): Quy trình lặp đi lặp lại của việc thiết kế, tinh chỉnh
và tối ưu hóa các prompt để cải thiện hiệu suất của mô hình cho các tác vụ cụ thể.
+ Exemplar (Mẫu ví dụ): Một ví dụ cụ thể về cặp đầu vào-đầu ra được đưa vào trong prompt
để hướng dẫn mô hình (thường dùng trong Few-shot prompting).
2. Kỹ thuật Prompt
2.1 Các kỹ thuật dựa trên văn bản (Text-Based Techniques)
Đây là phần trọng tâm của báo cáo, giới thiệu hệ thống phân loại (taxonomy) các kỹ thuật
prompting cho các mô hình ngôn ngữ lớn (LLM).
2.1.1 Học theo ngữ cảnh (In-Context Learning - ICL)
In-Context Learning là khả năng của mô hình học cách thực hiện một tác vụ chỉ dựa trên các hướng
dẫn hoặc ví dụ được cung cấp trong prompt (tức là trong "ngữ cảnh" hiện tại) mà không cần cập
nhật bất kỳ trọng số nào của mô hình.
Few-Shot Prompting (Prompt với vài ví dụ): Đây là hình thức phổ biến nhất của ICL. Người dùng
cung cấp một số lượng nhỏ ($k$) các ví dụ mẫu (cặp input-output) trong prompt.
Ví dụ: Để dịch từ Anh sang Việt, prompt sẽ chứa 3 cặp câu tiếng Anh và bản dịch tiếng Việt tương
ứng, sau đó là câu tiếng Anh mới cần dịch.
Vai trò của Exemplars: Các nghiên cứu chỉ ra rằng việc lựa chọn, sắp xếp và định dạng các ví dụ
(exemplars) có ảnh hưởng rất lớn đến hiệu suất của mô hình.
2.1.2 Zero-Shot (Không ví dụ)
Ngược lại với Few-Shot, kỹ thuật này không cung cấp ví dụ nào. Mô hình phải dựa hoàn toàn vào
sự hiểu biết từ dữ liệu huấn luyện trước đó và hướng dẫn trong prompt để thực hiện nhiệm vụ.
Role Prompting / Persona Prompting: Yêu cầu mô hình đóng một vai cụ thể (ví dụ: "Bạn là một
chuyên gia lịch sử..."). Điều này giúp định hình phong cách, giọng điệu và đôi khi cả độ chính xác
của câu trả lời.
2.1.3 Tạo suy nghĩ (Thought Generation)
Nhóm kỹ thuật này yêu cầu mô hình diễn giải quá trình suy luận của mình trước khi đưa ra câu trả
lời cuối cùng.
+ Chain-of-Thought (CoT) Prompting (Chuỗi suy nghĩ):
+ Kỹ thuật này khuyến khích mô hình tạo ra một chuỗi các bước suy luận trung gian.
+ Few-Shot CoT: Cung cấp các ví dụ giải toán có kèm lời giải chi tiết từng bước.+ Zero-Shot CoT: Chỉ đơn giản thêm cụm từ "Let's think step by step" (Hãy suy nghĩ từng
bước một) vào cuối prompt. Nghiên cứu của Kojima et al. (2022) cho thấy chỉ với câu thần
chú đơn giản này, khả năng giải toán và logic của mô hình tăng vọt.
Các yếu tố ảnh hưởng đến In-Context Learning (ICL)
Hiệu quả của việc học theo ngữ cảnh phụ thuộc rất nhiều vào các mẫu ví dụ (exemplars) được đưa
vào prompt. Các nghiên cứu tập trung vào các khía cạnh sau:
+ Số lượng mẫu (Exemplar Quantity): Nhìn chung, cung cấp nhiều ví dụ hơn sẽ giúp cải
thiện hiệu suất của mô hình, nhưng sẽ đến một điểm bão hòa mà tại đó việc thêm ví dụ
không còn mang lại lợi ích đáng kể.
+ Thứ tự mẫu (Exemplar Ordering): Thứ tự sắp xếp các ví dụ rất quan trọng. Các mô hình
thường mắc lỗi "thiên kiến gần đây" (recency bias), tức là chúng có xu hướng lặp lại câu
trả lời hoặc định dạng của ví dụ cuối cùng.
+ Phân bố mẫu (Exemplar Distribution): Việc chọn các ví dụ có sự phân bố cân bằng (ví dụ:
số lượng ví dụ tích cực và tiêu cực bằng nhau trong bài toán phân loại) giúp tránh việc mô
hình bị thiên lệch về một lớp kết quả cụ thể.
+ Định dạng mẫu (Exemplar Formatting): Cách trình bày ví dụ (ví dụ: dùng dấu gạch ngang,
số thứ tự, hay từ khóa Q:/A:) cũng ảnh hưởng đến khả năng hiểu của mô hình.
2.1.4 Phân rã (Decomposition)
Kỹ thuật này giải quyết các vấn đề phức tạp bằng cách chia nhỏ chúng thành các phần nhỏ hơn,
đơn giản hơn để xử lý từng phần một.
Least-to-Most Prompting (Từ ít đến nhiều):
+ Đầu tiên, nhắc mô hình phân rã vấn đề chính thành một danh sách các bài toán con.
+ Sau đó, yêu cầu mô hình giải quyết bài toán con đơn giản nhất.
Kết quả của bài toán con trước đó được dùng làm đầu vào để giải quyết bài toán tiếp theo, cứ thế
cho đến khi giải quyết được vấn đề chính.
Decomposed Prompting (Prompt phân rã): Tách một câu hỏi phức tạp (ví dụ: "Vợ của tác giả cuốn
sách X là ai?") thành các câu hỏi đơn (ví dụ: "Ai là tác giả cuốn sách X?", sau đó "Vợ của ông ấy
là ai?").
Skeleton-of-Thought (Bộ khung suy nghĩ): Yêu cầu mô hình lập ra một dàn ý (bộ khung) cho câu
trả lời trước, sau đó mới viết chi tiết từng phần. Điều này giúp câu trả lời có cấu trúc tốt hơn và có
thể tạo sinh song song để tăng tốc độ.
2.1.5 Kết hợp / Tập hợp (Ensembling)
Sử dụng nhiều prompt hoặc nhiều lần chạy mô hình để tổng hợp ra kết quả tốt nhất, giúp giảm
thiểu sai sót do tính ngẫu nhiên của mô hình.
Self-Consistency (Tự nhất quán):
Kỹ thuật này dựa trên ý tưởng rằng "nhiều cái đầu thì tốt hơn một".
Thay vì chỉ hỏi mô hình một lần (Greedy Decoding), ta hỏi mô hình cùng một câu hỏi nhiều lần
(với nhiệt độ > 0 để tạo sự đa dạng).Sau đó, chọn câu trả lời xuất hiện nhiều nhất (Majority Vote) làm kết quả cuối cùng. Kỹ thuật này
rất hiệu quả khi kết hợp với Chain-of-Thought.
DiVeRSe: Tạo ra nhiều prompt khác nhau cho cùng một vấn đề để thu được các luồng suy luận
đa dạng hơn, sau đó sử dụng cơ chế bỏ phiếu để chọn đáp án đúng.
2.1.6 Tự phê bình (Self-Criticism)
Yêu cầu mô hình tự xem xét lại (review), phê bình và chỉnh sửa đầu ra của chính mình để đạt chất
lượng tốt hơn.
Self-Refine (Tự tinh chỉnh):
Tạo (Generate): Mô hình tạo ra bản nháp đầu tiên.
Phê bình (Feedback): Mô hình (hoặc một mô hình khác) đóng vai trò "người phê bình", đưa ra
nhận xét về các lỗi hoặc điểm cần cải thiện của bản nháp.
2.1.7 Tinh chỉnh (Refine): Dựa trên nhận xét, mô hình viết lại bản nháp để tốt hơn. Quá trình này
có thể lặp lại nhiều lần.
2.1.8 Reflexion: Một khung làm việc (framework) cho phép các tác nhân (agents) học hỏi từ các
sai lầm trong quá khứ thông qua việc tự phản ánh (reflection) bằng ngôn ngữ, giúp cải thiện hiệu
suất trong các tác vụ tương lai.
2.1.9 Chain-of-Verification (CoVe): Mô hình tự đặt ra các câu hỏi kiểm chứng (verification
questions) cho câu trả lời của mình, trả lời các câu hỏi đó để kiểm tra tính xác thực, và sau đó điều
chỉnh lại câu trả lời cuối cùng nếu phát hiện sai sót.
2.2 Mức độ sử dụng kỹ thuật Prompting (Prompting Technique Usage)
Phần này phân tích tần suất sử dụng của các kỹ thuật. Các nghiên cứu cho thấy Few-Shot
Prompting (Prompt với ví dụ) và Chain-of-Thought (Chuỗi suy nghĩ) là hai kỹ thuật được sử dụng
phổ biến nhất và mang lại hiệu quả cao nhất trên nhiều bài kiểm chuẩn.
2.2.1 Kỹ thuật Prompt (Prompt Engineering)
Tác giả định nghĩa rõ ràng sự khác biệt giữa "Prompting" (hành động ra lệnh) và "Prompt
Engineering" (kỹ thuật tinh chỉnh).
Định nghĩa: Prompt Engineering là một quy trình lặp đi lặp lại (iterative process) bao gồm việc
thiết kế, tinh chỉnh và tối ưu hóa các prompt để cải thiện hiệu suất của mô hình cho một tác vụ cụ
thể.
Quy trình kỹ thuật (Engineering Process):
+ Thiết kế (Design): Tạo ra prompt ban đầu dựa trên mục tiêu.
+ Kiểm thử (Test): Chạy prompt trên một tập dữ liệu nhỏ.
+ Đánh giá (Evaluate): Xem xét kết quả (đúng/sai, chất lượng).
+ Tinh chỉnh (Refine): Sửa đổi prompt (thêm ví dụ, thay đổi từ ngữ, thêm ràng buộc) dựa
trên kết quả đánh giá.+ Lặp lại: Quá trình này tiếp diễn cho đến khi đạt được kết quả mong muốn.
Tài liệu nhấn mạnh rằng Prompt Engineering không chỉ là "viết một câu hỏi hay", mà là một quy
trình kỹ thuật có hệ thống.
2.2.2 Kỹ thuật Trả lời (Answer Engineering)
Đây là một khái niệm mới và quan trọng. Thay vì chỉ tập trung vào đầu vào (prompt), kỹ thuật này
tập trung vào việc kiểm soát và xử lý đầu ra (output) của mô hình. Nó bao gồm 3 thành phần chính:
a) Hình dạng câu trả lời (Answer Shape)
Quy định định dạng của đầu ra.
Ví dụ: Yêu cầu mô hình trả về kết quả dưới dạng JSON, XML, CSV, hoặc chỉ Code (không kèm
lời giải thích). Điều này rất quan trọng khi tích hợp LLM vào các hệ thống phần mềm.
b) Không gian câu trả lời (Answer Space)
Giới hạn các lựa chọn mà mô hình có thể đưa ra.
Ví dụ: Trong bài toán phân loại cảm xúc, ta giới hạn "không gian" câu trả lời chỉ được là một trong
ba từ: ["Tích cực", "Tiêu cực", "Trung tính"]. Nếu mô hình trả lời khác (ví dụ: "Tôi nghĩ là tốt"),
nó sẽ bị coi là sai hoặc không hợp lệ.
2.2.3 Bộ trích xuất câu trả lời (Answer Extractor)
Phần mềm hoặc logic dùng để lấy phần thông tin quan trọng từ câu trả lời dài dòng của mô hình.
Ví dụ: Nếu mô hình giải một bài toán dài và kết luận "Vậy đáp án là 42", bộ trích xuất sẽ dùng
biểu thức chính quy (Regex) để lấy số "42" ra làm kết quả cuối cùng.
2.3. Ngoài Prompt văn bản tiếng Anh (Beyond English Text Prompting)
2.3.1 Đa ngôn ngữ (Multilingual)
Vấn đề: Hầu hết các mô hình LLM được huấn luyện chủ yếu trên dữ liệu tiếng Anh, nên hiệu suất
thường giảm khi prompt bằng các ngôn ngữ ít phổ biến hơn.
2.3.1.1 Chain-of-Thought (CoT) đa ngôn ngữ: Nghiên cứu cho thấy việc thực hiện suy luận (CoT)
bằng tiếng Anh rồi dịch kết quả sang ngôn ngữ đích thường tốt hơn là suy luận trực tiếp bằng ngôn
ngữ đích (đối với các ngôn ngữ ít tài nguyên).
2.3.1.2 Học theo ngữ cảnh (In-Context Learning): Việc cung cấp các ví dụ (exemplars) bằng cùng
ngôn ngữ với câu hỏi là rất quan trọng để mô hình hiểu được ngữ cảnh văn hóa và ngôn ngữ.
2.3.1.4 Prompting cho Dịch máy (Prompting for Machine Translation)
Phần này thảo luận về việc sử dụng các mô hình ngôn ngữ lớn (LLM) để thực hiện nhiệm vụ dịch
thuật.
Vấn đề: Các phương pháp dịch máy truyền thống (như Google Translate cũ) chuyên biệt cho dịch
thuật, trong khi LLM là mô hình tổng quát.Kỹ thuật: Để đạt hiệu quả cao nhất khi dùng LLM dịch thuật, người dùng nên sử dụng Few-Shot
Prompting (cung cấp các cặp câu ví dụ nguồn-đích chất lượng cao).
Dictionary-based Prompting (Prompt dựa trên từ điển): Cung cấp một danh sách các thuật ngữ
chuyên ngành hoặc từ khó kèm theo bản dịch của chúng ngay trong prompt để hướng dẫn mô hình
dịch chính xác các từ đó trong ngữ cảnh.
2.3.2 Đa phương thức (Multimodal)
Đây là chương nói về các prompt không chỉ chứa văn bản mà còn kết hợp hoặc tạo ra các loại dữ
liệu khác.
Prompt Hình ảnh (Image Prompting)
Kỹ thuật này áp dụng cho các mô hình tạo ảnh (như Midjourney, Stable Diffusion, DALL-E) hoặc
mô hình hiểu ảnh (như GPT-4V).
Prompt Modifiers (Các từ bổ trợ): Thêm các từ chỉ phong cách, ánh sáng, độ phân giải vào prompt
(ví dụ: "4k", "photorealistic", "cinematic lighting") để cải thiện chất lượng ảnh.
Negative Prompting (Prompt phủ định): Liệt kê những thứ không muốn xuất hiện trong ảnh (ví
dụ: "no blur", "no distortion", "no bad anatomy"). Đây là kỹ thuật quan trọng để loại bỏ các lỗi
thường gặp của AI.
Image-as-Text Prompting: Mô tả hình ảnh mong muốn bằng ngôn ngữ cực kỳ chi tiết, chuyển đổi
các đặc điểm thị giác thành văn bản.
Prompt Âm thanh (Audio Prompting)
Áp dụng cho các mô hình chuyển văn bản thành tiếng nói (TTS) hoặc tạo nhạc. Prompt có thể bao
gồm mô tả về cảm xúc giọng nói (vui, buồn), tốc độ, hoặc phong cách âm nhạc (jazz, lo-fi).
Prompt Video (Video Prompting)
Sử dụng văn bản để tạo video hoặc chỉnh sửa video. Kỹ thuật này thường yêu cầu mô tả chi tiết
về chuyển động, góc quay camera và diễn biến thời gian.
2.3.3 Prompt Phân đoạn (Segmentation Prompting)
Kỹ thuật dùng trong thị giác máy tính, yêu cầu mô hình "cắt" hoặc tách biệt các đối tượng cụ thể
trong ảnh dựa trên mô tả văn bản (ví dụ: "hãy tách nền chiếc xe hơi màu đỏ").
2.3.4 Prompt 3D (3D Prompting)
Tạo các mô hình 3D từ mô tả văn bản (Text-to-3D), sử dụng trong thiết kế game hoặc kiến trúc.
2.4. Mở rộng của Prompting (Extensions of Prompting)
Chương này giới thiệu về các hệ thống AI phức tạp hơn, nơi prompt không chỉ là một câu hỏi đơn
lẻ mà là một phần của hệ thống tự động.
2.4.1 Các tác nhân (Agents)
Định nghĩa: Agent là một hệ thống AI có khả năng sử dụng LLM để lập kế hoạch và thực hiện các
hành động nhằm đạt được mục tiêu, thay vì chỉ trả lời thụ động.2.4.1.1 Tác nhân sử dụng công cụ (Tool Use Agents)
Các Agent này được huấn luyện hoặc prompt để biết khi nào và làm thế nào sử dụng các công cụ
bên ngoài.
Ví dụ: Nếu người dùng hỏi "1234 * 5678 bằng bao nhiêu?", thay vì tự tính nhẩm (dễ sai), Agent
sẽ viết code Python hoặc gọi API máy tính để tính ra kết quả chính xác tuyệt đối.
2.4.1.2 Tác nhân tạo mã (Code-Generation Agents)
Chuyên biệt cho việc viết lập trình. Chúng có thể tự viết code, chạy thử (execute), xem lỗi (debug)
và tự sửa lại code của mình cho đến khi chạy đúng (giống kỹ thuật Self-Refine nhưng áp dụng cho
code).
2.4.1.3 Tác nhân dựa trên quan sát (Observation-Based Agents)
Các Agent này hoạt động trong một môi trường cụ thể (như game, robot, hoặc trình duyệt web).
Chúng nhận thông tin đầu vào từ môi trường ("quan sát"), sau đó quyết định hành động tiếp theo
dựa trên quan sát đó.
Ví dụ: Một AI chơi game sẽ "nhìn" màn hình, thấy chướng ngại vật và quyết định "nhảy".
2.4.1.4 Tạo sinh tăng cường truy xuất (Retrieval Augmented Generation - RAG)
Đây là một trong những kỹ thuật quan trọng nhất hiện nay cho các ứng dụng doanh nghiệp.
Nguyên lý: Khi người dùng đặt câu hỏi, thay vì chỉ dựa vào trí nhớ của mô hình (vốn có thể cũ
hoặc sai), hệ thống sẽ:
+ Truy xuất (Retrieve): Tìm kiếm thông tin liên quan từ một kho dữ liệu bên ngoài (ví dụ:
tài liệu nội bộ công ty, Wikipedia).
+ Tăng cường (Augment): Đưa thông tin tìm được vào prompt làm ngữ cảnh.
+ Tạo sinh (Generate): Yêu cầu mô hình trả lời câu hỏi dựa trên thông tin vừa cung cấp.
Kỹ thuật này giúp giảm ảo giác (hallucination) và cập nhật kiến thức cho AI mà không cần huấn
luyện lại.
3. Đánh giá (Evaluation)
Việc đánh giá các hệ thống GenAI là một thách thức lớn vì đầu ra của chúng là văn bản tự do, khó
đo lường bằng các chỉ số cứng nhắc như độ chính xác (accuracy) trong lập trình truyền thống.
Phần này đề xuất các phương pháp để đánh giá chất lượng đầu ra.
3.1 Các kỹ thuật Prompting (Prompting Techniques)
Sử dụng chính LLM để đánh giá LLM khác (LLM-as-a-Judge).
In-Context Learning (Học theo ngữ cảnh): Cung cấp cho "mô hình giám khảo" các ví dụ về câu
trả lời tốt và xấu để nó học cách chấm điểm.
Role-based Evaluation (Đánh giá dựa trên vai trò): Yêu cầu mô hình đóng vai một giám khảo công
tâm hoặc một chuyên gia trong lĩnh vực cụ thể để chấm điểm câu trả lời.Chain-of-Thought (Chuỗi suy nghĩ): Yêu cầu mô hình giám khảo giải thích lý do tại sao nó cho
điểm số đó trước khi đưa ra con số cuối cùng, giúp điểm số đáng tin cậy hơn.
3.2 Định dạng đầu ra (Output Format)
Quy định cách mà mô hình chấm điểm nên trả về kết quả đánh giá:
Likert Scale (Thang đo Likert): Yêu cầu mô hình chấm điểm trên thang đo (ví dụ: 1-5 hoặc 1-10)
về chất lượng, độ trôi chảy, hoặc độ chính xác.
Binary Score (Điểm nhị phân): Đánh giá Đạt/Không đạt (Pass/Fail) hoặc Đúng/Sai.
Pairwise Evaluation (Đánh giá theo cặp): Thay vì chấm điểm tuyệt đối, đưa cho mô hình 2 câu trả
lời (A và B) và hỏi "Câu nào tốt hơn?". Phương pháp này thường chính xác hơn so với chấm điểm
đơn lẻ.
3.3 Các khung Prompting (Prompting Frameworks)
Các công cụ và thư viện hỗ trợ đánh giá tự động:
G-EVAL: Một khung đánh giá sử dụng GPT-4 với Chain-of-Thought để chấm điểm chất lượng
văn bản sinh ra, được chứng minh là tương đồng cao với đánh giá của con người.
ChatEval: Hệ thống tranh luận đa tác nhân (multi-agent debate) nơi nhiều mô hình cùng thảo luận
để đưa ra đánh giá chung.
4. Quy trình (The Process):
Áp dụng một quy trình lặp đi lặp lại (iterative process) gồm 5 vòng lặp chính để cải thiện prompt.
Đây là mô hình mẫu cho việc làm Prompt Engineering chuyên nghiệp.
Vòng 1: Zero-Shot Prompting (Prompt cơ bản)
Cách làm: Chỉ đưa câu hỏi đơn giản: "Bài viết này có dấu hiệu tự sát không? Có/Không".
Kết quả: Độ chính xác thấp, mô hình thường bị nhầm lẫn giữa các bài viết buồn bã thông thường
và dấu hiệu nguy hiểm thực sự.
Vòng 2: Few-Shot Prompting (Thêm ví dụ)
Cải tiến: Thêm vào prompt 3 ví dụ về bài viết "Có rủi ro" và 3 ví dụ "Không rủi ro".
Kết quả: Hiệu suất tăng lên, mô hình bắt đầu hiểu được phong cách ngôn ngữ cần tìm.
Vòng 3: Prompting với Định nghĩa (Definition Prompting)
Cải tiến: Thêm định nghĩa cụ thể về "sự tuyệt vọng" theo tiêu chuẩn y khoa vào prompt để mô
hình có cơ sở tham chiếu, thay vì để nó tự suy diễn.
Kết quả: Giảm đáng kể các trường hợp dương tính giả (false positives).
Vòng 4: Chain-of-Thought (Chuỗi suy nghĩ)
Cải tiến: Yêu cầu mô hình: "Hãy phân tích bài viết từng bước dựa trên định nghĩa đã cho, sau đó
mới đưa ra kết luận".Kết quả: Mô hình đưa ra các lập luận logic hơn, giúp các chuyên gia dễ dàng kiểm tra lý do tại sao
mô hình đưa ra quyết định đó.
Vòng 5: Phân tích lỗi & Tinh chỉnh (Error Analysis & Refinement)
Cải tiến: Xem xét các trường hợp mô hình vẫn làm sai ở Vòng 4. Phát hiện mô hình hay sai ở các
bài viết dài hoặc dùng tiếng lóng. Tác giả chỉnh sửa prompt để xử lý cụ thể các trường hợp ngoại
lệ này (ví dụ: "Hãy chú ý kỹ đến các từ lóng sau...").
Kết quả: Đạt được hiệu suất tối ưu nhất.
5. Thảo luận (Discussion)
Prompt Engineering là một quy trình khoa học: Không phải là đoán mò, mà cần đo lường, phân
tích lỗi và cải tiến từng bước.
Con người vẫn đóng vai trò cốt lõi: Việc hiểu rõ lĩnh vực chuyên môn (ở đây là tâm lý học) để viết
định nghĩa và chọn ví dụ mẫu quan trọng hơn nhiều so với việc chỉ biết các mẹo vặt máy móc.
Sự đánh đổi: Prompt phức tạp hơn (như CoT) cho kết quả tốt hơn nhưng tốn nhiều chi phí và thời
gian chạy hơn.
6. Kết luận
Báo cáo này đã thiết lập một sự hiểu biết có cấu trúc và hệ thống về lĩnh vực kỹ thuật gợi ý (prompt
engineering). Mặc dù đây là một lĩnh vực được áp dụng rộng rãi và nghiên cứu sâu, nhưng trước
đây nó thường gặp phải vấn đề về thuật ngữ mâu thuẫn và thiếu sự thống nhất về mặt bản chất.
Để giải quyết các vấn đề này, chúng tôi (nhóm tác giả) đã đóng góp những nội dung quan trọng
sau:
✓ Chuẩn hóa Thuật ngữ: Xây dựng một bộ từ vựng chi tiết gồm 33 thuật ngữ cốt lõi để thống
nhất ngôn ngữ sử dụng trong ngành, giải quyết sự phân mảnh hiện có.
✓ Hệ thống phân loại Kỹ thuật (Taxonomy): Đề xuất một hệ thống phân loại toàn diện bao gồm
58 kỹ thuật prompting dành cho các mô hình ngôn ngữ lớn (LLM) và 40 kỹ thuật dành cho
các phương thức khác (như hình ảnh, âm thanh, video).
✓ Phân tích tổng hợp (Meta-Analysis): Thực hiện một cuộc phân tích tổng hợp quy mô lớn đối
với toàn bộ các tài liệu văn học liên quan đến prompting bằng ngôn ngữ tự nhiên, giúp người
đọc có cái nhìn bao quát về sự phát triển của lĩnh vực này.
✓ Hướng dẫn thực hành: Cung cấp các phương pháp thực hành tốt nhất (best practices) và hướng
dẫn cụ thể để viết prompt hiệu quả cho ChatGPT và các mô hình hiện đại khác.
Tổng kết lại, bài báo này đại diện cho cuộc khảo sát toàn diện nhất về kỹ thuật prompt tính đến
thời điểm hiện tại, đóng vai trò như một nền tảng tham chiếu quan trọng cho các nhà nghiên cứu
và người dùng cuối trong việc khai thác hiệu quả các hệ thống AI tạo sinh.
[Tổng hợp giới thiệu bởi Nguyễn Quốc Dũng]