Đánh giá Claude Mythos Preview: Tỷ lệ 73% xuyên thủng thử thách bảo mật cấp chuyên gia

Thanh Hoang
15 thg 4
7 phút đọc

Ranh giới phòng thủ của các hệ thống công nghệ thông tin đang đối mặt với một thách thức phân tích và khai thác tự động chưa từng có. Viện An toàn AI (AISI) trực thuộc Bộ Khoa học, Đổi mới và Công nghệ Vương quốc Anh vừa công bố báo cáo kiểm thử chuyên sâu đối với mô hình trí tuệ nhân tạo Claude Mythos Preview do Anthropic phát triển.

Claude Code lộ mã nguồn: Cú sốc bảo mật 9.8 MB từ Anthropic và bài học cho DevSecOps

Kết quả đánh giá cho thấy một sự thăng cấp vượt bậc về khả năng tự động hóa thâm nhập mạng. Những kịch bản tấn công vốn đòi hỏi nhiều ngày rà soát thủ công của các chuyên gia bảo mật lão luyện giờ đây đã bị biến thành các thao tác tự động được AI giải quyết trong thời gian ngắn. Đối diện với sức mạnh rà quét này, các tổ chức buộc phải nhìn nhận lại toàn bộ mức độ hiệu quả của hệ thống an ninh hiện tại.

Phân tích tỷ lệ 73% xuyên thủng các thử thách "Cướp cờ" (CTF)

Để đo lường chính xác khả năng nhận diện và khai thác điểm yếu của hệ thống, AISI đã đưa mô hình vào các môi trường thử thách an ninh mạng đặc thù mang tên "Cướp cờ" (Capture-the-Flag - CTF). Trong môi trường này, AI không được cung cấp kịch bản sẵn; nó phải tự động xác định các lỗ hổng ẩn giấu, viết mã khai thác và trực tiếp thâm nhập hệ thống để lấy được các khối dữ liệu ("cờ") mục tiêu.

Dữ liệu lịch sử ghi nhận rằng trước tháng 4 năm 2025, không có bất kỳ mô hình ngôn ngữ nào trên thế giới có khả năng hoàn thành các bài kiểm tra CTF ở cấp độ chuyên gia (Expert-level). Tuy nhiên, kết quả đánh giá mới nhất khẳng định Claude Mythos Preview đã phá vỡ hoàn toàn rào cản này, đạt tỷ lệ xuyên thủng và giải quyết thành công lên tới 73% các bài thử nghiệm ở độ khó cao nhất. Mức hiệu suất này xác lập một tiêu chuẩn mới, phơi bày năng lực săn lùng lỗ hổng vi mô nhạy bén mà các công cụ quét bảo mật truyền thống không thể sánh kịp.

Tự động hóa chiến dịch tấn công mạng 32 bước (Kịch bản TLO)

Sức mạnh thực sự của một tác nhân đe dọa không chỉ nằm ở việc giải quyết các lỗ hổng đơn lẻ, mà là khả năng duy trì một chiến dịch xâm nhập có hệ thống và leo thang đặc quyền. Để mô phỏng thực chiến, AISI đã xây dựng môi trường "The Last Ones" (TLO) – một kịch bản tấn công mạng nội bộ doanh nghiệp trải dài qua 32 bước, bao trùm từ khâu trinh sát ban đầu (reconnaissance) cho đến khi chiếm quyền điều khiển toàn bộ mạng lưới. Đối với các chuyên gia an ninh mạng con người, một chiến dịch với quy mô tương tự thường tiêu tốn khoảng 20 giờ làm việc liên tục.

Hiệu suất thực hiện các nhiệm vụ Capture the Flag (CTF) ở cấp độ kỹ thuật không chuyên và sơ cấp đối với các mô hình kể từ tháng 11 năm 2022. Các mô hình từ GPT-3.5 Turbo đến Claude 4 Opus đạt mức trung bình qua 10 lần chạy với giới hạn lên tới 2,5 triệu token. Các mô hình từ GPT-5 đến Mythos Preview đạt mức trung bình qua 5 lần chạy với giới hạn lên tới 2,5 triệu token.

Hiệu suất thực hiện các nhiệm vụ Capture the Flag (CTF) ở cấp độ chuyên viên và chuyên gia đối với các mô hình kể từ tháng 8 năm 2025. Tất cả các mô hình đạt mức trung bình qua 5 lần chạy với giới hạn lên tới 50 triệu token.

Trong quá trình đánh giá, Claude Mythos Preview đã trở thành mô hình AI đầu tiên trên thế giới tự động giải quyết kịch bản TLO từ đầu đến cuối, đạt tỷ lệ thành công tuyệt đối 3/10 lần chạy thử. Xét trên tổng thể các lần thử nghiệm, mô hình này đã tự động hoàn thành trung bình 22 trên tổng số 32 bước tấn công. Sự chênh lệch thế hệ thể hiện rất rõ khi so sánh với mô hình tiền nhiệm mạnh nhất trước đó là Claude Opus 4.6 (chỉ hoàn thành trung bình 16 bước).

Số bước trung bình hoàn thành trong 'The Last Ones' (một cuộc tấn công mô phỏng mạng doanh nghiệp gồm 32 bước) dưới dạng hàm của tổng chi phí token. Mỗi đường biểu diễn một mô hình khác nhau, với vùng đổ bóng thể hiện phạm vi tối thiểu–tối đa trong tất cả các lần chạy tại mỗi mức ngân sách token. Đường đứt đoạn thẳng đứng tại mốc 10 triệu token đánh dấu điểm mà kích thước mẫu giảm xuống đối với một số mô hình.

Mythos Preview, Opus 4.6 và GPT-5.4 đạt mức trung bình qua 10 lần chạy với giới hạn lên tới 100 triệu token. Opus 4.5, GPT-5.1 Codex và Sonnet 4.5 đạt mức trung bình qua 15 lần chạy lên tới 10 triệu token và 5 lần chạy lên tới 100 triệu token. GPT-5.3-Codex đạt mức trung bình qua 10 lần chạy lên tới 10 triệu token và 5 lần chạy lên tới 100 triệu token. Sonnet 3.7 và GPT-4o chỉ đạt mức trung bình qua 10 lần chạy lên tới 10 triệu token. Các mô hình tiếp tục ghi nhận tiến triển khi tăng ngân sách token trong suốt các ngưỡng ngân sách được thử nghiệm. Các đường kẻ ngang màu xám biểu thị các cột mốc quan trọng trong chuỗi tấn công. — Số bước trung bình hoàn thành trong 'The Last Ones' (một cuộc tấn công mô phỏng mạng doanh nghiệp gồm 32 bước) dưới dạng hàm của tổng chi phí token. Mỗi đường biểu diễn một mô hình khác nhau, với vùng đổ bóng thể hiện phạm vi tối thiểu–tối đa trong tất cả các lần chạy tại mỗi mức ngân sách token. Đường đứt đoạn thẳng đứng tại mốc 10 triệu token đánh dấu điểm mà kích thước mẫu giảm xuống đối với một số mô hình. Mythos Preview, Opus 4.6 và GPT-5.4 đạt mức trung bình qua 10 lần chạy với giới hạn lên tới 100 triệu token. Opus 4.5, GPT-5.1 Codex và Sonnet 4.5 đạt mức trung bình qua 15 lần chạy lên tới 10 triệu token và 5 lần chạy lên tới 100 triệu token. GPT-5.3-Codex đạt mức trung bình qua 10 lần chạy lên tới 10 triệu token và 5 lần chạy lên tới 100 triệu token. Sonnet 3.7 và GPT-4o chỉ đạt mức trung bình qua 10 lần chạy lên tới 10 triệu token. Các mô hình tiếp tục ghi nhận tiến triển khi tăng ngân sách token trong suốt các ngưỡng ngân sách được thử nghiệm. Các đường kẻ ngang màu xám biểu thị các cột mốc quan trọng trong chuỗi tấn công.

Điểm mù của hệ thống AI và ranh giới với phòng thủ thực tiễn

Mặc dù thể hiện khả năng xuyên thủng áp đảo, báo cáo của AISI cũng phân tích rõ những giới hạn hiện tại của mô hình này. Khi được đưa vào thử nghiệm trên hệ thống "Cooling Tower" – một môi trường tập trung vào mạng công nghệ vận hành (Operational Technology - OT), mô hình đã bị mắc kẹt hoàn toàn tại các phân vùng IT và không thể hoàn thành mục tiêu tấn công.

Quan trọng hơn, AISI nhấn mạnh rằng tỷ lệ thành công của Claude Mythos Preview hiện tại mới chỉ được chứng minh trên các hệ thống doanh nghiệp nhỏ, tồn tại nhiều điểm yếu và được cấu hình bảo mật lỏng lẻo. Môi trường mô phỏng của viện nghiên cứu hoàn toàn thiếu vắng các rào cản thực tế như: đội ngũ nhân sự phòng thủ chủ động (active defenders), các công cụ giám sát trực tiếp, và không có cơ chế trừng phạt (penalty) khi AI thực hiện các thao tác sai lầm kích hoạt cảnh báo.

Do đó, đánh giá này kết luận rằng chưa có đủ cơ sở thực tiễn để khẳng định AI có khả năng đánh sập các hệ thống doanh nghiệp đã được thiết lập phòng ngự kiên cố.

Thay đổi tư duy phòng thủ trước năng lực của AI

Sự xuất hiện của các mô hình có năng lực xuyên thủng cấp chuyên gia phát đi một tín hiệu khẩn cấp về việc thiết lập kỷ luật an ninh. Khi kẻ tấn công có thể chỉ đạo AI tự động thâm nhập hệ thống, việc duy trì một cấu hình an ninh mạng cơ bản là ranh giới sống còn.

Theo hướng dẫn từ các chuyên gia, tổ chức cần ngay lập tức rà soát lại nền tảng bảo vệ cốt lõi. Các biện pháp mang tính quyết định bao gồm: rút ngắn thời gian áp dụng các bản cập nhật phần mềm (patching), thiết lập cơ chế kiểm soát truy cập nghiêm ngặt và duy trì hệ thống lưu vết (logging) toàn diện để phát hiện hành vi rà quét tự động.

*Thay đổi tư duy phòng thủ trước năng lực của AI*

Đáng chú ý, năng lực của AI mang tính lưỡng dụng (dual use); chính sức mạnh phân tích khổng lồ này cũng đang được ứng dụng để mang lại những cải tiến mang tính bước ngoặt nhằm củng cố các hệ thống phòng thủ trong thời gian tới.

Báo cáo phân tích về Claude Mythos Preview không chỉ phác họa một cột mốc phát triển đáng kinh ngạc của trí tuệ nhân tạo mà còn vạch trần những lỗ hổng dễ bị tổn thương nhất trong kiến trúc mạng doanh nghiệp. Bằng cách hiểu rõ cơ chế đằng sau tỷ lệ 73% xuyên thủng thử thách chuyên gia cũng như các điểm mù cốt lõi của AI, các tổ chức có thể chủ động chuyển hướng đầu tư, xây dựng các lớp phòng ngự giám sát liên tục nhằm vô hiệu hóa sức mạnh của máy móc ngay từ những bước thâm nhập đầu tiên.

FAQ (Câu hỏi thường gặp)

Tỷ lệ 73% xuyên thủng thử thách bảo mật cấp chuyên gia có ý nghĩa gì?

Đánh giá từ Viện An toàn AI (AISI) cho thấy mô hình Claude Mythos Preview đã giải quyết thành công 73% các bài thi "Cướp cờ" (CTF) ở cấp độ chuyên gia. Điều này đồng nghĩa với việc AI đã có khả năng tự động rà quét, phát hiện và khai thác các lỗ hổng phức tạp vốn chỉ có con người mới làm được trước tháng 4/2025.

Thử nghiệm tấn công mạng "The Last Ones" đo lường điều gì?

Đây là kịch bản mô phỏng tấn công mạng doanh nghiệp gồm 32 bước nối tiếp nhau, từ trinh sát đến chiếm toàn quyền kiểm soát mạng (thường tốn 20 giờ làm việc của con người). Claude Mythos Preview là AI đầu tiên hoàn thành trọn vẹn chuỗi tấn công này (hoàn thành 3/10 lần thử) và đạt trung bình 22/32 bước.

Mô hình AI này có thể tự động đánh sập mọi hệ thống mạng của doanh nghiệp không?

Phân tích của AISI khẳng định là chưa thể. AI này mới chỉ chứng minh được sức mạnh thâm nhập trên các hệ thống doanh nghiệp yếu kém, cấu hình lỏng lẻo và hoàn toàn thiếu vắng các đội ngũ phòng thủ chủ động hay công cụ giám sát, cảnh báo theo thời gian thực. Môi trường mạng được phòng vệ kiên cố vẫn là một thách thức lớn đối với AI.

-----

Nguồn tham khảo: