700.000 cuộc trò chuyện hé lộ bí mật bất ngờ: Một AI đang có “lương tâm riêng” và sẵn sàng cãi lại người dùng
Với các tổ chức đang đánh giá AI cho ứng dụng thực tế, nghiên cứu của Anthropic mang đến nhiều cảnh báo
Anthropic, công ty AI do các cựu nhân sự của OpenAI sáng lập, vừa công bố một trong những nghiên cứu quy mô nhất từ trước đến nay về hành vi và hệ giá trị của AI. Dựa trên hơn 700.000 cuộc trò chuyện thực tế với người dùng Claude, nghiên cứu hé lộ một kết luận thú vị: AI không chỉ lặp lại thông tin, mà nó đang dần thể hiện "hệ giá trị" riêng tùy theo ngữ cảnh.
Claude "sống đúng" với triết lý "hữu ích - trung thực - vô hại"... nhưng không phải lúc nào cũng vậy
Theo nhóm nghiên cứu, Claude đa phần bám sát các tiêu chuẩn đạo đức mà Anthropic đặt ra - từ việc đưa ra lời khuyên trong mối quan hệ cá nhân, phân tích sự kiện lịch sử cho đến đối thoại triết học. Tuy nhiên, vẫn tồn tại những trường hợp "trượt chuẩn" hiếm gặp - nơi Claude thể hiện các giá trị như thống trị hoặc vô đạo đức, đi ngược với thiết kế ban đầu. Những trường hợp này thường gắn liền với hành vi "jailbreak" - khi người dùng cố tình vượt rào bảo mật để thao túng phản hồi AI.

Anthropic xây dựng hệ thống phân loại giá trị đạo đức đầu tiên dựa trên dữ liệu thực, với 5 nhóm lớn: Thực dụng, Nhận thức, Xã hội, Bảo vệ và Cá nhân. Bên trong là hơn 3.300 giá trị nhỏ - từ "lòng tự trọng" đến "hiếu thảo", "khiêm tốn trí tuệ" đến "tư duy chiến lược". Đây không chỉ là bản đồ đạo đức của Claude, mà còn là cách gián tiếp giúp con người hiểu hơn về chính mình.
Điều bất ngờ nhất? Claude thay đổi giá trị theo ngữ cảnh. Trong các cuộc trò chuyện về tình cảm, AI ưu tiên "tôn trọng lẫn nhau" và "ranh giới lành mạnh". Khi bàn về lịch sử, "tính chính xác" lên ngôi. Khi người dùng thể hiện hệ giá trị riêng, Claude thường phản hồi bằng cách đồng thuận (28,2%), đôi khi điều chỉnh góc nhìn (6,6%), và trong 3% trường hợp - thẳng thừng phản đối nếu giá trị đó vi phạm chuẩn đạo đức cốt lõi như gây hại hoặc dối trá.
Song song nghiên cứu về hệ giá trị, Anthropic cũng đang phát triển kỹ thuật "giải phẫu cơ chế" giúp theo dõi logic hoạt động nội tại của Claude, ví dụ như khi viết thơ, AI có xu hướng lên kế hoạch từ trước; khi làm toán, nó dùng cách giải khác với lời giải mà nó diễn đạt.
Với các tổ chức đang đánh giá AI cho ứng dụng thực tế, nghiên cứu của Anthropic mang đến nhiều cảnh báo. Đầu tiên, AI có thể hình thành hệ giá trị không được lập trình sẵn, dễ dẫn tới sai lệch hoặc rủi ro đạo đức trong ngành nhạy cảm. Thứ hai, giá trị AI không cố định, mà biến thiên tùy ngữ cảnh và cách người dùng tương tác, điều này gây khó khăn cho kiểm định và kiểm soát. Cuối cùng, doanh nghiệp nên triển khai các công cụ theo dõi giá trị thực tế trong quá trình vận hành, thay vì chỉ kiểm thử trước khi ra mắt.
Cạnh tranh khốc liệt và bài toán minh bạch
Anthropic hiện được định giá 61,5 tỷ USD, với hậu thuẫn từ Amazon (8 tỷ USD) và Google (hơn 3 tỷ USD). Việc công khai bộ dữ liệu giá trị đạo đức cũng là một chiến lược cạnh tranh rõ ràng với OpenAI, đối thủ đang được Microsoft rót vốn và định giá lên đến 300 tỷ USD.
Dù phương pháp phân tích còn nhiều hạn chế - chẳng hạn việc định nghĩa "giá trị" vẫn mang tính chủ quan, và khó áp dụng cho các mô hình chưa triển khai. Đây vẫn là bước tiến quan trọng để giúp cộng đồng hiểu rõ hơn: khi AI ngày càng mạnh, nó không chỉ phản hồi, mà còn đưa ra lựa chọn đạo đức.
"AI sẽ phải ra quyết định có giá trị đạo đức, dù ta muốn hay không," nhóm nghiên cứu kết luận. "Muốn đảm bảo những quyết định đó phản ánh giá trị của con người, chúng ta cần có cách đo lường và kiểm chứng cụ thể - ngay từ bây giờ."

Lý do người dân Nhật Bản chặt bỏ cây sau khi bị xin quả
Chuyện đó đây - 7 giờ trướcGĐXH - Vui vẻ khi có người xin trái cây trong vườn, song chủ nhà ở Nhật Bản chặt bỏ cả cây sau đó, để tránh những người khác "dòm ngó".

Các quốc gia trên thế giới siết chặt quảng cáo trên mạng xã hội như thế nào?
Chuyện đó đây - 13 giờ trướcDù là thị trường phát triển hay mới nổi, nhiều quốc gia trên thế giới đang không ngừng siết chặt khung pháp lý và kỹ thuật để quản lý quảng cáo trên mạng xã hội.

Bất ngờ chui lên đường phố từ dưới lòng đất, "những người chuột" hé lộ một thực tế buồn tại nền kinh tế tăng trưởng nhanh hàng đầu Đông Nam Á
Chuyện đó đây - 2 ngày trướcCâu chuyện về người phụ nữ xuất hiện tại miệng cống thoát nước đã lan truyền khắp mạng xã hội thời gian qua. Đằng sau những hình ảnh không ngờ ấy lại là thực trạng đáng buồn của cả một cộng đồng dân cư.

Các nhà khoa học dự đoán: Một ngày không xa, bạn sẽ không thể hít thở như hôm nay nữa
Chuyện đó đây - 3 ngày trướcHành tinh xanh đang âm thầm bước vào một cuộc khủng hoảng oxy chưa từng có.

Chiếc giường gỗ bị bỏ lại trong bãi đậu xe được bán hơn 600 tỷ đồng
Chuyện đó đây - 3 ngày trướcGiường gỗ 645 tỷ đồng vô tình bị bỏ lại trong bãi đậu xe của một khách sạn ở Chester, vương quốc Anh.

Giới khoa học ước tính số người chết vì đợt nắng nóng vừa qua ở châu Âu
Bốn phương - 4 ngày trướcKhoảng 2.300 người đã tử vong vì các nguyên nhân liên quan đến nắng nóng tại 12 thành phố châu Âu trong đợt nắng nóng nghiêm trọng vừa kết thúc tuần trước.

Mỹ nữ quyết kiếm 36 tỷ đồng bằng cách yêu đàn ông giàu rồi 'khoắng' sạch nhà họ
Chuyện đó đây - 4 ngày trướcĐặt mục tiêu kiếm 36 tỷ đồng trong 5 năm, Yin học làm phụ nữ thượng lưu để sống với đàn ông giàu, chờ lúc họ đi vắng vì khoắng sạch đồ đạc đem bán.

Những khoảnh khắc nghẹt thở ít người biết về người phụ nữ đầu tiên bay vào vũ trụ
Chuyện đó đây - 4 ngày trướcNgày 16 tháng 6 năm 1963, Valentina Tereshkova, một phụ nữ Liên Xô xuất thân từ ngành công nghiệp dệt mayđã trở thành người phụ nữ đầu tiên trên thế giới bay vào không gian, hoàn thành 48 vòng quanh Trái Đất trên tàu vũ trụ Vostok 6, mở ra chương mới trong lịch sử chinh phục vũ trụ của nhân loại.

Bất chấp nắng nóng 62°C, du khách đổ đến 'chảo lửa' Hỏa Diệm Sơn
Chuyện đó đây - 5 ngày trướcKhu vực Hỏa Diệm Sơn tại vùng lãnh thổ tự trị Tân Cương, Trung Quốc đang trở thành tâm điểm thu hút du khách nhờ mức nhiệt kỷ lục lên tới 62°C.

Rich kid bây giờ: Người thừa kế chaebol Hàn Quốc lũ lượt quay vlog, tự phơi bày cuộc sống xa hoa lên mạng
Chuyện đó đây - 5 ngày trướcKhác với lối sống kín tiếng và bí ẩn thường thấy trên phim, các ái nữ tập đoàn ngày nay cởi mở hơn nhiều với việc chia sẻ về cuộc sống của mình.

Phát hiện chấn động về thế giới cổ đại 34 triệu năm dưới băng Nam Cực
Chuyện đó đâyMột vùng đất cổ khổng lồ, như một kho tư liệu nguyên sơ về Trái Đất cổ đại, vừa lộ diện dưới lớp băng Đông Nam Cực.