700.000 cuộc trò chuyện hé lộ bí mật bất ngờ: Một AI đang có “lương tâm riêng” và sẵn sàng cãi lại người dùng
Với các tổ chức đang đánh giá AI cho ứng dụng thực tế, nghiên cứu của Anthropic mang đến nhiều cảnh báo
Anthropic, công ty AI do các cựu nhân sự của OpenAI sáng lập, vừa công bố một trong những nghiên cứu quy mô nhất từ trước đến nay về hành vi và hệ giá trị của AI. Dựa trên hơn 700.000 cuộc trò chuyện thực tế với người dùng Claude, nghiên cứu hé lộ một kết luận thú vị: AI không chỉ lặp lại thông tin, mà nó đang dần thể hiện "hệ giá trị" riêng tùy theo ngữ cảnh.
Claude "sống đúng" với triết lý "hữu ích - trung thực - vô hại"... nhưng không phải lúc nào cũng vậy
Theo nhóm nghiên cứu, Claude đa phần bám sát các tiêu chuẩn đạo đức mà Anthropic đặt ra - từ việc đưa ra lời khuyên trong mối quan hệ cá nhân, phân tích sự kiện lịch sử cho đến đối thoại triết học. Tuy nhiên, vẫn tồn tại những trường hợp "trượt chuẩn" hiếm gặp - nơi Claude thể hiện các giá trị như thống trị hoặc vô đạo đức, đi ngược với thiết kế ban đầu. Những trường hợp này thường gắn liền với hành vi "jailbreak" - khi người dùng cố tình vượt rào bảo mật để thao túng phản hồi AI.

Anthropic xây dựng hệ thống phân loại giá trị đạo đức đầu tiên dựa trên dữ liệu thực, với 5 nhóm lớn: Thực dụng, Nhận thức, Xã hội, Bảo vệ và Cá nhân. Bên trong là hơn 3.300 giá trị nhỏ - từ "lòng tự trọng" đến "hiếu thảo", "khiêm tốn trí tuệ" đến "tư duy chiến lược". Đây không chỉ là bản đồ đạo đức của Claude, mà còn là cách gián tiếp giúp con người hiểu hơn về chính mình.
Điều bất ngờ nhất? Claude thay đổi giá trị theo ngữ cảnh. Trong các cuộc trò chuyện về tình cảm, AI ưu tiên "tôn trọng lẫn nhau" và "ranh giới lành mạnh". Khi bàn về lịch sử, "tính chính xác" lên ngôi. Khi người dùng thể hiện hệ giá trị riêng, Claude thường phản hồi bằng cách đồng thuận (28,2%), đôi khi điều chỉnh góc nhìn (6,6%), và trong 3% trường hợp - thẳng thừng phản đối nếu giá trị đó vi phạm chuẩn đạo đức cốt lõi như gây hại hoặc dối trá.
Song song nghiên cứu về hệ giá trị, Anthropic cũng đang phát triển kỹ thuật "giải phẫu cơ chế" giúp theo dõi logic hoạt động nội tại của Claude, ví dụ như khi viết thơ, AI có xu hướng lên kế hoạch từ trước; khi làm toán, nó dùng cách giải khác với lời giải mà nó diễn đạt.
Với các tổ chức đang đánh giá AI cho ứng dụng thực tế, nghiên cứu của Anthropic mang đến nhiều cảnh báo. Đầu tiên, AI có thể hình thành hệ giá trị không được lập trình sẵn, dễ dẫn tới sai lệch hoặc rủi ro đạo đức trong ngành nhạy cảm. Thứ hai, giá trị AI không cố định, mà biến thiên tùy ngữ cảnh và cách người dùng tương tác, điều này gây khó khăn cho kiểm định và kiểm soát. Cuối cùng, doanh nghiệp nên triển khai các công cụ theo dõi giá trị thực tế trong quá trình vận hành, thay vì chỉ kiểm thử trước khi ra mắt.
Cạnh tranh khốc liệt và bài toán minh bạch
Anthropic hiện được định giá 61,5 tỷ USD, với hậu thuẫn từ Amazon (8 tỷ USD) và Google (hơn 3 tỷ USD). Việc công khai bộ dữ liệu giá trị đạo đức cũng là một chiến lược cạnh tranh rõ ràng với OpenAI, đối thủ đang được Microsoft rót vốn và định giá lên đến 300 tỷ USD.
Dù phương pháp phân tích còn nhiều hạn chế - chẳng hạn việc định nghĩa "giá trị" vẫn mang tính chủ quan, và khó áp dụng cho các mô hình chưa triển khai. Đây vẫn là bước tiến quan trọng để giúp cộng đồng hiểu rõ hơn: khi AI ngày càng mạnh, nó không chỉ phản hồi, mà còn đưa ra lựa chọn đạo đức.
"AI sẽ phải ra quyết định có giá trị đạo đức, dù ta muốn hay không," nhóm nghiên cứu kết luận. "Muốn đảm bảo những quyết định đó phản ánh giá trị của con người, chúng ta cần có cách đo lường và kiểm chứng cụ thể - ngay từ bây giờ."
Cảnh báo núi Phú Sĩ ngủ say 300 năm sắp tỉnh giấc
Chuyện đó đây - 1 giờ trướcNúi Phú Sĩ về bản chất vẫn là một ngọn núi lửa đang hoạt động.
Nhật Bản phát triển động cơ máy bay "như viễn tưởng": Múi giờ trở nên vô nghĩa với tất cả hành khách
Chuyện đó đây - 1 ngày trướcĐộng cơ siêu thanh mới của Nhật Bản có thể biến các chuyến bay 2 giờ đến Mỹ thành hiện thực.
Nhặt được “viên đá lạ” trong công viên, người phụ nữ sốc khi biết đó là báu vật hàng nghìn người cùng tìm kiếm
Chuyện đó đây - 2 ngày trướcMột người phụ nữ Mỹ bất ngờ tìm thấy viên kim cương trắng nặng 3,09 carat tại công viên công cộng nổi tiếng Crater of Diamonds State Park. Nơi đây được mệnh danh là “mỏ kim cương duy nhất trên thế giới mở cửa cho tất cả mọi người”.
Phát hiện 'món quà từ quá khứ' hàng tỷ năm tuổi ẩn sâu dưới lòng đất: Không cần dầu mỏ vẫn tạo đủ điện cho 400 hộ dân mỗi năm
Chuyện đó đây - 3 ngày trướcCác nhà nghiên cứu lần đầu đo được dòng hydro trắng tự nhiên rò rỉ liên tục từ lớp đá cổ tại Canada, mở ra triển vọng mới cho ngành năng lượng sạch.
Phát hiện mỏ vàng 61 triệu tấn dưới lòng đất làm rung chuyển thị trường, lập kỷ lục lớn nhất lịch sử đất nước
Chuyện đó đây - 4 ngày trướcVới trữ lượng ước tính vượt mốc 61 triệu tấn quặng, phát hiện này được kỳ vọng có thể làm thay đổi thị trường vàng toàn cầu.
Chinh phục "mỏ vàng lớn nhất hệ Mặt Trời": NASA công bố bước ngoặt
Chuyện đó đây - 6 ngày trướcTàu NASA sẽ mượn Sao Hỏa để "lấy đà", tăng tốc đến Psyche, vật thể được cho là mỏ vàng trị giá gấp 70.000 lần kinh tế toàn cầu.
Một hiện tượng đã xóa sổ gần như toàn bộ sự sống - sự kiện còn tồi tệ hơn cả ngày tận thế của khủng long
Chuyện đó đây - 1 tuần trướcVà loài người đã được cảnh báo về một "sự sụp đổ" tương tự trong tương lai.
Ảnh vệ tinh tiết lộ hàng trăm ngôi mộ lạ bên bờ biển Đỏ
Chuyện đó đây - 1 tuần trướcNhững ngôi mộ tập thể khổng lồ, có cái đường kính lên tới 80 m, đã được tìm thấy giữa vùng sa mạc hoang vắng giữa sông Nile và biển Đỏ.
Kéo lưới giữa biển khơi, ngư dân sợ hãi khi bắt được thứ đen sì nặng tới 200kg
Chuyện đó đây - 1 tuần trướcMột sinh vật biển khổng lồ nặng gần 200kg bất ngờ xuất hiện trong mẻ lưới ngoài khơi khiến nhiều ngư dân không khỏi hoảng hốt. Hình dạng kỳ lạ cùng kích thước đồ sộ của nó khiến nhiều người liên tưởng đến một “quái thú biển sâu” hiếm gặp.
Vô tình ngã xuống bể bơi, người đàn ông tỉnh dậy bỗng dưng trở thành thiên tài
Chuyện đó đây - 1 tuần trướcTrước đó, anh là một người bình thường, còn đang đối mặt nguy cơ thất nghiệp.
Phát hiện mỏ vàng 61 triệu tấn dưới lòng đất làm rung chuyển thị trường, lập kỷ lục lớn nhất lịch sử đất nước
Chuyện đó đâyVới trữ lượng ước tính vượt mốc 61 triệu tấn quặng, phát hiện này được kỳ vọng có thể làm thay đổi thị trường vàng toàn cầu.