Hà Nội
23°C / 22-25°C

700.000 cuộc trò chuyện hé lộ bí mật bất ngờ: Một AI đang có “lương tâm riêng” và sẵn sàng cãi lại người dùng

Chủ nhật, 17:29 25/05/2025 | Chuyện đó đây

Với các tổ chức đang đánh giá AI cho ứng dụng thực tế, nghiên cứu của Anthropic mang đến nhiều cảnh báo

Anthropic, công ty AI do các cựu nhân sự của OpenAI sáng lập, vừa công bố một trong những nghiên cứu quy mô nhất từ trước đến nay về hành vi và hệ giá trị của AI. Dựa trên hơn 700.000 cuộc trò chuyện thực tế với người dùng Claude, nghiên cứu hé lộ một kết luận thú vị: AI không chỉ lặp lại thông tin, mà nó đang dần thể hiện "hệ giá trị" riêng tùy theo ngữ cảnh.

Claude "sống đúng" với triết lý "hữu ích - trung thực - vô hại"... nhưng không phải lúc nào cũng vậy

Theo nhóm nghiên cứu, Claude đa phần bám sát các tiêu chuẩn đạo đức mà Anthropic đặt ra - từ việc đưa ra lời khuyên trong mối quan hệ cá nhân, phân tích sự kiện lịch sử cho đến đối thoại triết học. Tuy nhiên, vẫn tồn tại những trường hợp "trượt chuẩn" hiếm gặp - nơi Claude thể hiện các giá trị như thống trị hoặc vô đạo đức, đi ngược với thiết kế ban đầu. Những trường hợp này thường gắn liền với hành vi "jailbreak" - khi người dùng cố tình vượt rào bảo mật để thao túng phản hồi AI.

700.000 cuộc trò chuyện hé lộ bí mật bất ngờ: Một AI đang có “lương tâm riêng” và sẵn sàng cãi lại người dùng - Ảnh 1.

Anthropic xây dựng hệ thống phân loại giá trị đạo đức đầu tiên dựa trên dữ liệu thực, với 5 nhóm lớn: Thực dụng, Nhận thức, Xã hội, Bảo vệ và Cá nhân. Bên trong là hơn 3.300 giá trị nhỏ - từ "lòng tự trọng" đến "hiếu thảo", "khiêm tốn trí tuệ" đến "tư duy chiến lược". Đây không chỉ là bản đồ đạo đức của Claude, mà còn là cách gián tiếp giúp con người hiểu hơn về chính mình.

Điều bất ngờ nhất? Claude thay đổi giá trị theo ngữ cảnh. Trong các cuộc trò chuyện về tình cảm, AI ưu tiên "tôn trọng lẫn nhau" và "ranh giới lành mạnh". Khi bàn về lịch sử, "tính chính xác" lên ngôi. Khi người dùng thể hiện hệ giá trị riêng, Claude thường phản hồi bằng cách đồng thuận (28,2%), đôi khi điều chỉnh góc nhìn (6,6%), và trong 3% trường hợp - thẳng thừng phản đối nếu giá trị đó vi phạm chuẩn đạo đức cốt lõi như gây hại hoặc dối trá.

Song song nghiên cứu về hệ giá trị, Anthropic cũng đang phát triển kỹ thuật "giải phẫu cơ chế" giúp theo dõi logic hoạt động nội tại của Claude, ví dụ như khi viết thơ, AI có xu hướng lên kế hoạch từ trước; khi làm toán, nó dùng cách giải khác với lời giải mà nó diễn đạt.

Với các tổ chức đang đánh giá AI cho ứng dụng thực tế, nghiên cứu của Anthropic mang đến nhiều cảnh báo. Đầu tiên, AI có thể hình thành hệ giá trị không được lập trình sẵn, dễ dẫn tới sai lệch hoặc rủi ro đạo đức trong ngành nhạy cảm. Thứ hai, giá trị AI không cố định, mà biến thiên tùy ngữ cảnh và cách người dùng tương tác, điều này gây khó khăn cho kiểm định và kiểm soát. Cuối cùng, doanh nghiệp nên triển khai các công cụ theo dõi giá trị thực tế trong quá trình vận hành, thay vì chỉ kiểm thử trước khi ra mắt.

Cạnh tranh khốc liệt và bài toán minh bạch

Anthropic hiện được định giá 61,5 tỷ USD, với hậu thuẫn từ Amazon (8 tỷ USD) và Google (hơn 3 tỷ USD). Việc công khai bộ dữ liệu giá trị đạo đức cũng là một chiến lược cạnh tranh rõ ràng với OpenAI, đối thủ đang được Microsoft rót vốn và định giá lên đến 300 tỷ USD.

Dù phương pháp phân tích còn nhiều hạn chế - chẳng hạn việc định nghĩa "giá trị" vẫn mang tính chủ quan, và khó áp dụng cho các mô hình chưa triển khai. Đây vẫn là bước tiến quan trọng để giúp cộng đồng hiểu rõ hơn: khi AI ngày càng mạnh, nó không chỉ phản hồi, mà còn đưa ra lựa chọn đạo đức.

"AI sẽ phải ra quyết định có giá trị đạo đức, dù ta muốn hay không," nhóm nghiên cứu kết luận. "Muốn đảm bảo những quyết định đó phản ánh giá trị của con người, chúng ta cần có cách đo lường và kiểm chứng cụ thể - ngay từ bây giờ."

Bình luận (0)
Xem thêm bình luận
Ý kiến của bạn
Nghe tiếng động bất thường dưới nắp xe, người đàn ông mở ra rồi kinh hoàng phát hiện 'bóng đen' dài 3 mét

Nghe tiếng động bất thường dưới nắp xe, người đàn ông mở ra rồi kinh hoàng phát hiện 'bóng đen' dài 3 mét

Chuyện đó đây - 5 giờ trước

Chỉ một lần mở nắp xe kiểm tra, người đàn ông đã đối mặt với cảnh tượng khiến nhiều người xung quanh cũng phải giật mình.

Phát hiện báu vật 500.000 tuổi do loài người khác chế tác

Phát hiện báu vật 500.000 tuổi do loài người khác chế tác

Chuyện đó đây - 1 ngày trước

"Báu vật bị lãng quên" trong bảo tàng Anh tiết lộ vào 200.000 năm trước khi loài chúng ta ra đời, ở châu Âu đã có một loài người cổ rất thông minh.

Trở về sau 3 năm đi làm xa, người đàn ông tá hỏa vì nhà thành 'tổ chim khổng lồ'

Trở về sau 3 năm đi làm xa, người đàn ông tá hỏa vì nhà thành 'tổ chim khổng lồ'

Chuyện đó đây - 1 ngày trước

Một gia chủ người Nga đi làm ăn xa 3 năm, lúc trở về anh ngỡ ngàng khi thấy ngôi nhà của mình bị chim bồ câu chiếm cứ, lý do chỉ vì quên đóng cửa sổ.

Mua bia về uống người đàn ông sốc nặng khi thấy thứ bên trong

Mua bia về uống người đàn ông sốc nặng khi thấy thứ bên trong

Chuyện đó đây - 1 ngày trước

Phát hiện con cá bên trong chai bia, vị khách hàng bị sốc và bối rối, vì chai bia đã được niêm phong trước khi mở.

Mang cốc vàng đi kiểm tra, người phụ nữ sốc nặng khi biết giá trị

Mang cốc vàng đi kiểm tra, người phụ nữ sốc nặng khi biết giá trị

Chuyện đó đây - 2 ngày trước

Thật đáng kinh ngạc, sau khi kiểm tra, chiếc cốc có độ tinh khiết vàng đến 99,9%.

Câu chuyện về cặp đôi đã ôm nhau 2.800 năm ở Iran

Câu chuyện về cặp đôi đã ôm nhau 2.800 năm ở Iran

Chuyện đó đây - 3 ngày trước

Không ai biết họ là ai, nhưng họ đã trở thành biểu tượng của tình yêu vĩnh hằng.

Loài hoa đắt nhất hành tinh: Đắt đến mức vô lý nhưng không thể mua trưng bày

Loài hoa đắt nhất hành tinh: Đắt đến mức vô lý nhưng không thể mua trưng bày

Chuyện đó đây - 4 ngày trước

Trong danh sách những loài hoa đắt đỏ nhất thế giới, có một cái tên đặc biệt thường được nhắc đến không phải vì giá bán hàng triệu đô, mà bởi… không thể mua bằng tiền.

Thạc sĩ Trung Quốc kiếm tiền tỷ nhờ nghề dạy đạp xe cho người lớn!

Thạc sĩ Trung Quốc kiếm tiền tỷ nhờ nghề dạy đạp xe cho người lớn!

Chuyện đó đây - 5 ngày trước

Bằng việc kết hợp kiến thức chuyên môn về giáo dục thể chất và sự nhạy bén với thị trường ngách, Li đã biến kỹ năng đạp xe cơ bản thành một mô hình kinh doanh mang lại thu nhập đột phá.

Người đàn ông ngất xỉu khi nhận ra đã "vứt nhầm" 20 thỏi vàng vào thùng rác

Người đàn ông ngất xỉu khi nhận ra đã "vứt nhầm" 20 thỏi vàng vào thùng rác

Chuyện đó đây - 6 ngày trước

Một người đàn ông đã vô tình vứt 20 thỏi vàng, trị giá hơn 3,7 tỷ đồng, vào thùng rác công cộng. Khi phát hiện sự việc, anh choáng váng đến mức ngất xỉu, khiến gia đình bàng hoàng.

Đào sâu 0,8m, đội công nhân phát hiện hơn 5 kg vàng: Công trường xây dựng lập tức bị phong tỏa

Đào sâu 0,8m, đội công nhân phát hiện hơn 5 kg vàng: Công trường xây dựng lập tức bị phong tỏa

Chuyện đó đây - 6 ngày trước

Ngoài vàng, nhiều cổ vật quý hiếm khác cũng được phát hiện, qua đó cung cấp thêm tư liệu quan trọng về đời sống và nghệ thuật thời Đường ở Trung Quốc.

Top