Các nhà nghiên cứu của Google và Stanford ra mắt công cụ kiểm tra dữ kiện AI



Chúng tôi là công ty Công nghệ Terus, Công ty thiết kế website uy tín tại Hồ Chí Minh và cung cấp các dịch vụ liên quan đến digital. Terus đem tới các dịch vụ: Thiết kế websitedịch vụ quảng cáo Facebook Adsdịch vụ chạy quảng cáo Google Adsdịch vụ SEO tổng thể,...

Bất kể các chatbot AI hiện tại mạnh mẽ đến mức nào, vẫn có xu hướng tồn tại một hành vi bị chỉ trích nhiều – cung cấp cho người dùng những câu trả lời có phần thuyết phục nhưng không chính xác về mặt thực tế. Nói một cách đơn giản, AI đôi khi 'trượt khỏi đường ray' trong các phản hồi của mình, thậm chí 'lan truyền tin đồn'. Ngăn chặn hành vi như vậy trong các mô hình AI lớn không phải là nhiệm vụ dễ dàng và là một thách thức về mặt kỹ thuật. Tuy nhiên, theo phương tiện truyền thông nước ngoài Marktechpost, Google DeepMind và Đại học Stanford dường như đã tìm ra giải pháp thay thế.

Công cụ này dựa trên Search-Augmented Factuality Evaluator (SAFE) Các nhà nghiên cứu đã giới thiệu một công cụ dựa trên các mô hình ngôn ngữ lớn – Search-Augmented Factuality Evaluator (SAFE) , có thể kiểm tra các phản hồi dài do chatbot tạo ra. Kết quả nghiên cứu của họ, cùng với mã và tập dữ liệu thử nghiệm, hiện đã được công khai, hãy nhấp vào đây để xem.

Hệ thống phân tích, xử lý và đánh giá các phản hồi do chatbot tạo ra thông qua bốn bước để xác minh tính chính xác và xác thực: phân đoạn các câu trả lời thành các mục riêng lẻ để xác minh, sửa nội dung trên và sau đó so sánh với kết quả tìm kiếm của Google. Sau đó, hệ thống cũng kiểm tra tính liên quan của từng sự kiện với câu hỏi ban đầu.

Các nhà nghiên cứu đã tạo ra một tập dữ liệu có tên là LongFact để đánh giá hiệu suất của nó Để đánh giá hiệu suất của nó, các nhà nghiên cứu đã tạo ra một tập dữ liệu có tên LongFact chứa khoảng 16.000 sự kiện và thử nghiệm hệ thống trên 13 mô hình ngôn ngữ lớn từ Claude, Gemini, GPT và PaLM-2. Kết quả cho thấy trong quá trình phân tích tập trung 100 sự kiện gây tranh cãi, độ chính xác phán đoán của SAFE đạt 76% khi xem xét lại. Đồng thời, khuôn khổ này cũng có những lợi thế về mặt kinh tế: rẻ hơn 20 lần so với chú thích thủ công.

Các dịch vụ tại Terus Technology:

Thiết kế website

Thiết kế website bán hàng

Dịch vụ SEO website

Dịch vụ chạy quảng cáo Facebook Ads

Dịch vụ chạy quảng cáo Google Ads