Sora sẽ không thay thế con người, và đây là lý do



Chúng tôi là công ty Công nghệ Terus, Công ty thiết kế website uy tín tại Hồ Chí Minh và cung cấp các dịch vụ liên quan đến digital. Terus đem tới các dịch vụ: Thiết kế websitedịch vụ quảng cáo Facebook Adsdịch vụ chạy quảng cáo Google Adsdịch vụ SEO tổng thể,...

OpenAI đã phát hành mô hình chuyển văn bản thành video Sora vào sáng sớm ngày 16 tháng 2, gây ra một loạt các cú sốc và tiếng reo hò trong giới công nghệ và truyền thông. Ngay lập tức, các video giống như vụ nổ do Sora tạo ra, được đăng trên trang web OpenAI, đã lan truyền rộng rãi trên mạng. Khi sử dụng Sora, người ta chỉ cần nhập lời nhắc văn bản để có được một video dài tới 60 giây, chứa các cảnh chi tiết phức tạp, biểu cảm nhân vật sống động và chuyển động máy quay phức tạp, gần như không thể phân biệt được với thực tế. Cư dân mạng đã thốt lên rằng AI đang cách mạng hóa các ngành công nghiệp như phim ảnh, video ngắn và trò chơi, một số người thậm chí còn phóng đại khi nói rằng 'thế giới thực không còn tồn tại nữa!' Viễn cảnh con người bị AI thay thế có vẻ gần hơn.

Sự kiện này khiến chúng ta kinh ngạc trước làn sóng cách mạng công nghệ mới do Sora tạo ra, có lẽ sẽ sớm hạ thấp rào cản đối với những người bình thường trong việc sản xuất video, với công việc quay và biên tập phức tạp bị bỏ qua, và trí tưởng tượng cùng sự sáng tạo của mọi người trở thành nguồn lực thiết yếu nhất của sức cạnh tranh nội dung video. Do đó, 'các công ty một người' và các nhóm cực kỳ nhỏ cũng có thể hoàn thành các bộ phim và nội dung video mà trước đây đòi hỏi rất nhiều nhân lực và chi phí. Làn sóng công nghệ mang đến cả sự ngưỡng mộ và mong đợi, cũng như lo ngại về việc bị thay thế và tan vỡ.

Sora không hiểu thế giới vật chất và thiếu 'mô hình thế giới' Tuy nhiên, trong những ngày gần đây, tôi đã quan sát thấy rằng các nhà khoa học và nhiều người trong ngành đứng đầu công nghệ vẫn đang thảo luận nhiều nhất về vấn đề 'mô hình thế giới' của Sora. Các video do Sora tạo ra có hình ảnh cực kỳ sống động và mạch lạc, với một số video gần như không thể phân biệt được với video do con người tạo ra. Điều này không đơn giản; nó đòi hỏi máy móc phải hiểu được cấu trúc, chi tiết, quỹ đạo chuyển động và những thay đổi về sáng tối của thế giới thực mà không vi phạm nhận thức của con người. Một số người tin rằng Sora hiểu được thế giới vật lý, sở hữu dạng phôi thai của một 'mô hình thế giới'. Mô hình thế giới của AI có thể được coi là mô hình tinh thần của nó, phản ánh sự hiểu biết và kỳ vọng của hệ thống trí tuệ nhân tạo về chính nó và thế giới bên ngoài. Lấy mô hình thế giới của con người làm ví dụ, thuật ngữ 'mô hình' ngụ ý rằng tất cả kiến thức mà chúng ta hiểu không được lưu trữ dưới dạng một đống sự kiện mà được tổ chức theo một cấu trúc phản ánh thế giới và mọi thứ mà nó chứa đựng. Chúng ta không nhớ một loạt các sự kiện về từng vật thể nhưng lại xây dựng vô số mô hình trong não, chẳng hạn như mô hình 'cổng thành phố' và 'rìu xương hông', mỗi mô hình có hình dạng, cách sắp xếp riêng và cách các bộ phận khác nhau di chuyển và hoạt động cùng nhau. Để nhận ra một thứ gì đó, chúng ta biết hình dáng và kết cấu của nó; để đạt được mục tiêu, chúng ta hiểu được hành vi điển hình của những thứ trên thế giới khi tương tác với chúng ta, chẳng hạn như một quả táo sẽ có vết cắn như thế nào nếu bị cắn. Tuy nhiên, nhiều nhà khoa học tin rằng Sora không hiểu thế giới vật lý và thiếu 'mô hình thế giới'.

Người đoạt giải Turing Yann LeCun tin rằng việc tạo ra các video thực tế chỉ dựa trên lời nhắc không nhất thiết cho thấy sự hiểu biết của mô hình về thế giới vật lý; quá trình tạo video hoàn toàn khác với các dự đoán nhân quả dựa trên mô hình thế giới.

Francois Chollet , tác giả của khuôn khổ học sâu ' Keras ' và là nhà nghiên cứu AI của Google, cho rằng các mô hình như Sora thực sự có thể nhúng một 'mô hình vật lý', nhưng câu hỏi đặt ra là: Mô hình vật lý này có chính xác không? Nó có thể khái quát hóa thành các tình huống mới ngoài việc chỉ nội suy dữ liệu đào tạo không?

Các video do Sora tạo ra có một số lỗi, chẳng hạn như cảnh quay góc nhìn thứ nhất về những con kiến đang bò trong tổ nhưng chỉ nhìn thấy bốn chân khi quan sát kỹ; video quay cảnh một người chạy trên máy chạy bộ thì quay theo hướng ngược lại, và video quay cảnh 'một con vịt lớn đi ngang qua đường phố Boston' thì con vịt giẫm lên một người.

Nhà khoa học nghiên cứu cấp cao của Nvidia, Jim Fan, đưa ra hai lời giải thích khả thi cho vấn đề này: (1) Mô hình có thể thiếu hiểu biết về vật lý, chỉ lắp ráp các điểm ảnh hình ảnh một cách ngẫu nhiên hoặc (2) Mô hình cố gắng xây dựng một công cụ vật lý bên trong, nhưng hiệu suất của nó lại kém.

Những người trong ngành tin rằng Sora sử dụng phương pháp "thô bạo", tận dụng lượng lớn dữ liệu, mô hình lớn và sức mạnh tính toán đáng kể, với việc sử dụng cơ bản các mô hình thế giới đã được xác thực trong các lĩnh vực trò chơi, lái xe tự động và robot để xây dựng mô hình chuyển văn bản thành video, cho phép mô phỏng thế giới.

Tuy nhiên, điều này cũng giống như việc học các quy luật của thế giới thông qua việc "đọc hình ảnh" rộng rãi, mặc dù hợp lý nhưng không thể học được các quy luật của thế giới có thể suy ra bằng vật lý, chẳng hạn như các định luật của Newton.

Cuối cùng, con người không phát minh ra máy bay bằng cách bắt chước chim mà bằng cách hiểu khí động học. Sora thực sự đánh dấu một cột mốc khác trong AI, hứa hẹn sẽ đơn giản hóa đáng kể lao động của con người, giảm các thuộc tính 'giống công cụ' của con người và hỗ trợ hoặc đảm nhận một phần một số nhiệm vụ nhất định. Tuy nhiên, việc thay thế con người thực sự hoặc phá vỡ thực tế có vẻ còn quá sớm.

Các dịch vụ tại Terus Technology:

Thiết kế website

Thiết kế website bán hàng

Dịch vụ SEO website

Dịch vụ chạy quảng cáo Facebook Ads

Dịch vụ chạy quảng cáo Google Ads