Mô hình trí tuệ nhân tạo đa giác quan mã nguồn mở của Meta, tích hợp sáu loại dữ liệu như văn bản, âm thanh, thị giác

2023-05-10 08:20 0
Tin tức từ quảng châu, ngày 10 tháng 5 năm 2023 -- công ty Meta đã công bố một mô hình trí tuệ nhân tạo mã nguồn mở mới, ImageBind, có khả năng kết hợp nhiều luồng dữ liệu, bao gồm văn bản, âm thanh, dữ liệu hình ảnh, nhiệt độ và đọc chuyển động. Hiện tại, mô hình này chỉ là một dự án nghiên cứu, chưa có người tiêu dùng trực tiếp hay ứng dụng thực tế, nhưng nó cho thấy khả năng của những hệ thống trí tuệ nhân tạo tạo ra trong tương lai, những hệ thống này có thể tạo ra những trải nghiệm đa giác quan, hoà nhập. Mô hình cũng cho thấy sự cởi mở của Meta trong lĩnh vực nghiên cứu trí tuệ nhân tạo, trong khi các đối thủ cạnh tranh như OpenAI và Google đang trở nên ngày càng khép kín. Khái niệm cốt lõi của nghiên cứu này là tích hợp nhiều loại dữ liệu vào một chỉ mục đa chiều (hoặc, dùng thuật ngữ trí tuệ nhân tạo, "không gian nhúng"). Khái niệm này có thể hơi trừu tượng, nhưng nó là nền tảng cho sự bùng nổ trí tuệ nhân tạo gần đây. Ví dụ, máy tạo hình trí tuệ nhân tạo, như dall-e, flat Diffusion, Midjourney, vân vân, phụ thuộc vào hệ thống kết nối văn bản và hình ảnh trong giai đoạn huấn luyện. Chúng liên kết thông tin này với mô tả của hình ảnh trong khi tìm kiếm các mẫu trong dữ liệu hình ảnh. Đó là lý do tại SAO những hệ thống này có thể tạo ra hình ảnh dựa trên đầu vào văn bản của người dùng. Điều tương tự cũng đúng với nhiều công cụ trí tuệ nhân tạo có khả năng tạo ra video hoặc âm thanh theo cùng một cách. Công ty Meta nói mô hình ImageBind là mô hình đầu tiên kết hợp sáu loại dữ liệu vào một không gian nhúng. Sáu loại dữ liệu này bao gồm: hình ảnh (bao gồm hình ảnh và video); Nhiệt độ (ảnh hồng ngoại); Văn bản; Âm thanh; Thông tin sâu; Và loại thú vị nhất -- chỉ số chuyển động được tạo ra bởi các đơn vị đo quán tính (IMU). IMU tồn tại trong điện thoại di động và đồng hồ thông minh để thực hiện các nhiệm vụ khác nhau, từ điện thoại di động chuyển từ màn hình ngang sang màn hình dọc, để phân biệt các loại chuyển động khác nhau.

hệ thống trí tuệ nhân tạo trong tương lai sẽ có khả năng tham chiếu chéo các dữ liệu này như hệ thống hiện tại cho nhập liệu văn bản. Ví dụ, hãy tưởng tượng một thiết bị thực tế ảo trong tương lai có khả năng không chỉ tạo ra đầu vào âm thanh và hình ảnh mà còn tạo ra chuyển động của môi trường và nền tảng vật lý mà bạn đang ở. Bạn có thể yêu cầu nó mô phỏng một chuyến đi dài trên biển, và nó không chỉ đưa bạn lên một con tàu mà còn có âm thanh của sóng biển làm nền, mà nó còn cho phép bạn cảm nhận được sự rung động của boong tàu dưới chân và gió thổi qua biển. Công ty Meta đã viết trên blog rằng các mô hình trong tương lai cũng có thể thêm vào các luồng đầu vào cảm giác khác, bao gồm "xúc giác, giọng nói, mùi và tín hiệu chức năng của não mri". Công ty cũng khẳng định rằng nghiên cứu này "đưa máy móc đến gần hơn khả năng học tập của con người cùng một lúc, toàn diện, trực tiếp từ nhiều dạng thông tin khác nhau." Tất nhiên, rất nhiều trong số đó dựa trên dự đoán, và có khả năng ứng dụng trực tiếp của nghiên cứu này sẽ rất hạn chế. Ví dụ, năm ngoái, công ty Meta giới thiệu một mô hình trí tuệ nhân tạo có khả năng tạo ra những đoạn phim ngắn nhưng mờ nhạt dựa trên mô tả văn bản. Các nghiên cứu như ImageBind cho thấy cách các phiên bản tương lai của hệ thống có thể kết hợp các luồng dữ liệu khác, chẳng hạn như tạo ra âm thanh khớp với đầu ra video. Nghiên cứu này cũng rất thú vị đối với các nhà quan sát công nghiệp, bởi vì các biên tập viên nhận thấy rằng Meta là một nguồn mở cho mô hình cơ bản, và đó là một hành động đang ngày càng được chú ý trong lĩnh vực trí tuệ nhân tạo.

Source: Thông cáo báo chí doanh nghiệp
Thông cáo báo chí Truyền thông nước ngoài công bố thông cáo quảng cáo công bố họp báo công bố thông cáo báo chí Truyền thông nước ngoài công bố thông cáo báo chí mời truyền thông nước ngoài công bố thông cáo báo chí