[RECAP WORKSHOP #7] Ứng dụng Foundation Models và Multimodal AI trong Thị giác máy tính

- Thời gian: 20h00 – 22h00, ngày 22/8/2025

- Hình thức: Trực tuyến qua Google Meet

Tối ngày 22/8/2025, buổi Seminar chuyên đề về Foundation Models và Multimodal Models đã được tổ chức với sự tham gia của đông đảo sinh viên quan tâm đến lĩnh vực trí tuệ nhân tạo, đặc biệt là các ứng dụng trong thị giác máy tính và AI đa phương thức.

Buổi seminar tập trung vào các demo trực tiếp trên Google Colab, giúp người học không chỉ tiếp cận lý thuyết mà còn quan sát cách các mô hình hiện đại được ứng dụng trong thực tế.

292f6d31 a47e 477e 8a01 86e16337b11d

🔬 Nội dung demo nổi bật:

Image Retrieval: Tìm kiếm ảnh dựa trên đặc trưng học từ DINOv2.

z6934494589121 845657ebf8398331289d507f686adcaa

Video Object Segmentation: Phân đoạn đối tượng trong video bằng Segment Anything Model (SAM).

z6935743555349 9a863a91df6e002774dc6fc0edbc51ba

Vision–Language Alignment: Kết nối hình ảnh và ngôn ngữ thông qua CLIP.

z6934674070267 aebf64d6abd6a55597f6022980b1370a

z6934704337436 3d3b4162b51d9aea64272ce02fb2440c

Visual Question Answering (VQA): Trả lời câu hỏi từ hình ảnh với BLIP.

z6934712773407 be4e2e5672a2b3a8a327b21a2154e87a

________________________________________

🔍 Đây là những minh hoạ sống động cho cách mà Foundation Models đang cách mạng hóa thị giác máy tính – từ nhận diện đối tượng, phân tích video, tìm kiếm nội dung, đến tạo ảnh và tương tác tự nhiên giữa người và máy thông qua ngôn ngữ và hình ảnh.

Bên cạnh đó, seminar cũng tổng kết và nối tiếp các nội dung đã được trình bày ở buổi trước

________________________________________

🎯 Buổi seminar không chỉ giúp sinh viên mở rộng góc nhìn về AI đa phương thức, mà còn truyền cảm hứng để ứng dụng các công nghệ nền tảng vào nghiên cứu, đồ án và sản phẩm sáng tạo cá nhân.

📌 Hẹn gặp lại các bạn trong các buổi seminar tiếp theo với nhiều chủ đề chuyên sâu và thực tiễn hơn nữa!