[RECAP WORKSHOP #7] Ứng dụng Foundation Models và Multimodal AI trong Thị giác máy tính
- Thời gian: 20h00 – 22h00, ngày 22/8/2025
- Hình thức: Trực tuyến qua Google Meet
Tối ngày 22/8/2025, buổi Seminar chuyên đề về Foundation Models và Multimodal Models đã được tổ chức với sự tham gia của đông đảo sinh viên quan tâm đến lĩnh vực trí tuệ nhân tạo, đặc biệt là các ứng dụng trong thị giác máy tính và AI đa phương thức.
Buổi seminar tập trung vào các demo trực tiếp trên Google Colab, giúp người học không chỉ tiếp cận lý thuyết mà còn quan sát cách các mô hình hiện đại được ứng dụng trong thực tế.

🔬 Nội dung demo nổi bật:
• Image Retrieval: Tìm kiếm ảnh dựa trên đặc trưng học từ DINOv2.

• Video Object Segmentation: Phân đoạn đối tượng trong video bằng Segment Anything Model (SAM).

• Vision–Language Alignment: Kết nối hình ảnh và ngôn ngữ thông qua CLIP.


• Visual Question Answering (VQA): Trả lời câu hỏi từ hình ảnh với BLIP.

________________________________________
🔍 Đây là những minh hoạ sống động cho cách mà Foundation Models đang cách mạng hóa thị giác máy tính – từ nhận diện đối tượng, phân tích video, tìm kiếm nội dung, đến tạo ảnh và tương tác tự nhiên giữa người và máy thông qua ngôn ngữ và hình ảnh.
Bên cạnh đó, seminar cũng tổng kết và nối tiếp các nội dung đã được trình bày ở buổi trước
________________________________________
🎯 Buổi seminar không chỉ giúp sinh viên mở rộng góc nhìn về AI đa phương thức, mà còn truyền cảm hứng để ứng dụng các công nghệ nền tảng vào nghiên cứu, đồ án và sản phẩm sáng tạo cá nhân.
📌 Hẹn gặp lại các bạn trong các buổi seminar tiếp theo với nhiều chủ đề chuyên sâu và thực tiễn hơn nữa!
VI
EN