Bạn đã từng nghe đến Foundation Models, Multimodal AI hay những mô hình như CLIP, SAM, DINOv2,… nhưng chưa biết cách chúng thực sự vận hành ra sao?

Workshop #7 chính là cơ hội để bạn trực tiếp trải nghiệm các ứng dụng mạnh mẽ nhất của những mô hình này thông qua các demo thực hành trên Google Colab.

Thời gian: 20h-21h , ngày 22/8/2025
Hình thức: Online qua Google Meet
Link tham gia: https://meet.google.com/vvv-vvvo-fsf

 

Nội dung demo thực hành bao gồm:

- Zero-shot Object Detection – Phát hiện đối tượng trong ảnh mà không cần huấn luyện lại, sử dụng Grounding DINO.
- Image Retrieval – Tìm kiếm hình ảnh dựa trên đặc trưng học được từ DINOv2.
- Video Object Segmentation – Phân đoạn đối tượng trong video với Segment Anything Model (SAM).
- Vision–Language Alignment – Liên kết hình ảnh và ngôn ngữ bằng CLIP.
- Text-to-Image Generation – Sinh ảnh từ mô tả văn bản với VQGAN + CLIP.
- Visual Question Answering (VQA) – Hỏi đáp dựa trên hình ảnh với BLIP.

 

Đây là những ví dụ thực tiễn và sinh động, giúp bạn hiểu rõ cách các Foundation Models đang được ứng dụng trong thị giác máy tính và AI đa phương thức – từ nhận diện đối tượng, tìm kiếm ảnh, phân đoạn video đến tạo ảnh và trả lời câu hỏi trực quan.

Ngoài ra, Workshop còn giới thiệu thêm các chủ đề nâng cao:
- Thị giác 3D
- Mô hình kết hợp Vision–Language–Action
- Và mở rộng những nội dung đã học trong các buổi trước.

 z6926271768428 ef299ec11de82583b98cb55955faa879

Đừng bỏ lỡ! Nếu bạn quan tâm đến AI, thị giác máy tính hoặc chỉ đơn giản muốn thấy AI hoạt động "thật" như thế nào – thì Workshop này dành cho bạn!

Hẹn gặp bạn tại Workshop #7!