WORKSHOP ONLINE #5 – CƠ SỞ MÔ HÌNH HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Khoa Công nghệ Phần mềm trân trọng giới thiệu buổi học thứ năm trong chuỗi Workshop Training Nghiên cứu Khoa học hè 2025 – nơi giúp sinh viên:

Tiếp cận các mô hình học sâu nền tảng cho xử lý ngôn ngữ tự nhiên (NLP)
Hiểu quy trình cơ bản trong xây dựng ứng dụng NLP từ dữ liệu đến mô hình
Chuẩn bị kiến thức nền cho đồ án, khóa luận và các cuộc thi học thuật liên quan đến ngôn ngữ và AI

A computer program for a machine learning

AI-generated content may be incorrect.

🔍 Sequence Model – Nền tảng của các mô hình xử lý ngôn ngữ hiện đại

Trong các tác vụ xử lý ngôn ngữ tự nhiên, dữ liệu đầu vào là chuỗi (sequence) – từ văn bản, câu nói đến đoạn hội thoại. Sequence model như RNN, LSTMGRU ra đời để xử lý loại dữ liệu này, cho phép mô hình nắm bắt ngữ cảnh và mối quan hệ giữa các từ.

Không giống các phương pháp truyền thống chỉ dựa vào thống kê đơn giản, các mô hình này có khả năng học quan hệ phụ thuộc dài hạn trong văn bản, giúp cải thiện đáng kể hiệu quả ở các bài toán như dịch máy, phân loại văn bản, và phân tích cảm xúc.

Ví dụ:
Mô hình ngôn ngữ (Language Model) truyền thống như n-gram chỉ xét ngữ cảnh rất ngắn
LSTM có thể ghi nhớ thông tin ở các vị trí cách xa hàng chục từ, từ đó dịch chính xác hơn hoặc phân loại cảm xúc tinh tế hơn

Bên cạnh đó, việc biểu diễn ngôn ngữ cũng tiến hóa từ TF-IDF – phương pháp dựa trên tần suất – sang word embedding như Word2Vec, GloVe, giúp mô hình hiểu được sự tương đồng ngữ nghĩa giữa các từ.

📚 Nội dung chính của buổi workshop #5

Giới thiệu về sequence model
Mô hình RNN, LSTM, GRU
Các bước cơ bản trong xử lý ngôn ngữ tự nhiên
Mô hình ngôn ngữ
Biểu diễn ngôn ngữ: TF-IDF và word embedding
Các bài toán cơ bản trong xử lý ngôn ngữ tự nhiên

 Thông tin buổi workshop thứ năm
Chủ đề: Cơ sở mô hình học sâu trong xử lý ngôn ngữ tự nhiên
Thời gian: 20h00 – 21h00, Thứ Sáu, ngày 08/08/2025
Hình thức: Trực tuyến (Link:  https://meet.google.com/vvv-vvvo-fsf)