Mô hình ngôn ngữ lớn (LLM) là gì?
Lịch sử phát triển từ Markov → RNN → LSTM → Transformer → GPT
1. Giới thiệu
Mô hình ngôn ngữ lớn (Large Language Model – LLM) là gì mà khiến cả thế giới phải dõi theo? người người phải cài thử 1 chiếc app có tích hợp các mô hình này để hỏi thử 1 câu xem nó “khôn” đến đâu? cổ phiếu của những hãng công nghệ lớn lao dốc khi 1 mô hình mới(deepseek) trình làng? …
Nay tôi xin phép được mở đầu chuỗi bài viết về LLM để chúng ta – 1 công ty công nghệ “hàng đầu” khu vực Đình Thôn có thêm những hiểu biết về lĩnh vực này.
Để biết đâu 1 ngày nào đó chúng ta sẽ làm cổ phiếu của 1 vài hãng công nghệ lớn trên thế giới phải “cúi đầu” trước DeGPT.
Thôi tạm mơ ước đến đó. Quay lại với LLM, cụ thể nó là gì? Tôi có dùng chính ChatGPT – 1 ứng dụng LLM của OpenAI để hỏi khái niệm này thì có câu trả lời như sau:
LLM là những mô hình học sâu (Deep Learning) được huấn luyện trên khối lượng dữ liệu khổng lồ, có khả năng hiểu và tạo ra ngôn ngữ tự nhiên với chất lượng gần giống con người.
Rất tự nhiên và giống con người =))
Tuy nhiên, để có được những mô hình “khôn” như GPT-4 hay LLaMA khiến thế giới thay đổi như ngày nay, lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) đã trải qua một chặng đường dài phát triển.
Bài viết này, ta sẽ điểm qua các giai đoạn quan trọng trong sự phát triển của LLM: từ Mô hình Markov, RNN, LSTM đến Transformer và GPT.
2. Giai đoạn đầu: Mô hình Markov và N-gram

Trước khi có các mô hình học sâu, NLP chủ yếu dựa trên các mô hình thống kê như N-gram và Mô hình Markov ẩn (HMM).
• Mô hình N-gram dự đoán từ tiếp theo dựa trên n-1 từ trước đó. Ví dụ, với mô hình 3-gram (trigram), câu “Tôi đang đi” có thể dự đoán từ tiếp theo là “ẻ” =))) dựa trên xác suất thống kê.
• HMM (Hidden Markov Model) giúp xác định các chuỗi từ có thể xuất hiện liên tiếp, hữu ích trong các tác vụ như nhận dạng giọng nói.
Nhược điểm của các mô hình này là chúng không thể xử lý ngữ cảnh dài vì chỉ dựa vào một số từ trước đó và không có khả năng học hỏi từ dữ liệu lớn.
Bài viết này chỉ điểm qua tiến trình của các mô hình sơ khai, nếu muốn tìm hiểu sâu hơn, ace có thể nghiên cứu thêm dựa vào các keyword tôi đã đưa ra ở trên.
3. Sự xuất hiện của Recurrent Neural Networks (RNNs)

Khi mạng nơ-ron nhân tạo (Neural Networks) trở nên phổ biến, Mạng nơ-ron hồi quy (RNNs) được phát triển để xử lý dữ liệu tuần tự như văn bản và âm thanh.
RNN hoạt động như thế nào?
RNN có một trạng thái ẩn (hidden state) lưu giữ thông tin từ các từ trước đó, giúp mô hình nhớ ngữ cảnh trong câu. Điều này giúp RNN có thể tạo ra câu hợp lý hơn so với N-gram.
Nhược điểm của RNN
Mặc dù tốt hơn so với N-gram, nhưng RNN gặp vấn đề:
• Vanishing Gradient (Độ dốc biến mất): Khi câu quá dài, RNN mất dần khả năng ghi nhớ thông tin xa.
• Không học được ngữ cảnh dài: Chỉ nhớ tốt trong phạm vi vài từ gần nhất.
Ví dụ, nếu ta có câu “Tôi sống ở Hà Nội. Thành phố này rất đẹp.”, RNN có thể gặp khó khăn khi kết nối “Thành phố này” với “Hà Nội”.
4. Cải tiến với Long Short-Term Memory (LSTM)
Để giải quyết vấn đề của RNN, LSTM được giới thiệu vào năm 1997 bởi Hochreiter & Schmidhuber.
LSTM hoạt động như thế nào?
LSTM có ba cổng (gates):
1. Forget Gate (Cổng quên): Xác định thông tin nào nên được quên.
2. Input Gate (Cổng đầu vào): Xác định thông tin nào nên được lưu vào bộ nhớ.
3. Output Gate (Cổng đầu ra): Quyết định giá trị nào sẽ được truyền ra ngoài.
Nhờ cơ chế này, LSTM có thể ghi nhớ thông tin lâu hơn so với RNN, giúp xử lý ngữ cảnh tốt hơn.
Nhược điểm của LSTM
• Tốn nhiều tài nguyên tính toán hơn RNN.
• Vẫn chưa thể học tốt các mối quan hệ dài hạn trong văn bản.
5. Bước ngoặt: Transformer và Self-Attention
Năm 2017, bài báo “Attention Is All You Need” của nhóm nghiên cứu Google đã giới thiệu kiến trúc Transformer, tạo ra một cuộc cách mạng trong NLP.
Transformer hoạt động như thế nào?
Khác với RNN và LSTM, Transformer không xử lý từng từ một cách tuần tự mà sử dụng Self-Attention, giúp mô hình nhìn toàn bộ câu cùng lúc.
Cơ chế Self-Attention
Thay vì đọc từ theo thứ tự, Self-Attention giúp mô hình hiểu mối quan hệ giữa các từ bất kể khoảng cách. Ví dụ:
• Trong câu “Hà Nội là thủ đô của Việt Nam. Thành phố này rất đẹp.”, Transformer có thể liên kết “Thành phố này” với “Hà Nội” một cách chính xác.
Lợi ích của Transformer
• Xử lý ngữ cảnh dài tốt hơn RNN/LSTM.
• Tính toán nhanh hơn do có thể chạy song song.
Sau Transformer, hàng loạt mô hình mới ra đời, như BERT, GPT, T5, LLaMA, Gemini, Deepseek,…
6. GPT: Mô hình ngôn ngữ tạo sinh mạnh mẽ

GPT (Generative Pre-trained Transformer) do OpenAI phát triển là một trong những mô hình nổi bật và đi đầu dựa trên Transformer.
GPT hoạt động như thế nào?
GPT sử dụng mô hình học tự giám sát, với hai giai đoạn chính:
1. Pretraining (Huấn luyện trước): GPT học từ hàng tỷ văn bản để nắm bắt ngữ cảnh và quan hệ giữa các từ.
2. Fine-tuning (Tinh chỉnh): Điều chỉnh mô hình cho các tác vụ cụ thể như chatbot, dịch thuật, tóm tắt văn bản…
Các phiên bản GPT
• GPT-1 (2018): Mô hình đầu tiên của OpenAI, hiệu suất còn hạn chế.
• GPT-2 (2019): Nâng cấp lớn, có thể tạo văn bản tự nhiên hơn.
• GPT-3 (2020): Một trong những mô hình mạnh nhất thời điểm đó với 175 tỷ tham số.
• GPT-4 (2023): Tiếp tục cải thiện chất lượng, khả năng suy luận và xử lý đa ngôn ngữ.
Nhờ những tiến bộ này, AI giờ đây có thể tạo nội dung tự nhiên, dịch thuật, viết code, làm thơ, tán tỉnh,… và hỗ trợ con người trong nhiều lĩnh vực.
💡 Trong bài viết tiếp theo, ta sẽ đi sâu vào Transformer và tại sao nó lại cách mạng hóa NLP! 🚀
ACE nếu có hứng thú và muốn contribute thì hãy “lên bài” ngay trên Cobunka nhé!