Hướng dẫn sử dụng Ollama để chạy LLM AI local

F T E C H X S O L U T I O N S

Loading...

Mục Lục

Trong bối cảnh AI đang bùng nổ mạnh mẽ, việc phụ thuộc hoàn toàn vào các nền tảng cloud không còn là lựa chọn duy nhất. Doanh nghiệp và cá nhân ngày càng quan tâm đến việc triển khai mô hình ngôn ngữ lớn (LLM) ngay trên máy tính nội bộ – vừa đảm bảo riêng tư, vừa kiểm soát chi phí. Ollama nổi lên như một giải pháp đơn giản nhưng mạnh mẽ, giúp bạn vận hành AI local mà không cần hệ thống phức tạp.

Bài viết này sẽ hướng dẫn chi tiết cách sử dụng Ollama để chạy LLM local, từ cài đặt đến tối ưu, phù hợp cho cả developer lẫn người làm sản phẩm công nghệ.


Ollama là gì?

Ollama là một công cụ giúp bạn tải và chạy các mô hình ngôn ngữ lớn (LLM) trực tiếp trên máy tính cá nhân. Nó đóng vai trò như một “engine AI local”, cho phép bạn tương tác với các model như Llama, Mistral, Gemma… mà không cần gửi dữ liệu lên server bên ngoài.

Điểm mạnh của Ollama nằm ở sự đơn giản:

  • Cài đặt nhanh
  • Lệnh CLI dễ dùng
  • Tích hợp API local
  • Hỗ trợ nhiều model phổ biến

Nói một cách thẳng thắn: nếu bạn muốn “nuôi AI trong nhà”, Ollama là một trong những con đường ngắn nhất.


Vì sao nên dùng LLM local với Ollama?

1. Bảo mật dữ liệu tuyệt đối

Dữ liệu không rời khỏi máy. Không có chuyện prompt hay thông tin nhạy cảm bị gửi lên server bên thứ ba.

2. Tiết kiệm chi phí dài hạn

Không còn phải trả tiền theo token hay API call. Chỉ cần đầu tư phần cứng ban đầu.

3. Tùy biến linh hoạt

Bạn có thể:

  • Fine-tune model
  • Chạy offline
  • Tích hợp vào hệ thống nội bộ

4. Hiệu suất ổn định

Không phụ thuộc vào mạng hay API rate limit.


Yêu cầu hệ thống

Để chạy Ollama hiệu quả, bạn nên chuẩn bị:

  • CPU: tối thiểu 4 core
  • RAM: từ 8GB (khuyến nghị 16GB trở lên)
  • GPU (không bắt buộc nhưng rất nên có): NVIDIA hỗ trợ CUDA
  • Dung lượng ổ cứng: từ 10GB trở lên

Nếu bạn chỉ test nhẹ, CPU vẫn đủ. Nhưng nếu muốn chạy model lớn, GPU là con đường không thể né.


Cài đặt Ollama

Trên macOS và Linux

Mở terminal và chạy:

curl -fsSL https://ollama.com/install.sh | sh

Trên Windows

  • Tải file cài đặt từ trang chính thức
  • Cài như phần mềm bình thường

Sau khi cài xong, kiểm tra:

ollama –version

Nếu hiển thị version, bạn đã sẵn sàng.


Chạy model đầu tiên

Ollama hỗ trợ tải và chạy model chỉ bằng một dòng lệnh.

Ví dụ chạy model Llama:

ollama run llama3

Lần đầu sẽ mất thời gian tải model. Sau đó bạn có thể chat trực tiếp trong terminal.

Đây là khoảnh khắc thú vị: AI đang chạy ngay trên máy bạn, không cần internet.


Một số model phổ biến

Bạn có thể thử các model sau:

  • llama3: cân bằng giữa hiệu năng và chất lượng
  • mistral: nhẹ, phản hồi nhanh
  • gemma: tối ưu tốt cho local
  • codellama: dành cho lập trình

Ví dụ:

ollama run mistral

Quản lý model

Xem danh sách model đã tải

ollama list

Xóa model

ollama rm llama3

Tải model mới

ollama pull llama3

Sử dụng Ollama như một API server

Ollama không chỉ là CLI, nó còn cung cấp API local để bạn tích hợp vào ứng dụng.

Khởi động server

ollama serve

Mặc định chạy tại:

http://localhost:11434

Gửi request

Ví dụ dùng curl:

curl http://localhost:11434/api/generate -d ‘{
“model”: “llama3”,
“prompt”: “Viết đoạn giới thiệu về AI”
}’

Bạn sẽ nhận được response dạng JSON.


Tích hợp với ứng dụng

Bạn có thể dùng Ollama trong:

  • Web app (Node.js, Python)
  • Chatbot nội bộ
  • Tool automation
  • Hệ thống CRM, ERP

Ví dụ với Node.js:

const res = await fetch(“http://localhost:11434/api/generate”, {
method: “POST”,
body: JSON.stringify({
model: “llama3”,
prompt: “Giải thích DevOps”
})
});

Tạo model tùy chỉnh (Modelfile)

Ollama cho phép bạn tạo model riêng bằng Modelfile.

Ví dụ:

FROM llama3

SYSTEM “Bạn là chuyên gia marketing”

Sau đó build:

ollama create mymodel -f Modelfile

Chạy:

ollama run mymodel

Đây là bước nâng cấp: bạn bắt đầu “huấn luyện hành vi” cho AI theo mục tiêu riêng.


Tối ưu hiệu suất

1. Chọn model phù hợp

Không phải lúc nào model lớn cũng tốt. Với máy yếu, model nhẹ sẽ hiệu quả hơn.

2. Giảm context length

Giảm độ dài input giúp tiết kiệm RAM.

3. Sử dụng GPU

Nếu có GPU, hiệu suất tăng đáng kể.

4. Chạy song song hợp lý

Tránh chạy nhiều instance nếu máy không đủ mạnh.


Các lỗi thường gặp

1. Thiếu RAM

Triệu chứng: máy lag, crash

Giải pháp:

  • Dùng model nhỏ hơn
  • Tăng RAM

2. Model chạy chậm

Nguyên nhân:

  • CPU yếu
  • Không có GPU

Giải pháp:

  • Dùng mistral thay vì llama lớn

3. Không kết nối được API

Kiểm tra:

  • Server đã chạy chưa
  • Port 11434 có bị chặn không

Ứng dụng thực tế

Khi đã làm chủ Ollama, bạn có thể triển khai:

1. Chatbot nội bộ

Không phụ thuộc OpenAI, dữ liệu không bị lộ.

2. AI viết content

Tự động tạo bài viết, email, mô tả sản phẩm.

3. Code assistant

Dùng codellama để hỗ trợ lập trình.

4. Phân tích dữ liệu nội bộ

Kết hợp với database để hỏi đáp thông minh.


So sánh Ollama với giải pháp cloud

Tiêu chí Ollama Cloud AI
Bảo mật Cao Trung bình
Chi phí dài hạn Thấp Cao
Triển khai Dễ Dễ
Hiệu suất Phụ thuộc máy Ổn định
Tùy biến Cao Hạn chế

Khi nào nên dùng Ollama?

Bạn nên chọn Ollama nếu:

  • Muốn bảo mật dữ liệu tuyệt đối
  • Muốn tiết kiệm chi phí API
  • Có đội dev nội bộ
  • Muốn xây hệ sinh thái AI riêng

Ngược lại, nếu bạn cần scale lớn ngay lập tức, cloud vẫn là lựa chọn hợp lý.


Góc nhìn chiến lược

AI không còn là công cụ, nó đang trở thành hạ tầng. Và hạ tầng thì không thể phụ thuộc hoàn toàn vào bên ngoài.

Việc chạy LLM local bằng Ollama giống như việc bạn sở hữu một “nhà máy tri thức” riêng. Ban đầu có thể nhỏ, nhưng nếu xây đúng cách, nó sẽ trở thành lợi thế cạnh tranh dài hạn.

Người đi nhanh dùng API.
Người đi xa xây hệ thống.


Kết luận

Ollama mang đến một cách tiếp cận thực tế và hiệu quả để triển khai AI local. Không cần hạ tầng phức tạp, không cần ngân sách lớn, bạn vẫn có thể vận hành LLM ngay trên máy cá nhân.

Nếu bạn đang xây dựng sản phẩm công nghệ, hệ thống automation, hay đơn giản là muốn hiểu sâu về AI, thì đây không phải là lựa chọn nên thử – mà là lựa chọn nên làm ngay.

Một khi bạn đã quen với việc AI chạy ngay trong máy mình, bạn sẽ không còn muốn quay lại phụ thuộc hoàn toàn vào cloud nữa.

Đánh giá mức độ hữu ích của bài viết

Cảm ơn bạn đã đánh giá!