3 tháng 4, 2026 · Hoàng Sơn · 4 phút đọc
Microsoft dual-track model không hề mâu thuẫn
Microsoft dual-track model không hề mâu thuẫn
Hôm qua (ngày 2/4), Microsoft AI công bố ba model nền tảng mới: MAI-Transcribe-1 cho phiên âm giọng nói đa ngôn ngữ, MAI-Voice-1 cho tổng hợp giọng nói, và MAI-Image-2 cho tạo ảnh. Cả ba đều được phát hành trên Microsoft Foundry và một số đã có mặt trên MAI Playground.
Phản ứng đầu tiên của nhiều người là: Vậy Microsoft có đang cắt nguồn với OpenAI không?
Câu trả lời: không — và hiểu sai điều này sẽ khiến mình đánh giá sai toàn bộ chiến lược của Microsoft trong 2-3 năm tới.

Những gì Microsoft vừa ra mắt
Ba model này được phát triển bởi đội MAI Superintelligence do Mustafa Suleyman — CEO Microsoft AI — dẫn dắt, thành lập tháng 11/2025. Đây là đội nghiên cứu riêng của Microsoft, khác với đội OpenAI.
Điểm đáng chú ý về kỹ thuật:
- MAI-Transcribe-1: phiên âm 25 ngôn ngữ, nhanh gấp 2.5x Azure Fast hiện tại; giá $0.36/giờ
- MAI-Voice-1: tổng hợp 60 giây audio trong 1 giây, hỗ trợ custom voice; $22 per 1M ký tự
- MAI-Image-2: text-to-image; $5 per 1M token đầu vào, $33 per 1M token đầu ra
Điểm bán hàng của Microsoft: rẻ hơn Google và OpenAI. Đây là dấu hiệu rõ rằng họ không tìm cách cạnh tranh về frontier reasoning — họ cạnh tranh bằng chi phí vận hành thực tế cho doanh nghiệp.
Tại sao mình không gọi đây là “thoát OpenAI”
Có một cách phổ biến để đọc tin này: Microsoft đang chuẩn bị cho ngày hậu-OpenAI, xây dựng phương án dự phòng, dần dần giảm phụ thuộc.
Cách đọc đó đúng một phần — nhưng thiếu context quan trọng.
Mustafa Suleyman chính xác là người đã khẳng định lại trong cuộc phỏng vấn với VentureBeat: Microsoft vẫn cam kết partnership với OpenAI. Partnership đó vừa được tái cấu trúc, cho phép Microsoft chủ động hơn trong nghiên cứu riêng — nhưng không phải là đứt gãy.
Điều đang xảy ra là một cấu trúc thực dụng hơn: Microsoft cả hai. Họ mua chip từ cả Nvidia, AMD, lẫn tự sản xuất. Họ dùng model từ OpenAI, Google (qua Azure Marketplace), Mistral, Meta, Anthropic — và bây giờ thêm model tự xây.
Bài học cấu trúc cho doanh nghiệp AI
Cái mình thấy đáng học từ Microsoft không phải là họ tự xây được model — mà là cách họ cấu trúc chiến lược AI: đa nguồn, đa lớp, không lock-in đơn điểm.
Khi một tổ chức lớn phụ thuộc hoàn toàn vào một vendor AI duy nhất — dù là OpenAI, Anthropic, hay bất kỳ ai — họ đang nhận rủi ro giá, rủi ro availability, và rủi ro alignment. Microsoft đang giải quyết cả ba bằng cách:
- Có model riêng cho các use case cụ thể (speech, image) không cần frontier reasoning
- Giữ partnership chiến lược với OpenAI cho các use case frontier
- Cung cấp hạ tầng (Azure, Foundry) để trở nên indispensable bất kể vendor nào thắng
Đây là vị trí trung gian mà chỉ Microsoft — và có lẽ Google — mới có thể chiếm.
Cái gì sẽ diễn ra tiếp theo
Mình dự đoán trong 12 tháng tới, chúng ta sẽ thấy thêm model từ Microsoft, đặc biệt cho các use case doanh nghiệp như email auto-draft, meeting transcription, và tương tác giao diện Copilot.
Suleyman đã nói rõ: “Bạn sẽ sớm thấy thêm nhiều model từ chúng tôi trên Foundry và trực tiếp trong các sản phẩm, trải nghiệm của Microsoft.”
Cái quan trọng hơn việc các model đó tốt đến đâu là: Microsoft đang tạo ra lớp giữa giữa AI lab và người dùng doanh nghiệp. Và vị trí đó — tích hợp sẵn trong hàng trăm triệu seat Microsoft 365 — khó bị thay thế hơn bất kỳ model cụ thể nào.
Read Next
Best next articles
Selected by shared category and tags so readers stay in one learning track.