Daftar Isi
- Pengumuman Resmi: Model AI Multimodal Buatan Lokal, Skala Global
- Dukungan untuk Asisten Suara: Lebih Responsif, Lebih Cerdas
- AI yang Bisa Berjalan di Ponsel: On-Device, Hemat Daya, Tetap Kuat
- Perbandingan: Alibaba vs Pemain Besar Lain
- Potensi Aplikasi: Dari Navigasi Suara Hingga AI Visual Asisten
- Strategi Alibaba: Dominasi AI dari Perangkat, Bukan Cloud Saja
- Peran Bamaha Digital
- Kesimpulan
Pada suatu pagi di Hangzhou, seorang pengembang aplikasi lokal mencoba sesuatu yang baru. Ia mengucapkan perintah ke ponselnya, “Tunjukkan gambar kucing tersenyum dan jelaskan kenapa ekspresinya seperti itu.” Tanpa harus terhubung ke server luar atau layanan cloud besar, ponselnya langsung menampilkan gambar sekaligus menjawab, “Ini kucing tersenyum karena sedang mendapatkan camilan.”
Yang menjawab itu bukan Google Assistant. Bukan Siri. Tapi sebuah model AI buatan Alibaba.
Dan di sinilah cerita besar dimulai.
Alibaba Group, melalui unit cloud-nya, baru saja memperkenalkan model AI multimodal generatif terbaru yang tak hanya mampu memproses teks, gambar, dan suara secara bersamaan—tetapi juga berjalan langsung di perangkat (on-device AI) dan mendukung asisten suara cerdas.
Langkah ini menandai ambisi Alibaba untuk tidak hanya bersaing di pasar cloud dan e-commerce, tetapi juga menjadi pemain utama dalam dunia AI perangkat mobile. Dalam rilis resminya, dikutip dari Reuters dan South China Morning Post (Mei 2025), Alibaba menyebut model ini sebagai bagian dari strategi jangka panjang untuk “mendemokratisasi kecerdasan buatan di level perangkat.”
Pengumuman Resmi: Model AI Multimodal Buatan Lokal, Skala Global
Model AI multimodal ini diluncurkan dalam ekosistem Tongyi Qianwen, generasi terbaru dari model LLM milik Alibaba Cloud. Berbeda dari pendahulunya, versi terbaru ini:
- Dapat memahami dan merespons input multimodal: teks, gambar, dan suara
- Dirancang untuk berjalan langsung di perangkat mobile dengan efisiensi tinggi
- Sudah mulai diimplementasikan pada perangkat pintar ekosistem Alibaba, termasuk Tmall Genie (asisten suara)
Menurut laporan internal Alibaba Cloud, model ini mampu diproses pada perangkat dengan RAM 6GB dan tanpa GPU eksternal—menandakan bahwa era AI edge computing semakin nyata.
Dukungan untuk Asisten Suara: Lebih Responsif, Lebih Cerdas
Alibaba mengintegrasikan model ini ke dalam asisten suara Tmall Genie. Hasilnya:
- Waktu respon lebih cepat karena tidak tergantung koneksi internet stabil
- Mampu memahami konteks lebih kompleks dari perintah suara pengguna
- Bisa menginterpretasi gambar dan teks dalam satu permintaan
Dalam demonstrasi resminya, pengguna dapat berkata, “Lihat gambar ini dan beri tahu saya apakah ada bahaya,” dan asisten akan menjawab dengan analisis visual dan teks secara bersamaan.
AI yang Bisa Berjalan di Ponsel: On-Device, Hemat Daya, Tetap Kuat
Salah satu aspek paling revolusioner dari model ini adalah kemampuannya untuk beroperasi di perangkat mobile secara lokal. Ini menjawab tantangan lama dari banyak produsen dan pengembang:
- Ketergantungan pada cloud membuat AI lambat di jaringan lemah
- Privasi sering jadi isu karena data dikirim keluar perangkat
- Asisten suara sulit dipakai di wilayah tanpa koneksi stabil
Model AI dari Alibaba ini menyelesaikan semua itu. Dengan ukuran model yang dioptimalkan dan dukungan arsitektur edge, ponsel bisa menjalankan asisten AI multimodal yang memahami visual, teks, dan suara—langsung tanpa server tambahan.
Perbandingan: Alibaba vs Pemain Besar Lain
| Aspek | Model Alibaba | Gemini (Google) | GPT-4o (OpenAI) |
|---|---|---|---|
| Multimodal | Ya | Ya | Ya |
| Bisa on-device | Ya (ponsel dengan 6GB RAM) | Belum stabil (masih eksperimen) | Tidak (cloud-based) |
| Fokus aplikasi | Asisten suara, mobile AI | Search & Workspace AI | General-purpose AI |
| Asal dan kendali data | Lokal (on-device) | Cloud Google | Cloud OpenAI/Microsoft |
Alibaba tampaknya menyasar celah yang belum maksimal digarap para raksasa AS: membawa kecerdasan AI ke dalam genggaman secara penuh, tanpa koneksi.
Potensi Aplikasi: Dari Navigasi Suara Hingga AI Visual Asisten
Model ini berpotensi digunakan untuk:
- Aplikasi navigasi suara dalam kendaraan otonom
- Aplikasi pendamping tunanetra berbasis kamera
- Asisten belajar multimodal untuk siswa
- Filter keamanan otomatis dari gambar/video
- Aplikasi percakapan cerdas tanpa internet
Semua itu bisa berjalan di perangkat, tanpa perlu server eksternal—membuka peluang besar bagi pengembang aplikasi mobile dan produsen perangkat edge.
Strategi Alibaba: Dominasi AI dari Perangkat, Bukan Cloud Saja
Alibaba tidak sekadar meluncurkan model AI. Ini adalah bagian dari rencana besar untuk menjadi pemimpin dalam:
- AI edge computing di Asia Pasifik
- Asisten virtual terintegrasi di smart home
- Platform open model untuk pengembang global
Menurut CTO Alibaba Cloud, model ini akan “dilokalkan, dibuka untuk mitra, dan diperluas secara bertahap ke berbagai jenis perangkat pintar.”
Peran Bamaha Digital
Bamaha Digital siap membantu para pengembang aplikasi, analis, jurnalis, dan produsen perangkat yang ingin memahami dan menerapkan AI multimodal dalam produk mereka. Kami menjembatani kebutuhan akan:
- Informasi praktis tentang implementasi AI on-device
- Analisis perbandingan antar model global
- Strategi pengembangan produk berbasis AI lokal
Kami juga menyediakan pelatihan dan pendampingan bagi pelaku industri yang ingin memanfaatkan model AI efisien untuk produk masa depan mereka.
Kesimpulan
Rilis model AI multimodal oleh Alibaba bukan hanya pembuktian bahwa teknologi AI tidak dimonopoli oleh Barat. Ini adalah pernyataan bahwa masa depan asisten cerdas tidak harus bergantung pada cloud, dan bahwa perangkat di saku kita bisa secerdas pusat data—dengan kecepatan, privasi, dan kenyamanan sekaligus.
Dengan perkembangan ini, apakah kita sedang menyaksikan awal dari revolusi baru dalam interaksi manusia dan perangkat pintar?




