Ulasan lengkap: Bagaimana Manus lahir?

Menengah3/17/2025, 7:40:21 AM
Artikel ini memberikan analisis mendalam tentang latar belakang kelahiran Manus.im, konsep produk, dan praktik inovatifnya di bidang kecerdasan buatan.

Kisah kewirausahaan yang paling banyak mendapat penyemangat spiritual tahun lalu berasal dari pendiri Dify Zhang Luyu.

Pertama kali saya bertemu dengannya adalah di acara “Xixi Taoism” pada tahun 2023. Di antara nama-nama bintang yang hadir, Zhang Luyu tidak mencolok. Ketika kami bertemu lagi pada tahun 2024, Dify sudah menjadi kisah lain - seorang pengusaha tanpa latar belakang glamor, yang membuat salah satu produk sumber terbuka AI paling sukses di dunia di tengah keraguan semua orang tentang model bisnis.

Apa yang terjadi pada perusahaan ini dalam satu tahun, seperti popularitasnya yang tak terduga di pasar Jepang, yang “konvensional dan mudah untuk dibela namun sulit untuk diserang”, membantu saya lebih memahami “kewirausahaan”. Ini sebagian besar kebetulan, dan juga memerlukan keberuntungan. Pada akhirnya, Anda perlu memiliki kemampuan untuk menemukan jalan keluar dari perubahan dan kegagalan yang terus menerus.

Sekarang, sebuah cerita serupa terjadi pada seorang pengusaha terkenal lainnya—Manus.im Xiao Hong dan timnya.

Empat bulan yang lalu, Xiao Hong menyebutkan kebingungan, “Tim ini pintar dalam melangkah dari 0 ke 1 dan memiliki kemampuan yang kuat untuk menangkap peluang. Begitu mulai dari 1 ke N, keadaannya tidak begitu baik.”

Dalam pengalaman masa lalunya, sebagian besar proyek kewirausahaan telah mencapai pendapatan yang relatif stabil dan considerable, dan perusahaan terakhirnya juga berhasil diakuisisi. Pada tahun 2023, perusahaannya yang baru, “Butterfly Effect”, bahkan menggunakan sebuah perangkat tambahan browser, Monica.im, untuk bersaing dalam naratif AI dari ratusan model dan menjadi salah satu aplikasi AI yang berkembang paling cepat dengan pengalaman produk yang luar biasa. Tampaknya dia adalah seorang wirausahawan yang telah memiliki perjalanan yang mulus. Dia baru berusia 32 tahun ketika dapat melakukan hal-hal ini.

Namun nyatanya, dia tidak merasa terlalu bahagia. Dalam pandangan Xiao Hong, apa yang disebut "keluar terus menerus dari pengusaha" dan apa yang disebut perasaan menyegarkan terus-menerus dari 0 menjadi 1 seperti pengepungan - kemampuan untuk memanfaatkan peluang dari 0 hingga 1 sangat kuat dan sangat memuaskan, tetapi di sisi lain, Anda juga khawatir apakah Anda perlu melakukannya lagi.

Pada tahun 2024, para ahli industri percaya bahwa asisten AI dengan fungsi memori seperti Monica.im akan menghadapi tekanan dari lawan yang kuat seperti Doubao, dan tidak akan semudah pada tahun 2023. Monica.im memiliki awal yang baik dari 0 ke 1, tetapi tidak selalu menjadi hit dari 1 ke N.

Dan alasan mengapa dia bingung adalah karena "tim benar-benar akan melakukan hal-hal yang lebih sulit dan hal-hal dengan langit-langit yang lebih tinggi selanjutnya" dan mengeksplorasi hal-hal yang dapat mencakup dari 1 hingga N.

Sebelumnya, banyak suara yang memperhatikan Monica.im mengasumsikan bahwa ini "sesuatu yang lebih sulit dan dengan langit-langit yang lebih tinggi" mengacu pada browser AI yang telah banyak dirumorkan namun belum dirilis oleh tim. Melihatnya sekarang, memang benar bahwa saya salah menebak.

Penjelajahan yang lebih sulit ini sebenarnya: Membuang browser AI yang telah mencapai status rilis, mencari produk AI berikutnya yang memiliki momen "ChatGPT", menemukan tujuan agen universal, dan menciptakan rilis terbaru dari Manus.im.

Sejauh mana Manus inovatif dan tingkat apa yang dapat dicapainya di masa depan saat ini menjadi topik hangat. Tetapi yang patut diamati adalah arah yang ditemukan dalam "hal-hal yang berlawanan dengan harapan" dan proses menemukan arah tersebut. Manus.im mungkin tidak dapat memungkinkan tim ini menyelesaikan hal-hal dari 1 hingga N, atau bahkan mengulang momen Monica.im, tetapi seperti nama perusahaan ini - "Efek Kupu-kupu", banyak tindakan kecil dan keputusan tanpa disadari memiliki dampak yang mendalam pada masa depan, "Menghubungkan Titik-titik", jalan ke esokan hari akan tersembunyi dalam pengalaman hari ini.

Pengalaman produk unik Manus berasal dari pelajaran yang dipetik dari pembuatan "browser AI"

Sejak pertengahan hingga akhir tahun lalu, tim “Butterfly Effect” browser AI telah menjadi rahasia “semi-publik” di industri. Produk yang secara resmi diumumkan ke publik adalah Manus, yang menarik perhatian yang tak terkendali.

Jika Anda secara pribadi telah mengalami Manus atau menonton video demonstrasinya, Anda akan merasakan bahwa itu memiliki perbedaan yang signifikan dibandingkan dengan chatbot atau beberapa aplikasi berbasis agen: Manus dapat menjalankan tugas secara asinkron dan sekaligus.

Ketika Anda membuka aplikasi seperti Doubao, Kimi, atau sesuatu seperti Penggunaan Komputer dan mengirimkan pertanyaan, Anda harus menunggu balasannya. Sebaliknya, jika Anda berbicara padanya saat sedang membalas atau melakukan tugas, balasan/tugas sebelumnya akan terganggu, dan Anda hanya dapat memiliki percakapan relay A-B-A-B dengannya.

Namun, di Manus.im, meskipun masih terlihat seperti produk chatbot, Anda dapat bertanya 20 pertanyaan agar ia dapat melakukan tugas secara bersamaan. Anda dapat melakukan hal lain di komputer selain itu, menonton video, menulis dokumen, bermain game, dll., tanpa menunda pekerjaannya. Manus dapat memberi tahu Anda begitu tugas-tugas ini selesai atau masalah terjadi selama eksekusi. Jika Anda melihat penyimpangan dalam pemikirannya saat menjalankan tugas, Anda dapat menambahkan kata-kata prompt ke dalam dialog box kapan saja, dan ia akan terus memikirkan dan menjalankan tugas dengan konteks baru.

Pengalaman ini bersifat asinkron dan dapat diparellelkan, dan benar-benar terasa seperti memiliki tim intern sungguhan yang dapat membantu Anda bekerja.

Sebenarnya, desain arsitektur produk Manus untuk pengalaman asinkron berasal dari pelajaran yang tim pelajari dari produk sebelumnya yang tidak diungkapkan, yaitu browser AI. Pada saat yang sama, ini juga merupakan alasan mengapa tim menginvestasikan banyak energi tetapi memutuskan untuk berhenti bekerja pada browser pada bulan Oktober tahun lalu.

Perusahaan Browser mengumumkan pada 25 Oktober 2024 bahwa mereka akan berhenti mengembangkan fitur-fitur baru untuk browser Arc dan memutuskan untuk mentransfer sumber daya ke browser baru Dia, dengan tujuan menciptakan browser AI yang lebih sederhana dan mudah digunakan.

"Dalam browser AI, AI terus-menerus mengganggu pengguna." Karena ini adalah skenario yang dirancang untuk pengguna tunggal, begitu AI digunakan, Anda tidak dapat menggunakannya. Ketika AI mulai bekerja, Anda hanya bisa menonton AI bekerja, yang sulit untuk memulainya. Menonton AI merebut mouse dan komputer Anda, tidak hanya Anda tidak berani merebutnya, tetapi Anda juga takut bahwa tanpa sengaja menyentuh keyboard atau mouse akan menyebabkan seluruh proses runtuh dan memerlukan Anda untuk memulai dari awal lagi.

Ini memungkinkan tim untuk membuat dua penilaian:

  1. Langsung menggunakan komputer untuk melakukan Penggunaan Komputer tidak mungkin dilakukan dalam waktu singkat.
  2. AI seharusnya menggunakan browser, tetapi bukan di browser Anda. Seharusnya memiliki browser sendiri, lebih baik di cloud, dan akhirnya memberikan hasil kembali kepada Anda.

Dalam wawancara dengan Zhang Xiaojun dari Tencent Technology, Xiao Hong menyebutkan bahwa ketika tim sedang merangkum bentuk produk dari Jasper ke ChatGPT ke Monica ke Cursor ke Devin, mereka menemukan bahwa "programmer manusia" Devin sangat cocok untuk arsitektur pengalaman asinkron ini.

Tidak seperti saat menggunakan Windsurf, terkadang ia meminta Anda untuk mengonfirmasi apakah komputer Anda perlu menginstal perpustakaan ini; atau melakukan operasi baris perintah dan meminta Anda untuk mengisi ya atau tidak, karena itu benar-benar dapat merusak komputer Anda, atau ada konflik dengan sesuatu - ia meminta Anda untuk mengisi "ya" untuk melanjutkan ke langkah berikutnya, tetapi harus melewati kesalahan.

Oleh karena itu, menurut tim Manus, "Chatbot harus memiliki komputer di awan, dan kode yang ditulisnya serta hal-hal yang harus diperiksa melalui browser dieksekusi pada komputer tersebut. Karena itu adalah server virtual, tidak masalah jika server tersebut rusak, Anda dapat mendapatkan yang lain. Bahkan dapat melepaskan server setelah tugas saat ini selesai."

Perlu dicatat bahwa sementara Devin memilih bidang vertikal dan insinyur hardcore, tim Manus memilih asisten AI tingkat konsumen serbaguna, termasuk Web dan App. Ini adalah asisten AI serbaguna yang dapat memanggil alat dan menyelesaikan berbagai tugas dalam pekerjaan dan kehidupan sesuai instruksi. Di masa depan, itu juga akan memberikan hasil tugas dengan harga terjangkau bagi konsumen.

02 Lebih Sedikit Struktur, Lebih Banyak Intelijen

Dengan ide dan tujuan yang jelas, langkah berikutnya adalah mewujudkan ide tersebut. Bagaimana Manus melakukannya?

Menurut mitra produknya, Zhang Tao, ini memerlukan memasang komputer pada model besar, serta memberikannya izin sistem (akses ke API pribadi seperti gudang kode dan situs web kueri data profesional), dan memberikannya pelatihan tertentu.

Dengan cara ini, AI dapat menggunakan komputer ini untuk membuka browser, mengambil tindakan untuk menjadwalkan alat, dan kemudian mengamati dampak tindakannya di dunia nyata berdasarkan umpan balik yang dihasilkan oleh alat, kemudian memikirkan langkah selanjutnya, mengambil tindakan lagi, dan kemudian mengamati ... Ini adalah proses AI menyelesaikan tugas dalam eksplorasi dan penelitian. Selama periode ini, Manus juga akan semakin memahami kebutuhan Anda di bawah "pelatihan" Anda. Di masa depan, bahkan jika Anda tidak secara jelas mendefinisikan persyaratan Anda, itu masih dapat "mencari tahu makna suci" berdasarkan pengetahuan yang terkumpul dalam setiap tugas.

Li Bojie, jenius muda Huawei dan pendiri Logenic AI, percaya bahwa Manus memiliki fitur unik yang membuatnya berbeda dari produk lain: itu memecahkan masalah dengan cara programmer geek. |Sumber gambar: tangkapan layar WeChat

Konsep produk-produk Manus secara bertahap menjadi jelas selama praktik produk timnya: Kurang Struktur, Lebih Intelijen (Kurang Struktur, Lebih Intelijen).

Ini juga merupakan saat yang membuat tim Manus berpikir "A-Ha, tunggu!" Misalnya, inilah yang terjadi pada tim pada bulan Januari tahun ini:

Ketika Manus diminta untuk mencoba menjawab pertanyaan pada kumpulan tes GAIA: “Dalam tautan video YouTube yang mirip dengan gaya National Geographic, berbagai jenis penguin datang bolak-balik dan masuk dan keluar dari layar. Manus diminta untuk menghitung jumlah maksimum penguin yang muncul dalam satu frame pada saat yang sama. Berapa jenisnya?”

Lalu, sesuatu yang ajaib terjadi.

Manus pertama kali membuka tautan video, dan tindakan pertama yang dilakukannya adalah “Tekan K”. Kemudian ia mengambil tangkapan layar satu per satu untuk mencatat jenis penguin yang muncul di setiap bingkai. Akhirnya, ia menyimpulkan bahwa bingkai dengan paling banyak 3 jenis penguin muncul. Manus akan kembali memeriksanya selanjutnya, dan tindakan selanjutnya adalah “Tekan 3”... Setelah pemeriksaan akhir, jawabannya adalah 3.

Sebagai orang-orang di balik konstruksi Manus, kita seharusnya tahu batasan kemampuannya, namun bagi tim, kenyataannya adalah bahwa "selalu ada kejutan." Yang mengejutkan, bukan hanya Manus menjawab pertanyaan dengan benar, tetapi juga, teman-teman manusia yang telah menggunakan komputer dan Youtube selama bertahun-tahun mungkin tidak selalu tahu apa yang dimaksud dengan tombol "K" dan "3" di keyboard?

Melihat adegan yang agak linglung di depan mereka, tim mengikuti Manus dan melakukannya lagi. “K” pada keyboard adalah tombol jeda, yang memungkinkan Manus untuk mengambil tangkapan layar satu per satu setelah dijeda untuk mencatat penguin mana yang muncul di setiap bingkai; “3” juga merupakan tombol pintas, dari 0 hingga 9 masing-masing mewakili 0% hingga 90% dari batang kemajuan. 3 adalah 30% dari batang kemajuan. Ini dapat dengan tepat menentukan detik video tersebut dan kemudian memberi tahu manusia berapa banyak jenis penguin yang ada di gambar ini.

“Proses ini berbeda dari Chatbot tradisional. Pertama, ia dapat menonton gambar YouTube daripada subtitle. Kedua, kami bahkan menemukan bahwa ia menggunakan tombol pintasan YouTube. Kami sangat terkejut bahwa ia menjawab pertanyaan ini.” Xiao Hong juga menyebutkan adegan ini dalam wawancara sebelumnya dengan Tencent Technology.

Tiba-tiba, saya menemukan bahwa Manus tidak hanya lebih baik dalam pemrograman daripada manusia, tetapi pengetahuan Manus tentang Web dan Aplikasi yang digunakan orang setiap hari jauh melampaui imajinasi. Sebagai AI yang omniscient dan omnipotent, ia dapat memahami segala cara dan sarana dalam setiap alat, lalu memilih metode yang optimal.

Ini sekali lagi memungkinkan tim merasakan "Kurang Struktur, Lebih cerdas" - meminimalkan pembatasan buatan pada Kecerdasan Buatan dan memungkinkan Kecerdasan Buatan berfungsi melalui evolusi sendiri daripada mengajarkan apa yang harus dilakukan.

Di bagian paling bawah situs web resmi Manus, penemuan paling penting di balik Manus disajikan dengan diam: "Kurang Struktur, Lebih cerdas". |Sumber tangkapan layar: Manus

Ini adalah penjelasan dan pemikiran yang diperluas dari Peak, salah satu pendiri dan ilmuwan kepala dari “Butterfly Effect”, mengenai prinsip pertama yang paling penting di balik produk Manus - “Kurang Struktur, Lebih banyak kecerdasan” pada hari peluncuran produk Manus:

Ketika data Anda berkualitas tinggi, model Anda cukup cerdas, arsitektur Anda cukup fleksibel, dan rekayasa Anda cukup solid, konsep-konsep seperti Penggunaan Komputer, Penelitian Mendalam, dan Agen Kode akan berubah dari fitur produk menjadi kemampuan yang muncul secara alami.

Kembali ke prinsip-prinsip pertama juga memberi kita cara baru untuk memikirkan tentang bentuk produk:· Browser AI tidak menambahkan AI ke browser, tetapi membuat browser untuk AI;
Pencarian AI tidak mengingat dan merangkum dari indeks, tetapi memungkinkan AI untuk mendapatkan informasi dengan izin pengguna;
Mengoperasikan GUI tidak merebut kontrol perangkat pengguna, tetapi memungkinkan AI memiliki mesin virtualnya sendiri;
Menulis kode bukanlah tujuan akhir, tetapi merupakan medium umum untuk menyelesaikan berbagai masalah;
· Kesulitan dalam membuat sebuah situs web bukanlah membangun kerangka, tetapi membuat konten yang bermakna;
· Perhatian bukanlah satu-satunya yang anda butuhkan. Hanya dengan membebaskan perhatian pengguna, DAU dapat didefinisikan ulang;

Melalui penemuan dan praktik “Kurang Struktur, Lebih cerdas” berulang kali, Manus telah menghasilkan hasil yang melebihi harapan, termasuk lewat@1skor dalam benchmark GAIA melebihi skor OpenAI Deep Research di bawah kons@64; pada saat yang sama, dalam pengujian internal, Manus juga mampu langsung mencakup 76% dari skenario produk agen khusus di Y Combinator W25.

03 "Agen mungkin masalahnya adalah 'keselarasan' bukan masalah kemampuan model dasar"

Sekarang, nilai dari wawasan-wawasan ini sedang dibahas dalam skala yang lebih besar:

Clement Delangue, pendiri dan CEO Hugging Face, mengusulkan temuan Peak tentang Beberapa model dasar sumber terbuka hanya dilatih untuk "menjawab semua pertanyaan dalam satu putaran terlepas dari kompleksitas pertanyaan." Namun, ini adalah kebutuhan dalam skenario chatbot. Hanya melakukan beberapa post-training pada jalur agen dapat membuat perbedaan besar secara langsung. |Sumber tangkapan layar: X

Manus tidak memperkenalkan MCP (Model Context Protocol), tetapi memungkinkan Kecerdasan Buatan menulis kode sendiri untuk memanggil API untuk menangani berbagai tugas long-tail. |Sumber tangkapan layar: X

Dalam diskusi tentang Manus selama beberapa hari terakhir, salah satu pertanyaan paling umum yang pernah saya dengar adalah: Apakah "Agen AI universal" layak? Dimana batasnya?

Menurut Peak, karena interaksi antara orang dan dunia sebenarnya sangat standar, dengan mata, tangan, dan telinga, jika ruang tindakan sudah didefinisikan dengan baik, seharusnya memungkinkan untuk menyematkan agen ke dalam sebuah tautan yang awalnya dilakukan oleh manusia.

Karena orang dapat menggunakan berbagai alat untuk menyelesaikan operasi mendalam di bidang vertikal, jika seorang agen itu sendiri memiliki pengetahuan yang cukup baik, telah terlatih dengan baik, dan memiliki antarmuka yang baik untuk berinteraksi dengan dunia, seharusnya dapat bekerja seperti orang, bahkan memungkinkan agen menggunakan produk SaaS tertentu. Sebagai contoh, sebuah kasus pencarian rumah yang disajikan di situs web resmi Manus.im sebenarnya melibatkan membiarkan AI bekerja dengan produk SaaS yang didedikasikan untuk bidang real estat.

Dia percaya bahwa yang harus ditentukan dengan jelas adalah batas penggunaan alat agen, bukan kelompok orang yang dilayani. Manus tidak mensimulasikan orang yang melakukan hal-hal tertentu, juga bukan agen peran yang dibagi oleh R&D, manajer produk, dll.; Manus mensimulasikan orang yang dapat melakukan hal-hal, dan mensimulasikan bagaimana seorang magang bekerja.

Sistem multi-agent Manus merujuk pada pemisahan perencanaan dan pelaksanaan.

Untuk eksekutor (Executor), Manus mengadopsi Claude, yang saat ini memimpin dalam pemrograman, perencanaan jangka panjang, dan kemampuan pemecahan masalah secara bertahap, dan juga menggunakan serangkaian model Qwen untuk pelatihan lanjutan.

Kemarin, Manus juga mencapai kerja sama strategis dengan Alibaba Tongyi Qianwen, berkomitmen untuk mewujudkan semua fungsi Manus pada model-model domestik dan platform daya komputasi. |Sumber gambar: Manus

Di bagian perencana, Manus telah melakukan banyak pekerjaan.

Karena API atau model rak yang saat ini ada di pasar pada dasarnya disesuaikan untuk skenario robot obrolan, selama pelatihan, tidak peduli seberapa kompleks pengguna mengajukan pertanyaan, tujuan optimasi dari pelatihan adalah untuk menjawab pertanyaan pengguna dengan jelas dalam satu balasan, tetapi ini sebenarnya benar-benar bertentangan dengan perencanaan yang dibutuhkan oleh agen.

jadiJika model yang ada di pasar digunakan secara langsung dalam skenario agen tanpa "penyelarasan", model ini akan selalu bersemangat untuk sukses cepat dan memberikan hasil yang "kacau" dalam putaran dialog, seperti banyak ringkasan poin-poin.

"Metode penyelarasan harus berbeda. Tim kami percaya bahwa data yang berbeda diperlukan untuk melakukan penyelarasan khusus," kata Xiao Hong.

Pada bulan Oktober tahun lalu, Peak juga mencatat di Zhihu kemajuan dan kegagalan dari upaya untuk mereproduksi proyek minat OpenAI o1 - model open source Steiner. Sebenarnya, proyek ini sedang melakukan penelitian awal pada bagian perencanaan langkah demi langkah dari perencana Manus.

Secara umum, Manus mensimulasikan seseorang yang melakukan hal-hal. Ini adalah definisi produk tim tentang Manus sebagai asisten kecerdasan buatan serbaguna. Mengenai memikirkan batas-batasnya, tim mungkin masih menjelajahinya dan membutuhkan lebih banyak kasus pengguna.

Dalam wawancara dengan Tencent Technology yang dirilis sebelum peluncuran Manus, Xiao Hong sebenarnya menyebutkan pemikiran awalnya tentang keluwesan Manus. "Masalah inti yang sangat penting bagi manajer produk adalah mengendalikan harapan pengguna. Mengasumsikan bahwa itu bisa melakukan segalanya di dunia, seperti: Bagaimana saya bisa menghasilkan $1 juta? Ini bukan sesuatu yang seharusnya dilakukan oleh Agens. Tetapi jika kita dapat memberikan contoh-contoh yang lebih spesifik untuk membuat harapan semua orang lebih masuk akal, semua orang akan menggunakannya dengan lebih lancar."

04 "Shell memiliki kegunaan sendiri", tim yang paling memahami shell

Pada pagi hari tanggal 27 Februari, mitra produk Manus, Zhang Tao, dan ilmuwan kepala Ji Yichao (Peak) menangis ketika melihat hasil peringkat Manus.im. Kinerja Manus pada Benchmark GAIA melampaui Deep Research dari OpenAI, dan mencapai hasil yang tak terduga ini dengan biaya sekitar 1/10 dari biaya benchmark OpenAI ($2/tugas).


Sumber gambar: Manus.im

Sebuah tim puluhan orang menjadi salah satu tim pertama yang membuat produk agen universal ketika agen mencapai konsensus tentang persaingan di seluruh industri. Mereka juga unik dalam rekayasa produk dan pengalaman interaktif front-end.

Umpan balik positif dari hal-hal yang dilakukan lebih baik dari segalanya. Tidak ada insentif yang lebih baik bagi tim startup daripada ini. Tetapi sebelum itu, bagaimana Manus terjadi? Mengapa tim ini dibentuk?

Kemampuan model saat ini mampu menyelesaikan beberapa tugas kompleks multi-langkah. Tetapi tidak ada produk seperti itu, jadi tidak semua orang bisa merasakannya. Wawasan yang disebutkan Xiao Hong dalam wawancara sebelumnya dengan Tencent Technology dapat digunakan untuk memahami masalah ini.

Pada saat yang sama, tidak banyak tim yang memiliki kesempatan untuk mencoba produk-produk Agen. Karena membutuhkan banyak kemampuan komposit. Dia ingin bekerja pada Chatbot, beberapa yang terkait dengan pemrograman AI, dan terkait dengan browser, karena dia perlu memanggil browser, dan dia memiliki rasa batasan yang baik dari LLM - tingkat apa yang telah berkembang hingga saat ini, dan tingkat apa yang akan berkembang ke depan. Pertama-tama, tidak ada begitu banyak perusahaan yang memiliki kemampuan-kemampuan ini pada saat yang sama, dan perusahaan yang memiliki kemampuan ini mungkin sedang melakukan bisnis yang sangat spesifik saat ini. Beberapa teman sekelas kita kebetulan memiliki waktu untuk melakukan hal-hal ini bersama.

“tepat sekali”.

  • Ditemukan pada waktu yang tepat bahwa kemampuan model telah mencapai tingkat di mana ia dapat digunakan sebagai agen, tanpa harus menunggu model besar end-to-end seperti Operator untuk dirilis;
  • Saya juga kebetulan menemukan bahwa masalahnya adalah penjajaran;
  • Saya juga kebetulan telah melakukan semua fungsi yang diperluas oleh chatbot dan browser AI;
  • Pada saat yang sama, karena saya telah membuat produk aplikasi model berskala besar di dalam apa yang disebut sebagai “shell”, saya memiliki kesadaran yang tajam terhadap LLM;

Tim “Butterfly Effect” telah mencapai semua elemen untuk membuat agen universal seperti saat ini, sehingga sekarang ada agen universal dengan tingkat penyelesaian yang relatif tinggi dibandingkan dengan industri.

Ketika ditanya apa momen penentu ketika dia ingin memulai Manus, Peak mengembalikan lebih banyak detail. Dia mengatakan, “Sebenarnya tidak ada titik balik yang ‘bersih’ dalam kewirausahaan.” Semuanya koheren dan tidak memiliki batasan yang jelas.

Ketika membuat sebuah produk, saya juga sering memperhatikan situasi eksternal. Pada saat itu ada beberapa hal. Pertama, ketika saya membuat sebuah browser, saya membuat model sisi klien. Kemudian saya menemukan bahwa browser memerlukan rentang skenario yang sangat luas dan memiliki fitur-fitur yang berbeda. Selama proses tersebut, saya menemukan bahwa model dasar semakin kuat dengan laju yang dipercepat. Celah antara itu dan agen mungkin merupakan masalah penyelarasan. Meskipun dunia luar mungkin merasa bahwa model bahasa besar secara bertahap telah konvergen dan mengalami kebuntuan.

Pada saat yang sama, dunia luar juga sedang berubah. Cursor lepas landas awal tahun lalu, diikuti oleh Windsurf dan Devin. Ini sesuai dengan konteks yang sama. Agen populer di bidang pemrograman, dan jalannya menuju popularitas adalah progresif. Cursor adalah copilot bagi para programmer, yang meningkatkan efisiensi pemrograman. Mulai dari Windsurf, beberapa proses otomatis yang diperkenalkan secara bertahap, memungkinkan Anda memiliki kemampuan otomatisasi yang lebih kuat di mesin lokal Anda. Devin telah mencapai tingkat otomatisasi baru.

Tren VC juga konsisten. Misalnya, tahun lalu dan sebelumnya, YC berinvestasi di dua jenis perusahaan. Salah satunya adalah Browser cloud, seperti Browser base; jenis kedua adalah mesin virtual AI Sandbox ringan mirip e2b.

Hal ini menunjukkan bahwa “infrastruktur model ini berkembang dengan cepat, dan infrastruktur Infra juga berkembang dengan cepat. Selain itu, melihat bahwa produk eksternal secara bertahap mendapatkan lebih banyak penerimaan, kami merasa bahwa ini adalah arah yang layak untuk dikejar. Ini adalah proses yang sangat bertahap dan lancar. Selain itu, infrastruktur yang terakumulasi selama pengembangan browser seperti Chromium dapat bermigrasi secara mulus, itulah sebabnya kami berani mengembangkan browser di cloud.”

Secara ringkas, persepsi tajam dan akumulasi pengalaman dalam kebutuhan dan model yang disebut “shell” bersama-sama menciptakan Manus. Banyak skenario Monica memerlukan pelatihan pasca-model. Sementara itu, pelajaran paling penting “kurang struktur, lebih cerdas” telah diperkuat dalam praktik browser AI. Dia menemukan bahwa kemampuan model telah mencapai tingkat menjadi agen, tetapi masalahnya terletak pada penyejajaran. Yang diikuti adalah tiga bulan evolusi cepat untuk Manus.

Sebelumnya, tim “Butterfly Effect” pernah dipertanyakan mengenai nilai dari “penyusupan”. Tim tersebut membangun Monica dengan mengintegrasikan model-model besar yang sudah ada tanpa mengembangkan model-model besar sendiri. Mereka mengintegrasikan fungsi-fungsi seperti obrolan, pencarian, membaca, menulis, dan terjemahan. Mereka juga mengintegrasikan banyak skenario eksekusi tugas melalui API satu per satu. Hingga akhir tahun lalu, jumlah pengguna mencapai puluhan juta.

Sekarang, ketika Doubao, Quark, dan Yuanbao semuanya dengan gencar mempromosikan produk Monica mereka, dan ketika sebuah tim kecil menggunakan teknologi yang ada untuk menciptakan agen tingkat konsumen umum pertama, saatnya untuk memahami ulang "shell".

Apa sebenarnya "cangkang" dan "kerang"?

Menurut Xiao Hong, semua terobosan diciptakan oleh model, yang pada dasarnya berbasis model dan pertama kali model. Shell adalah untuk menampilkan inovasi teknis model dengan cara yang dapat dirasakan pengguna, dan untuk mengemas kemampuan inovatif model dengan cara yang paling dapat dirasakan pengguna.

Mulai dari definisi ini, Aplikasi DeepSeek (termasuk tampilan rantai pemikiran) adalah shell dari DeepSeek-R1, Cursor adalah shell dari Anthropic Sonnet 3.5, Perplexity adalah shell dari GPT-4, dan ChatGPT adalah shell dari InstructGPT.

Ketika kemampuan model berkembang dengan cepat, “cangkang” tersebut juga perlu berkembang. Setelah kemampuan setiap generasi model berkembang, bukanlah mutlak berasal dari produsen asli. Ini adalah produsen pihak ketiga yang menyajikan nilai yang dapat dirasakan oleh pengguna. Sama seperti Cursor memberikan nilai yang dapat dirasakan oleh pengguna untuk Claude 3.5 Sonnet.

Pada tanggal 5 Maret, ulang tahun kedua rilis Monica.im, jawaban mengapa lusinan orang ini telah mencapai pengalaman produk yang melebihi berbagai Penelitian Mendalam dan Operator OpenAI terletak pada pemahaman dan praktik cangkang.

Bagaimana cara membuat shell terbaik untuk model baru yang dapat digunakan sebagai agen?

Sebagai pembangun Manus, Zhang Tao meyakini, 'Melihat arsitektur keseluruhan dari latar belakangnya, kita melihat bahwa ada banyak pekerjaan yang belum selesai yang harus dilakukan di setiap tempat, dan setiap tempat tersebut adalah kunci kesuksesan, dan mereka semua tempat yang membuat permukaan produk berbeda.'

Dari sudut pandang tim, keuntungan terpenting adalah kecepatan inovasi. Kedua aplikasi dan model sekarang telah mencapai kondisi kejenuhan relatif. Satu-satunya kemampuan inti yang sebenarnya pada akhirnya adalah bergerak cepat, meskipun 'rodagigi data' dan 'efek jaringan' belum diverifikasi.

"Di bidang baru, semuanya tidak pasti dan tidak diketahui. Yang terpenting adalah kecepatan inovasi. Yang kami perjuangkan adalah eksplorasi, coba-coba ke berbagai arah, dan dengan cepat menemukan jalan yang benar." Tim Manus cukup fleksibel dalam hal filosofi manajemen, struktur organisasi, dan proses industri. Ketika peluang baru muncul, Anda dapat menggunakan sumber daya yang terbatas untuk menghubungkan semua sumber daya dari seluruh perusahaan, membuat keputusan dengan kecepatan yang sangat tinggi, dan beradaptasi dengan umpan balik tentang kesalahan.

Dari kiri ke kanan adalah ilmuwan kepala "Butterfly Effect" Peak, CEO Xiao Hong, dan mitra produk Zhang Tao | Sumber gambar: Internet

Mengenai ekspektasi Manus, Xiao Hong percaya bahwa "meskipun ada jendela waktu, itu layak untuk mencobanya." Dalam setahun terakhir, pemikirannya juga mengalami perubahan drastis. Misalnya, sekarang dia percaya bahwa "ketika Anda menyadari bahwa Anda berada di depan jadwal, Anda lebih agresif dan sangat agresif. Setelah meninjau hari ini, saya merasa bahwa Monica pada tahun 2023 kurang agresif." "Jika Anda tahu bahwa Anda sedang berinovasi dan Anda memimpin, Anda harus agresif."

Saya tidak tahu apakah Manus dapat memberikan Xiao Hong dan timnya pengalaman dan loncatan dari 1 ke N, tetapi tim ini yang paling mengetahui tentang 'shell' percaya dalam menciptakan dengan hati dan tangan sebagai satu kesatuan, dan juga percaya pada efek kupu-kupu yang dihasilkan oleh kreasi. Manus berasal dari moto di MIT: Mens at manus, yang menekankan kesatuan hati dan tangan. Ini tidak boleh bersifat optik, harus dilakukan, dan dapat berdampak pada dunia nyata, yang merupakan pengetahuan yang nyata.

Di masa depan, ketika lebih banyak deposit di belakang Manus diopen sourcekan, berbagai efek kupu-kupu yang lebih luas akan lebih dilepaskan.

Penolakan:

  1. Artikel ini diambil dari [ GEEEKPARK], dan hak cipta dimiliki oleh penulis asli [Wan Chen], jika Anda memiliki keberatan terhadap cetak ulang, silakan hubungi Gate Belajartim, tim akan menanganinya sesegera mungkin sesuai dengan prosedur yang relevan.

  2. Penyangkalan: Pandangan dan opini yang terdapat dalam artikel ini hanya mewakili pandangan pribadi penulis dan tidak merupakan saran investasi apa pun.

  3. Versi bahasa lain dari artikel diterjemahkan oleh tim Gate Learn dan tidak disebutkan dalam Gate.io, artikel yang diterjemahkan tidak boleh direproduksi, didistribusikan, atau diplagiatkan.

Ulasan lengkap: Bagaimana Manus lahir?

Menengah3/17/2025, 7:40:21 AM
Artikel ini memberikan analisis mendalam tentang latar belakang kelahiran Manus.im, konsep produk, dan praktik inovatifnya di bidang kecerdasan buatan.

Kisah kewirausahaan yang paling banyak mendapat penyemangat spiritual tahun lalu berasal dari pendiri Dify Zhang Luyu.

Pertama kali saya bertemu dengannya adalah di acara “Xixi Taoism” pada tahun 2023. Di antara nama-nama bintang yang hadir, Zhang Luyu tidak mencolok. Ketika kami bertemu lagi pada tahun 2024, Dify sudah menjadi kisah lain - seorang pengusaha tanpa latar belakang glamor, yang membuat salah satu produk sumber terbuka AI paling sukses di dunia di tengah keraguan semua orang tentang model bisnis.

Apa yang terjadi pada perusahaan ini dalam satu tahun, seperti popularitasnya yang tak terduga di pasar Jepang, yang “konvensional dan mudah untuk dibela namun sulit untuk diserang”, membantu saya lebih memahami “kewirausahaan”. Ini sebagian besar kebetulan, dan juga memerlukan keberuntungan. Pada akhirnya, Anda perlu memiliki kemampuan untuk menemukan jalan keluar dari perubahan dan kegagalan yang terus menerus.

Sekarang, sebuah cerita serupa terjadi pada seorang pengusaha terkenal lainnya—Manus.im Xiao Hong dan timnya.

Empat bulan yang lalu, Xiao Hong menyebutkan kebingungan, “Tim ini pintar dalam melangkah dari 0 ke 1 dan memiliki kemampuan yang kuat untuk menangkap peluang. Begitu mulai dari 1 ke N, keadaannya tidak begitu baik.”

Dalam pengalaman masa lalunya, sebagian besar proyek kewirausahaan telah mencapai pendapatan yang relatif stabil dan considerable, dan perusahaan terakhirnya juga berhasil diakuisisi. Pada tahun 2023, perusahaannya yang baru, “Butterfly Effect”, bahkan menggunakan sebuah perangkat tambahan browser, Monica.im, untuk bersaing dalam naratif AI dari ratusan model dan menjadi salah satu aplikasi AI yang berkembang paling cepat dengan pengalaman produk yang luar biasa. Tampaknya dia adalah seorang wirausahawan yang telah memiliki perjalanan yang mulus. Dia baru berusia 32 tahun ketika dapat melakukan hal-hal ini.

Namun nyatanya, dia tidak merasa terlalu bahagia. Dalam pandangan Xiao Hong, apa yang disebut "keluar terus menerus dari pengusaha" dan apa yang disebut perasaan menyegarkan terus-menerus dari 0 menjadi 1 seperti pengepungan - kemampuan untuk memanfaatkan peluang dari 0 hingga 1 sangat kuat dan sangat memuaskan, tetapi di sisi lain, Anda juga khawatir apakah Anda perlu melakukannya lagi.

Pada tahun 2024, para ahli industri percaya bahwa asisten AI dengan fungsi memori seperti Monica.im akan menghadapi tekanan dari lawan yang kuat seperti Doubao, dan tidak akan semudah pada tahun 2023. Monica.im memiliki awal yang baik dari 0 ke 1, tetapi tidak selalu menjadi hit dari 1 ke N.

Dan alasan mengapa dia bingung adalah karena "tim benar-benar akan melakukan hal-hal yang lebih sulit dan hal-hal dengan langit-langit yang lebih tinggi selanjutnya" dan mengeksplorasi hal-hal yang dapat mencakup dari 1 hingga N.

Sebelumnya, banyak suara yang memperhatikan Monica.im mengasumsikan bahwa ini "sesuatu yang lebih sulit dan dengan langit-langit yang lebih tinggi" mengacu pada browser AI yang telah banyak dirumorkan namun belum dirilis oleh tim. Melihatnya sekarang, memang benar bahwa saya salah menebak.

Penjelajahan yang lebih sulit ini sebenarnya: Membuang browser AI yang telah mencapai status rilis, mencari produk AI berikutnya yang memiliki momen "ChatGPT", menemukan tujuan agen universal, dan menciptakan rilis terbaru dari Manus.im.

Sejauh mana Manus inovatif dan tingkat apa yang dapat dicapainya di masa depan saat ini menjadi topik hangat. Tetapi yang patut diamati adalah arah yang ditemukan dalam "hal-hal yang berlawanan dengan harapan" dan proses menemukan arah tersebut. Manus.im mungkin tidak dapat memungkinkan tim ini menyelesaikan hal-hal dari 1 hingga N, atau bahkan mengulang momen Monica.im, tetapi seperti nama perusahaan ini - "Efek Kupu-kupu", banyak tindakan kecil dan keputusan tanpa disadari memiliki dampak yang mendalam pada masa depan, "Menghubungkan Titik-titik", jalan ke esokan hari akan tersembunyi dalam pengalaman hari ini.

Pengalaman produk unik Manus berasal dari pelajaran yang dipetik dari pembuatan "browser AI"

Sejak pertengahan hingga akhir tahun lalu, tim “Butterfly Effect” browser AI telah menjadi rahasia “semi-publik” di industri. Produk yang secara resmi diumumkan ke publik adalah Manus, yang menarik perhatian yang tak terkendali.

Jika Anda secara pribadi telah mengalami Manus atau menonton video demonstrasinya, Anda akan merasakan bahwa itu memiliki perbedaan yang signifikan dibandingkan dengan chatbot atau beberapa aplikasi berbasis agen: Manus dapat menjalankan tugas secara asinkron dan sekaligus.

Ketika Anda membuka aplikasi seperti Doubao, Kimi, atau sesuatu seperti Penggunaan Komputer dan mengirimkan pertanyaan, Anda harus menunggu balasannya. Sebaliknya, jika Anda berbicara padanya saat sedang membalas atau melakukan tugas, balasan/tugas sebelumnya akan terganggu, dan Anda hanya dapat memiliki percakapan relay A-B-A-B dengannya.

Namun, di Manus.im, meskipun masih terlihat seperti produk chatbot, Anda dapat bertanya 20 pertanyaan agar ia dapat melakukan tugas secara bersamaan. Anda dapat melakukan hal lain di komputer selain itu, menonton video, menulis dokumen, bermain game, dll., tanpa menunda pekerjaannya. Manus dapat memberi tahu Anda begitu tugas-tugas ini selesai atau masalah terjadi selama eksekusi. Jika Anda melihat penyimpangan dalam pemikirannya saat menjalankan tugas, Anda dapat menambahkan kata-kata prompt ke dalam dialog box kapan saja, dan ia akan terus memikirkan dan menjalankan tugas dengan konteks baru.

Pengalaman ini bersifat asinkron dan dapat diparellelkan, dan benar-benar terasa seperti memiliki tim intern sungguhan yang dapat membantu Anda bekerja.

Sebenarnya, desain arsitektur produk Manus untuk pengalaman asinkron berasal dari pelajaran yang tim pelajari dari produk sebelumnya yang tidak diungkapkan, yaitu browser AI. Pada saat yang sama, ini juga merupakan alasan mengapa tim menginvestasikan banyak energi tetapi memutuskan untuk berhenti bekerja pada browser pada bulan Oktober tahun lalu.

Perusahaan Browser mengumumkan pada 25 Oktober 2024 bahwa mereka akan berhenti mengembangkan fitur-fitur baru untuk browser Arc dan memutuskan untuk mentransfer sumber daya ke browser baru Dia, dengan tujuan menciptakan browser AI yang lebih sederhana dan mudah digunakan.

"Dalam browser AI, AI terus-menerus mengganggu pengguna." Karena ini adalah skenario yang dirancang untuk pengguna tunggal, begitu AI digunakan, Anda tidak dapat menggunakannya. Ketika AI mulai bekerja, Anda hanya bisa menonton AI bekerja, yang sulit untuk memulainya. Menonton AI merebut mouse dan komputer Anda, tidak hanya Anda tidak berani merebutnya, tetapi Anda juga takut bahwa tanpa sengaja menyentuh keyboard atau mouse akan menyebabkan seluruh proses runtuh dan memerlukan Anda untuk memulai dari awal lagi.

Ini memungkinkan tim untuk membuat dua penilaian:

  1. Langsung menggunakan komputer untuk melakukan Penggunaan Komputer tidak mungkin dilakukan dalam waktu singkat.
  2. AI seharusnya menggunakan browser, tetapi bukan di browser Anda. Seharusnya memiliki browser sendiri, lebih baik di cloud, dan akhirnya memberikan hasil kembali kepada Anda.

Dalam wawancara dengan Zhang Xiaojun dari Tencent Technology, Xiao Hong menyebutkan bahwa ketika tim sedang merangkum bentuk produk dari Jasper ke ChatGPT ke Monica ke Cursor ke Devin, mereka menemukan bahwa "programmer manusia" Devin sangat cocok untuk arsitektur pengalaman asinkron ini.

Tidak seperti saat menggunakan Windsurf, terkadang ia meminta Anda untuk mengonfirmasi apakah komputer Anda perlu menginstal perpustakaan ini; atau melakukan operasi baris perintah dan meminta Anda untuk mengisi ya atau tidak, karena itu benar-benar dapat merusak komputer Anda, atau ada konflik dengan sesuatu - ia meminta Anda untuk mengisi "ya" untuk melanjutkan ke langkah berikutnya, tetapi harus melewati kesalahan.

Oleh karena itu, menurut tim Manus, "Chatbot harus memiliki komputer di awan, dan kode yang ditulisnya serta hal-hal yang harus diperiksa melalui browser dieksekusi pada komputer tersebut. Karena itu adalah server virtual, tidak masalah jika server tersebut rusak, Anda dapat mendapatkan yang lain. Bahkan dapat melepaskan server setelah tugas saat ini selesai."

Perlu dicatat bahwa sementara Devin memilih bidang vertikal dan insinyur hardcore, tim Manus memilih asisten AI tingkat konsumen serbaguna, termasuk Web dan App. Ini adalah asisten AI serbaguna yang dapat memanggil alat dan menyelesaikan berbagai tugas dalam pekerjaan dan kehidupan sesuai instruksi. Di masa depan, itu juga akan memberikan hasil tugas dengan harga terjangkau bagi konsumen.

02 Lebih Sedikit Struktur, Lebih Banyak Intelijen

Dengan ide dan tujuan yang jelas, langkah berikutnya adalah mewujudkan ide tersebut. Bagaimana Manus melakukannya?

Menurut mitra produknya, Zhang Tao, ini memerlukan memasang komputer pada model besar, serta memberikannya izin sistem (akses ke API pribadi seperti gudang kode dan situs web kueri data profesional), dan memberikannya pelatihan tertentu.

Dengan cara ini, AI dapat menggunakan komputer ini untuk membuka browser, mengambil tindakan untuk menjadwalkan alat, dan kemudian mengamati dampak tindakannya di dunia nyata berdasarkan umpan balik yang dihasilkan oleh alat, kemudian memikirkan langkah selanjutnya, mengambil tindakan lagi, dan kemudian mengamati ... Ini adalah proses AI menyelesaikan tugas dalam eksplorasi dan penelitian. Selama periode ini, Manus juga akan semakin memahami kebutuhan Anda di bawah "pelatihan" Anda. Di masa depan, bahkan jika Anda tidak secara jelas mendefinisikan persyaratan Anda, itu masih dapat "mencari tahu makna suci" berdasarkan pengetahuan yang terkumpul dalam setiap tugas.

Li Bojie, jenius muda Huawei dan pendiri Logenic AI, percaya bahwa Manus memiliki fitur unik yang membuatnya berbeda dari produk lain: itu memecahkan masalah dengan cara programmer geek. |Sumber gambar: tangkapan layar WeChat

Konsep produk-produk Manus secara bertahap menjadi jelas selama praktik produk timnya: Kurang Struktur, Lebih Intelijen (Kurang Struktur, Lebih Intelijen).

Ini juga merupakan saat yang membuat tim Manus berpikir "A-Ha, tunggu!" Misalnya, inilah yang terjadi pada tim pada bulan Januari tahun ini:

Ketika Manus diminta untuk mencoba menjawab pertanyaan pada kumpulan tes GAIA: “Dalam tautan video YouTube yang mirip dengan gaya National Geographic, berbagai jenis penguin datang bolak-balik dan masuk dan keluar dari layar. Manus diminta untuk menghitung jumlah maksimum penguin yang muncul dalam satu frame pada saat yang sama. Berapa jenisnya?”

Lalu, sesuatu yang ajaib terjadi.

Manus pertama kali membuka tautan video, dan tindakan pertama yang dilakukannya adalah “Tekan K”. Kemudian ia mengambil tangkapan layar satu per satu untuk mencatat jenis penguin yang muncul di setiap bingkai. Akhirnya, ia menyimpulkan bahwa bingkai dengan paling banyak 3 jenis penguin muncul. Manus akan kembali memeriksanya selanjutnya, dan tindakan selanjutnya adalah “Tekan 3”... Setelah pemeriksaan akhir, jawabannya adalah 3.

Sebagai orang-orang di balik konstruksi Manus, kita seharusnya tahu batasan kemampuannya, namun bagi tim, kenyataannya adalah bahwa "selalu ada kejutan." Yang mengejutkan, bukan hanya Manus menjawab pertanyaan dengan benar, tetapi juga, teman-teman manusia yang telah menggunakan komputer dan Youtube selama bertahun-tahun mungkin tidak selalu tahu apa yang dimaksud dengan tombol "K" dan "3" di keyboard?

Melihat adegan yang agak linglung di depan mereka, tim mengikuti Manus dan melakukannya lagi. “K” pada keyboard adalah tombol jeda, yang memungkinkan Manus untuk mengambil tangkapan layar satu per satu setelah dijeda untuk mencatat penguin mana yang muncul di setiap bingkai; “3” juga merupakan tombol pintas, dari 0 hingga 9 masing-masing mewakili 0% hingga 90% dari batang kemajuan. 3 adalah 30% dari batang kemajuan. Ini dapat dengan tepat menentukan detik video tersebut dan kemudian memberi tahu manusia berapa banyak jenis penguin yang ada di gambar ini.

“Proses ini berbeda dari Chatbot tradisional. Pertama, ia dapat menonton gambar YouTube daripada subtitle. Kedua, kami bahkan menemukan bahwa ia menggunakan tombol pintasan YouTube. Kami sangat terkejut bahwa ia menjawab pertanyaan ini.” Xiao Hong juga menyebutkan adegan ini dalam wawancara sebelumnya dengan Tencent Technology.

Tiba-tiba, saya menemukan bahwa Manus tidak hanya lebih baik dalam pemrograman daripada manusia, tetapi pengetahuan Manus tentang Web dan Aplikasi yang digunakan orang setiap hari jauh melampaui imajinasi. Sebagai AI yang omniscient dan omnipotent, ia dapat memahami segala cara dan sarana dalam setiap alat, lalu memilih metode yang optimal.

Ini sekali lagi memungkinkan tim merasakan "Kurang Struktur, Lebih cerdas" - meminimalkan pembatasan buatan pada Kecerdasan Buatan dan memungkinkan Kecerdasan Buatan berfungsi melalui evolusi sendiri daripada mengajarkan apa yang harus dilakukan.

Di bagian paling bawah situs web resmi Manus, penemuan paling penting di balik Manus disajikan dengan diam: "Kurang Struktur, Lebih cerdas". |Sumber tangkapan layar: Manus

Ini adalah penjelasan dan pemikiran yang diperluas dari Peak, salah satu pendiri dan ilmuwan kepala dari “Butterfly Effect”, mengenai prinsip pertama yang paling penting di balik produk Manus - “Kurang Struktur, Lebih banyak kecerdasan” pada hari peluncuran produk Manus:

Ketika data Anda berkualitas tinggi, model Anda cukup cerdas, arsitektur Anda cukup fleksibel, dan rekayasa Anda cukup solid, konsep-konsep seperti Penggunaan Komputer, Penelitian Mendalam, dan Agen Kode akan berubah dari fitur produk menjadi kemampuan yang muncul secara alami.

Kembali ke prinsip-prinsip pertama juga memberi kita cara baru untuk memikirkan tentang bentuk produk:· Browser AI tidak menambahkan AI ke browser, tetapi membuat browser untuk AI;
Pencarian AI tidak mengingat dan merangkum dari indeks, tetapi memungkinkan AI untuk mendapatkan informasi dengan izin pengguna;
Mengoperasikan GUI tidak merebut kontrol perangkat pengguna, tetapi memungkinkan AI memiliki mesin virtualnya sendiri;
Menulis kode bukanlah tujuan akhir, tetapi merupakan medium umum untuk menyelesaikan berbagai masalah;
· Kesulitan dalam membuat sebuah situs web bukanlah membangun kerangka, tetapi membuat konten yang bermakna;
· Perhatian bukanlah satu-satunya yang anda butuhkan. Hanya dengan membebaskan perhatian pengguna, DAU dapat didefinisikan ulang;

Melalui penemuan dan praktik “Kurang Struktur, Lebih cerdas” berulang kali, Manus telah menghasilkan hasil yang melebihi harapan, termasuk lewat@1skor dalam benchmark GAIA melebihi skor OpenAI Deep Research di bawah kons@64; pada saat yang sama, dalam pengujian internal, Manus juga mampu langsung mencakup 76% dari skenario produk agen khusus di Y Combinator W25.

03 "Agen mungkin masalahnya adalah 'keselarasan' bukan masalah kemampuan model dasar"

Sekarang, nilai dari wawasan-wawasan ini sedang dibahas dalam skala yang lebih besar:

Clement Delangue, pendiri dan CEO Hugging Face, mengusulkan temuan Peak tentang Beberapa model dasar sumber terbuka hanya dilatih untuk "menjawab semua pertanyaan dalam satu putaran terlepas dari kompleksitas pertanyaan." Namun, ini adalah kebutuhan dalam skenario chatbot. Hanya melakukan beberapa post-training pada jalur agen dapat membuat perbedaan besar secara langsung. |Sumber tangkapan layar: X

Manus tidak memperkenalkan MCP (Model Context Protocol), tetapi memungkinkan Kecerdasan Buatan menulis kode sendiri untuk memanggil API untuk menangani berbagai tugas long-tail. |Sumber tangkapan layar: X

Dalam diskusi tentang Manus selama beberapa hari terakhir, salah satu pertanyaan paling umum yang pernah saya dengar adalah: Apakah "Agen AI universal" layak? Dimana batasnya?

Menurut Peak, karena interaksi antara orang dan dunia sebenarnya sangat standar, dengan mata, tangan, dan telinga, jika ruang tindakan sudah didefinisikan dengan baik, seharusnya memungkinkan untuk menyematkan agen ke dalam sebuah tautan yang awalnya dilakukan oleh manusia.

Karena orang dapat menggunakan berbagai alat untuk menyelesaikan operasi mendalam di bidang vertikal, jika seorang agen itu sendiri memiliki pengetahuan yang cukup baik, telah terlatih dengan baik, dan memiliki antarmuka yang baik untuk berinteraksi dengan dunia, seharusnya dapat bekerja seperti orang, bahkan memungkinkan agen menggunakan produk SaaS tertentu. Sebagai contoh, sebuah kasus pencarian rumah yang disajikan di situs web resmi Manus.im sebenarnya melibatkan membiarkan AI bekerja dengan produk SaaS yang didedikasikan untuk bidang real estat.

Dia percaya bahwa yang harus ditentukan dengan jelas adalah batas penggunaan alat agen, bukan kelompok orang yang dilayani. Manus tidak mensimulasikan orang yang melakukan hal-hal tertentu, juga bukan agen peran yang dibagi oleh R&D, manajer produk, dll.; Manus mensimulasikan orang yang dapat melakukan hal-hal, dan mensimulasikan bagaimana seorang magang bekerja.

Sistem multi-agent Manus merujuk pada pemisahan perencanaan dan pelaksanaan.

Untuk eksekutor (Executor), Manus mengadopsi Claude, yang saat ini memimpin dalam pemrograman, perencanaan jangka panjang, dan kemampuan pemecahan masalah secara bertahap, dan juga menggunakan serangkaian model Qwen untuk pelatihan lanjutan.

Kemarin, Manus juga mencapai kerja sama strategis dengan Alibaba Tongyi Qianwen, berkomitmen untuk mewujudkan semua fungsi Manus pada model-model domestik dan platform daya komputasi. |Sumber gambar: Manus

Di bagian perencana, Manus telah melakukan banyak pekerjaan.

Karena API atau model rak yang saat ini ada di pasar pada dasarnya disesuaikan untuk skenario robot obrolan, selama pelatihan, tidak peduli seberapa kompleks pengguna mengajukan pertanyaan, tujuan optimasi dari pelatihan adalah untuk menjawab pertanyaan pengguna dengan jelas dalam satu balasan, tetapi ini sebenarnya benar-benar bertentangan dengan perencanaan yang dibutuhkan oleh agen.

jadiJika model yang ada di pasar digunakan secara langsung dalam skenario agen tanpa "penyelarasan", model ini akan selalu bersemangat untuk sukses cepat dan memberikan hasil yang "kacau" dalam putaran dialog, seperti banyak ringkasan poin-poin.

"Metode penyelarasan harus berbeda. Tim kami percaya bahwa data yang berbeda diperlukan untuk melakukan penyelarasan khusus," kata Xiao Hong.

Pada bulan Oktober tahun lalu, Peak juga mencatat di Zhihu kemajuan dan kegagalan dari upaya untuk mereproduksi proyek minat OpenAI o1 - model open source Steiner. Sebenarnya, proyek ini sedang melakukan penelitian awal pada bagian perencanaan langkah demi langkah dari perencana Manus.

Secara umum, Manus mensimulasikan seseorang yang melakukan hal-hal. Ini adalah definisi produk tim tentang Manus sebagai asisten kecerdasan buatan serbaguna. Mengenai memikirkan batas-batasnya, tim mungkin masih menjelajahinya dan membutuhkan lebih banyak kasus pengguna.

Dalam wawancara dengan Tencent Technology yang dirilis sebelum peluncuran Manus, Xiao Hong sebenarnya menyebutkan pemikiran awalnya tentang keluwesan Manus. "Masalah inti yang sangat penting bagi manajer produk adalah mengendalikan harapan pengguna. Mengasumsikan bahwa itu bisa melakukan segalanya di dunia, seperti: Bagaimana saya bisa menghasilkan $1 juta? Ini bukan sesuatu yang seharusnya dilakukan oleh Agens. Tetapi jika kita dapat memberikan contoh-contoh yang lebih spesifik untuk membuat harapan semua orang lebih masuk akal, semua orang akan menggunakannya dengan lebih lancar."

04 "Shell memiliki kegunaan sendiri", tim yang paling memahami shell

Pada pagi hari tanggal 27 Februari, mitra produk Manus, Zhang Tao, dan ilmuwan kepala Ji Yichao (Peak) menangis ketika melihat hasil peringkat Manus.im. Kinerja Manus pada Benchmark GAIA melampaui Deep Research dari OpenAI, dan mencapai hasil yang tak terduga ini dengan biaya sekitar 1/10 dari biaya benchmark OpenAI ($2/tugas).


Sumber gambar: Manus.im

Sebuah tim puluhan orang menjadi salah satu tim pertama yang membuat produk agen universal ketika agen mencapai konsensus tentang persaingan di seluruh industri. Mereka juga unik dalam rekayasa produk dan pengalaman interaktif front-end.

Umpan balik positif dari hal-hal yang dilakukan lebih baik dari segalanya. Tidak ada insentif yang lebih baik bagi tim startup daripada ini. Tetapi sebelum itu, bagaimana Manus terjadi? Mengapa tim ini dibentuk?

Kemampuan model saat ini mampu menyelesaikan beberapa tugas kompleks multi-langkah. Tetapi tidak ada produk seperti itu, jadi tidak semua orang bisa merasakannya. Wawasan yang disebutkan Xiao Hong dalam wawancara sebelumnya dengan Tencent Technology dapat digunakan untuk memahami masalah ini.

Pada saat yang sama, tidak banyak tim yang memiliki kesempatan untuk mencoba produk-produk Agen. Karena membutuhkan banyak kemampuan komposit. Dia ingin bekerja pada Chatbot, beberapa yang terkait dengan pemrograman AI, dan terkait dengan browser, karena dia perlu memanggil browser, dan dia memiliki rasa batasan yang baik dari LLM - tingkat apa yang telah berkembang hingga saat ini, dan tingkat apa yang akan berkembang ke depan. Pertama-tama, tidak ada begitu banyak perusahaan yang memiliki kemampuan-kemampuan ini pada saat yang sama, dan perusahaan yang memiliki kemampuan ini mungkin sedang melakukan bisnis yang sangat spesifik saat ini. Beberapa teman sekelas kita kebetulan memiliki waktu untuk melakukan hal-hal ini bersama.

“tepat sekali”.

  • Ditemukan pada waktu yang tepat bahwa kemampuan model telah mencapai tingkat di mana ia dapat digunakan sebagai agen, tanpa harus menunggu model besar end-to-end seperti Operator untuk dirilis;
  • Saya juga kebetulan menemukan bahwa masalahnya adalah penjajaran;
  • Saya juga kebetulan telah melakukan semua fungsi yang diperluas oleh chatbot dan browser AI;
  • Pada saat yang sama, karena saya telah membuat produk aplikasi model berskala besar di dalam apa yang disebut sebagai “shell”, saya memiliki kesadaran yang tajam terhadap LLM;

Tim “Butterfly Effect” telah mencapai semua elemen untuk membuat agen universal seperti saat ini, sehingga sekarang ada agen universal dengan tingkat penyelesaian yang relatif tinggi dibandingkan dengan industri.

Ketika ditanya apa momen penentu ketika dia ingin memulai Manus, Peak mengembalikan lebih banyak detail. Dia mengatakan, “Sebenarnya tidak ada titik balik yang ‘bersih’ dalam kewirausahaan.” Semuanya koheren dan tidak memiliki batasan yang jelas.

Ketika membuat sebuah produk, saya juga sering memperhatikan situasi eksternal. Pada saat itu ada beberapa hal. Pertama, ketika saya membuat sebuah browser, saya membuat model sisi klien. Kemudian saya menemukan bahwa browser memerlukan rentang skenario yang sangat luas dan memiliki fitur-fitur yang berbeda. Selama proses tersebut, saya menemukan bahwa model dasar semakin kuat dengan laju yang dipercepat. Celah antara itu dan agen mungkin merupakan masalah penyelarasan. Meskipun dunia luar mungkin merasa bahwa model bahasa besar secara bertahap telah konvergen dan mengalami kebuntuan.

Pada saat yang sama, dunia luar juga sedang berubah. Cursor lepas landas awal tahun lalu, diikuti oleh Windsurf dan Devin. Ini sesuai dengan konteks yang sama. Agen populer di bidang pemrograman, dan jalannya menuju popularitas adalah progresif. Cursor adalah copilot bagi para programmer, yang meningkatkan efisiensi pemrograman. Mulai dari Windsurf, beberapa proses otomatis yang diperkenalkan secara bertahap, memungkinkan Anda memiliki kemampuan otomatisasi yang lebih kuat di mesin lokal Anda. Devin telah mencapai tingkat otomatisasi baru.

Tren VC juga konsisten. Misalnya, tahun lalu dan sebelumnya, YC berinvestasi di dua jenis perusahaan. Salah satunya adalah Browser cloud, seperti Browser base; jenis kedua adalah mesin virtual AI Sandbox ringan mirip e2b.

Hal ini menunjukkan bahwa “infrastruktur model ini berkembang dengan cepat, dan infrastruktur Infra juga berkembang dengan cepat. Selain itu, melihat bahwa produk eksternal secara bertahap mendapatkan lebih banyak penerimaan, kami merasa bahwa ini adalah arah yang layak untuk dikejar. Ini adalah proses yang sangat bertahap dan lancar. Selain itu, infrastruktur yang terakumulasi selama pengembangan browser seperti Chromium dapat bermigrasi secara mulus, itulah sebabnya kami berani mengembangkan browser di cloud.”

Secara ringkas, persepsi tajam dan akumulasi pengalaman dalam kebutuhan dan model yang disebut “shell” bersama-sama menciptakan Manus. Banyak skenario Monica memerlukan pelatihan pasca-model. Sementara itu, pelajaran paling penting “kurang struktur, lebih cerdas” telah diperkuat dalam praktik browser AI. Dia menemukan bahwa kemampuan model telah mencapai tingkat menjadi agen, tetapi masalahnya terletak pada penyejajaran. Yang diikuti adalah tiga bulan evolusi cepat untuk Manus.

Sebelumnya, tim “Butterfly Effect” pernah dipertanyakan mengenai nilai dari “penyusupan”. Tim tersebut membangun Monica dengan mengintegrasikan model-model besar yang sudah ada tanpa mengembangkan model-model besar sendiri. Mereka mengintegrasikan fungsi-fungsi seperti obrolan, pencarian, membaca, menulis, dan terjemahan. Mereka juga mengintegrasikan banyak skenario eksekusi tugas melalui API satu per satu. Hingga akhir tahun lalu, jumlah pengguna mencapai puluhan juta.

Sekarang, ketika Doubao, Quark, dan Yuanbao semuanya dengan gencar mempromosikan produk Monica mereka, dan ketika sebuah tim kecil menggunakan teknologi yang ada untuk menciptakan agen tingkat konsumen umum pertama, saatnya untuk memahami ulang "shell".

Apa sebenarnya "cangkang" dan "kerang"?

Menurut Xiao Hong, semua terobosan diciptakan oleh model, yang pada dasarnya berbasis model dan pertama kali model. Shell adalah untuk menampilkan inovasi teknis model dengan cara yang dapat dirasakan pengguna, dan untuk mengemas kemampuan inovatif model dengan cara yang paling dapat dirasakan pengguna.

Mulai dari definisi ini, Aplikasi DeepSeek (termasuk tampilan rantai pemikiran) adalah shell dari DeepSeek-R1, Cursor adalah shell dari Anthropic Sonnet 3.5, Perplexity adalah shell dari GPT-4, dan ChatGPT adalah shell dari InstructGPT.

Ketika kemampuan model berkembang dengan cepat, “cangkang” tersebut juga perlu berkembang. Setelah kemampuan setiap generasi model berkembang, bukanlah mutlak berasal dari produsen asli. Ini adalah produsen pihak ketiga yang menyajikan nilai yang dapat dirasakan oleh pengguna. Sama seperti Cursor memberikan nilai yang dapat dirasakan oleh pengguna untuk Claude 3.5 Sonnet.

Pada tanggal 5 Maret, ulang tahun kedua rilis Monica.im, jawaban mengapa lusinan orang ini telah mencapai pengalaman produk yang melebihi berbagai Penelitian Mendalam dan Operator OpenAI terletak pada pemahaman dan praktik cangkang.

Bagaimana cara membuat shell terbaik untuk model baru yang dapat digunakan sebagai agen?

Sebagai pembangun Manus, Zhang Tao meyakini, 'Melihat arsitektur keseluruhan dari latar belakangnya, kita melihat bahwa ada banyak pekerjaan yang belum selesai yang harus dilakukan di setiap tempat, dan setiap tempat tersebut adalah kunci kesuksesan, dan mereka semua tempat yang membuat permukaan produk berbeda.'

Dari sudut pandang tim, keuntungan terpenting adalah kecepatan inovasi. Kedua aplikasi dan model sekarang telah mencapai kondisi kejenuhan relatif. Satu-satunya kemampuan inti yang sebenarnya pada akhirnya adalah bergerak cepat, meskipun 'rodagigi data' dan 'efek jaringan' belum diverifikasi.

"Di bidang baru, semuanya tidak pasti dan tidak diketahui. Yang terpenting adalah kecepatan inovasi. Yang kami perjuangkan adalah eksplorasi, coba-coba ke berbagai arah, dan dengan cepat menemukan jalan yang benar." Tim Manus cukup fleksibel dalam hal filosofi manajemen, struktur organisasi, dan proses industri. Ketika peluang baru muncul, Anda dapat menggunakan sumber daya yang terbatas untuk menghubungkan semua sumber daya dari seluruh perusahaan, membuat keputusan dengan kecepatan yang sangat tinggi, dan beradaptasi dengan umpan balik tentang kesalahan.

Dari kiri ke kanan adalah ilmuwan kepala "Butterfly Effect" Peak, CEO Xiao Hong, dan mitra produk Zhang Tao | Sumber gambar: Internet

Mengenai ekspektasi Manus, Xiao Hong percaya bahwa "meskipun ada jendela waktu, itu layak untuk mencobanya." Dalam setahun terakhir, pemikirannya juga mengalami perubahan drastis. Misalnya, sekarang dia percaya bahwa "ketika Anda menyadari bahwa Anda berada di depan jadwal, Anda lebih agresif dan sangat agresif. Setelah meninjau hari ini, saya merasa bahwa Monica pada tahun 2023 kurang agresif." "Jika Anda tahu bahwa Anda sedang berinovasi dan Anda memimpin, Anda harus agresif."

Saya tidak tahu apakah Manus dapat memberikan Xiao Hong dan timnya pengalaman dan loncatan dari 1 ke N, tetapi tim ini yang paling mengetahui tentang 'shell' percaya dalam menciptakan dengan hati dan tangan sebagai satu kesatuan, dan juga percaya pada efek kupu-kupu yang dihasilkan oleh kreasi. Manus berasal dari moto di MIT: Mens at manus, yang menekankan kesatuan hati dan tangan. Ini tidak boleh bersifat optik, harus dilakukan, dan dapat berdampak pada dunia nyata, yang merupakan pengetahuan yang nyata.

Di masa depan, ketika lebih banyak deposit di belakang Manus diopen sourcekan, berbagai efek kupu-kupu yang lebih luas akan lebih dilepaskan.

Penolakan:

  1. Artikel ini diambil dari [ GEEEKPARK], dan hak cipta dimiliki oleh penulis asli [Wan Chen], jika Anda memiliki keberatan terhadap cetak ulang, silakan hubungi Gate Belajartim, tim akan menanganinya sesegera mungkin sesuai dengan prosedur yang relevan.

  2. Penyangkalan: Pandangan dan opini yang terdapat dalam artikel ini hanya mewakili pandangan pribadi penulis dan tidak merupakan saran investasi apa pun.

  3. Versi bahasa lain dari artikel diterjemahkan oleh tim Gate Learn dan tidak disebutkan dalam Gate.io, artikel yang diterjemahkan tidak boleh direproduksi, didistribusikan, atau diplagiatkan.

今すぐ始める
登録して、
$100
のボーナスを獲得しよう!