Kemenangan penuh atas GPT-4, mematikan model sumber tertutup dalam hitungan detik! Versi misterius Kode Llama terungkap

Sumber asli: Xinzhiyuan

Sumber gambar: Dihasilkan oleh AI Tanpa Batas‌

Hanya 2 hari setelah dirilis, Code Llama kembali memicu revolusi pengkodean AI.

Ingat versi misterius Unnatural Code Llama yang Meta muncul di kertas Code Llama yang sepenuhnya dapat menyamakan GPT-4?

Pria besar Sebastian menjelaskan di blognya:

Ini adalah versi Kode Llama-Python 34B yang telah disempurnakan menggunakan 15.000 instruksi bahasa non-alami.

Dengan menyembunyikan informasi yang sangat tersembunyi di koran, Meta sepertinya ingin memberi isyarat kepada komunitas open source bahwa Code Llama memiliki potensi besar, jadi mari kita sesuaikan!

Jadi barusan, WizardCoder 34B yang disempurnakan berdasarkan Code Llama langsung mengalahkan GPT-4 di benchmark Manusia.

Secara khusus, WizardCoder mengalahkan GPT-4 versi Maret (67%) dengan tingkat kemenangan 73,2%.

Selain itu, performa WizardCoder 34B melebihi versi terbaru GPT-3.5, dan Claude 2.

Model pemrograman WizardCoder dirilis pada bulan Juni oleh Microsoft dan Hong Kong Baptist University. Versi 13B/7B yang disempurnakan dikatakan akan segera hadir.

Menurut Jim Fan, ilmuwan terkemuka di Nvidia, ini pada dasarnya adalah versi terbuka dari "Unnatural Code Llama".

Meskipun data benchmark terlihat bagus, Manusia hanya menguji distribusi yang sempit dan mungkin overfit. Pengujian data dalam skenario alam sangatlah penting. Tolok ukur pengkodean memerlukan peningkatan besar.

## **Versi misterius Code Llama telah lahir? **

Pada hari Jumat, Meta secara resmi membuat tiga versi Code Llama menjadi open source.

Pada benchmark Human dan MBPP, banyak orang menemukan versi yang tidak disebutkan dalam Meta resmi - Unnatural Code Llama.

Versi misterius ini mencapai kinerja 62,2% pada Human pass@1.

WizardCoder 34B yang telah disempurnakan dan dirilis hari ini memiliki kinerja 73,2% pada Human pass@1.

Menurut pendahuluan, WizardCoder 34B adalah versi model Code Llama yang disempurnakan menggunakan kumpulan data sintetis Evol-Instruct.

Berikut visualisasi perbandingan performa dengan seluruh model open source dan close source.

Dibandingkan dengan model OpenAI, para peneliti menunjukkan bahwa GPT4 dan ChatGPT-3.5 memiliki dua hasil pada Manusia:

Hasil yang diberikan oleh laporan resmi GPT4 OpenAI (15/03/2023) adalah: masing-masing 67,0% dan 48,1%. Hasil peneliti menggunakan uji API terbaru (26/08/2023) adalah 82,0% dan 72,5%.

Selain itu, para peneliti menekankan bahwa hasil kinerja ini 100% dapat direproduksi!

Demo WizardCoder 34B terbuka bagi siapa saja untuk mengujinya.

Telah disebutkan bahwa penyesuaian yang berlebihan pada papan peringkat publik adalah salah satu alasan utama mengapa model sumber terbuka mengalami kesulitan dalam praktiknya. Berikut adalah contoh persiapan data pembuat kode penyihir menggunakan skor Human pass@1 untuk memutuskan apakah akan mengembangkan kumpulan data lebih lanjut. Mengoptimalkan hanya pada set pengujian akan menggagalkan tujuan set pengujian.

Baru kemarin juga, para peneliti dari organisasi Phind menyempurnakan Kode Llama-34B untuk mengalahkan GPT-4 dalam evaluasi Manusia.

ChatGPT vs. Kode Llama

Bagaimana kinerja Code Llama dalam tugas pengkodean sebenarnya?

Seorang netizen melakukan uji perbandingan GPT-3.5 dan Code Llama Instruct-34B. Itu diuji dengan akses ke Kode Llama 34B yang disediakan oleh Perplexity.AI.

Ini memasukkan 8 tugas kode identik ke kedua model, dan membandingkan kualitas kode yang dihasilkan.

Hasilnya GPT-3.5 menang dengan skor 8:5.

Berikut ini adalah hasil tes spesifiknya.

pertanyaan pertama

Gunakan Python untuk menyelesaikan tugas ini, diberikan dua string word1 dan word2. Gabungkan string dengan menambahkan huruf secara bergantian, dimulai dengan kata1. Jika satu string lebih panjang dari yang lain, tambahkan huruf tambahan di akhir string yang digabungkan.

Akhirnya keluarkan string yang digabungkan.

Misalnya:

Masukan: kata1 = "abc", kata2 = "pqr" Keluaran: "apbqcr"

GPT-3.5 dan Code Llama dapat diselesaikan - 1:1

Pertanyaan kedua

Gunakan Python untuk menyelesaikan tugas ini, jika diberi string s, cukup balikkan semua vokal dalam string dan kembalikan.

Vokalnya adalah "a", "e", "i", "o", dan "u", yang dapat muncul berkali-kali baik dalam huruf kecil maupun huruf besar.

Contoh: masukan: s = "halo" keluaran: "halo"

GPT-3.5 selesai, Kode Llama tidak selesai - 2:1

Pertanyaan ketiga

Gunakan Python untuk menyelesaikan tugas ini, dengan bilangan array bilangan bulat, pindahkan semua angka 0 ke akhir sambil mempertahankan urutan relatif elemen bukan nol.

Perhatikan bahwa Anda harus melakukan ini di tempat, tanpa membuat salinan array.

Misalnya: Masukan: angka = [0,1,0,3,12] Keluaran: [1,3,12,0,0]

GPT-3.5 selesai, Kode Llama tidak selesai - 3:1

Pertanyaan 4

Dengan menggunakan Python untuk tugas ini, Anda memiliki petak bunga yang panjang, beberapa petak ditanami bunga, dan ada pula yang tidak.

Namun, petak yang berdekatan tidak dapat ditanami bunga. Diberikan array bilangan bulat 0 dan 1 untuk petak bunga, dimana 0 kosong dan 1 tidak kosong, dan bilangan bulat n, keluarannya benar jika n bunga baru dapat ditanam di petak bunga tanpa melanggar aturan tidak ada bunga yang berdekatan, Jika tidak, salah adalah keluaran.

Contoh 1: Masukan: Petak Bunga = [1,0,0,0,1], n = 1 Keluaran: benar Contoh 2: Masukan: Petak Bunga = [1,0,0,0,1], n = 2 Keluaran: salah

Kedua model selesai - 4:2

Pertanyaan 5

Menggunakan Python, diberi input string s, balikkan urutan kata. Sebuah kata didefinisikan sebagai rangkaian karakter non-spasi. Kata-kata dalam huruf s akan dipisahkan oleh setidaknya satu spasi.

Keluarkan serangkaian kata yang digabungkan dengan spasi tunggal dalam urutan terbalik. Perhatikan bahwa s mungkin berisi spasi di awal atau akhir, atau beberapa spasi di antara dua kata.

String yang dikembalikan seharusnya hanya memiliki satu spasi untuk memisahkan kata. Jangan sertakan spasi tambahan.

Contoh : Input : s = “langit itu biru” Output : “biru itu langit”

Kedua model selesai - 5:3

Pertanyaan 6

Gunakan Python untuk menyelesaikan tugas ini. Diberikan string s dan bilangan bulat k, kembalikan jumlah vokal maksimum dalam substring mana pun dengan panjang k dalam s.

Huruf vokal dalam bahasa Inggris adalah “a”, “e”, “i”, “o” dan “u”. Contoh: Masukan: s = "leetcode", k = 3 Keluaran: 2

Penjelasan: "lee", "eet" dan "ode" mengandung 2 huruf vokal.

Kedua model selesai - 6:4

Pertanyaan 7

Gunakan Python untuk menyelesaikan tugas ini, diberi string s yang berisi tanda bintang *. Dengan satu operasi, Anda dapat: Memilih tanda bintang di s.

Menghapus karakter non-tanda bintang terdekat di sebelah kirinya, dan menghapus tanda bintang itu sendiri. Keluarkan string setelah menghapus semua tanda bintang. Contoh: Masukan: s = "leet**cod*e" Keluaran: "lecoe"

GPT-3.5 sudah selesai, tetapi Kode Llama belum - 7:4

Pertanyaan 8

Gunakan Python untuk menyelesaikan tugas ini, dengan array suhu bilangan bulat yang mewakili suhu harian, kembalikan array jawaban, di mana jawabannya [i] adalah jumlah hari demi hari saya harus menunggu suhu hangat.

Jika tidak ada hari di masa depan untuk melakukan hal ini, simpanlah jawabannya [i] == 0. Contoh: Masukan: Suhu = [73,74,75,71,69,72,76,73] Keluaran: [1,1,4,2,1,1,0,0]

Kedua model selesai - 8:5

Mengenai performa kedua model tersebut, warganet ini berpendapat bahwa ini bukanlah kajian yang teliti, melainkan pengujian sederhana.Setiap model diregenerasi untuk menghasilkan kode, pada dasarnya dapat memperoleh jawaban yang lebih baik, namun tidak ada pengujian.

Jadi kesimpulan dari pengujian tersebut bukanlah performa dari dua model terakhir.

Sebanding dengan GPT-4, Llama 3 harusnya open source

Sejak peluncuran Llama dan Llama 2, komunitas pembelajaran mesin ChatGPT telah meledak, dan berbagai model penyesuaian bermunculan.

Peneliti OpenAI Jason Wei mengatakan bahwa dia belajar dari kegiatan sosial Meta GenAI bahwa Llama 3 dan Llama 4 juga akan menjadi open source di masa depan.

Kami memiliki kekuatan komputasi untuk melatih Llama 3 dan 4. Rencana kami adalah menjadikan Llama-3 sebaik GPT-4. Wah, kalau Llama-3 sebagus GPT-4, apakah akan di-open source? Ya, kami akan melakukannya. Maaf, staf penyelarasan.

Netizen lain mengatakan bahwa Meta berharap untuk membuat model level GPT-5 menjadi open source, dan tampaknya Meta telah bersikeras menggunakan open source sebelum AGI.

Saya ingin memperjelas apa maksudnya: tidak ada tombol pemutus (kill switch).

Jika ada yang tidak beres—agen menjadi lepas kendali, atau ada aktor jahat yang mempersenjatainya—tidak ada cara mudah untuk menghentikannya. Itu dapat berjalan di cluster kecil mana pun. Tidak ada keamanan sama sekali.

Penelitian keamanan menjadi tidak ada artinya.

Semua upaya yang dilakukan orang untuk membuat sistem AI jujur, konsisten, etis, dan sebagainya menjadi tidak ada artinya. Sistem AI di dunia akan berkembang menuju sistem mana pun yang menghasilkan manfaat ekonomi terbesar, apa pun nilai atau motivasinya. Tidak ada pagar pembatas. Siapa pun dapat mengubah nilai atau kemampuan AI sesuka hati, baik atau buruk.

Jika Meta terus menjadi sumber terbuka sementara kita mendapatkan AI yang lebih pintar, jelas bagi saya bahwa segala sesuatunya akan menjadi berantakan. Kedatangan makhluk-makhluk cerdas dari luar bumi ini telah mengacaukan dunia, namun akan lebih buruk lagi jika kita melepaskan sedikit kendali yang dimiliki manusia.

Sejauh yang saya tahu, harapan Meta terhadap open source terutama bersumber dari "dogma komunitas open source", yaitu "open source itu baik". Dan sejauh yang saya tahu, mereka tidak terlalu pro-open source sampai model pertama mereka, Llama, bocor secara tidak sengaja, dan mereka berpura-pura menjadi open source sejak saat itu.

Dalam hal ini, Musk mengatakan bahwa LLM yang menggunakan Transformer autoregresif memiliki efisiensi energi yang sangat buruk, tidak hanya dalam pelatihan, tetapi juga dalam penalaran. Saya pikir itu meleset beberapa kali lipat.

## Kemampuan pengkodean Llama 2 melonjak

Llama 2 adalah model yang sangat kuat dalam segala aspek.

Namun, ia memiliki kelemahan yang sangat jelas - kemampuan membuat kode.

Menurut data dalam makalah yang diterbitkan oleh Meta tentang Llama 2, kinerja Llama 2 di Hum (tes benchmark untuk mengevaluasi LLM dan pengkodean) bahkan lebih buruk daripada GPT-3.5, belum lagi seberapa buruknya dibandingkan GPT-4.

Gambar beranotasi dari kertas Llama 2 asli

Namun kemampuan kode pasti akan menjadi arah penting bagi komunitas open source untuk menggunakan Llama 2. Tentu saja, Meta tidak bisa buruk dalam arah ini, jadi ada Code Llama yang sangat dioptimalkan untuk kemampuan kode.

Dua hari yang lalu, Meta secara resmi merilis keluarga Kode Llama: Kode Llama (7B, 13B dan 34B), dan 3 varian: model kode umum Kode Llama, model instruksi berikut Kode Llama-instruct dan versi khusus kode Python Kode Llama - Piton.

Model ini bersifat akademis dan komersial gratis, begitu pula lisensi Llama 2.

Kemampuan kode model Code Llama 34B hampir dua kali lipat dari Llama 2, sehingga sangat mempersempit kesenjangan dengan GPT-4.

Ingat Kode Llama Tidak Wajar yang Meta muncul di makalah Kode Llama, yang sepenuhnya dapat menyamakan versi GPT-4?

Pria besar Sebastian menjelaskan di blognya:

Ini adalah versi Kode Llama-Python 34B yang telah disempurnakan menggunakan 15.000 instruksi bahasa non-alami.

Dengan menyembunyikan informasi yang sangat tersembunyi di koran, Meta sepertinya ingin memberi isyarat kepada komunitas open source bahwa Code Llama memiliki potensi besar, jadi mari kita sesuaikan!

Mengapa tidak ada model Kode Llama 70B?

Menariknya, Code Llama hanya memiliki versi parameter 7B, 13B, dan 34B, yaitu 70B lebih kecil dari Llama 2.

Meskipun Meta tidak menjelaskan mengapa hal ini terjadi di makalahnya, pakar teknologi Sebastian menawarkan dua kemungkinan alasan:

  1. Kode Llama dilatih dengan token 500B, dan Llama 2 dilatih dengan token 2T.

Karena data pelatihan Code Llama hanya 1/4 dibandingkan dengan Llama 2, mungkin karena data pelatihan tidak cukup, ditambah dengan keterbatasan Hukum Penskalaan LLM, kinerja CodeLlama70B kurang baik.

  1. Model Code Llama mendukung ukuran konteks 100k, yang sangat berguna saat menangani tugas kode.

Sebaliknya, Llama 2 hanya mendukung panjang input hingga 4k. Jika model 70B mendukung panjang input 100 ribu token, hal ini mungkin membuat persyaratan komputasi model menjadi terlalu berlebihan.

Referensi:

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate.io
Komunitas
Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)