Tech

Data latihan AI mempunyai harga yang hanya perusahaan Teknologi Besar mampu beli

Timesis Amerika Sunday, June 16 2024

Data menjadi inti sistem AI yang canggih pada hari ini, tetapi ia semakin mahal, membuatnya sukar untuk dicapai oleh semua kecuali syarikat teknologi yang paling kaya.

Tahun lalu, James Betker, seorang penyelidik di OpenAI, menulis satu entri di blog peribadinya tentang sifat model AI generatif dan dataset yang mereka latih. Dalam entri tersebut, Betker mendakwa bahawa data latihan — bukan reka bentuk model, seni bina atau ciri lain — adalah kunci kepada sistem AI yang semakin canggih dan berupaya.

“Apabila dilatih dengan dataset yang sama untuk tempoh yang cukup lama, hampir setiap model akan hampir mencapai titik yang sama,” tulis Betker.

Adakah Betker betul? Adakah data latihan adalah penentu terbesar kepada apa yang boleh dilakukan oleh suatu model, sama ada menjawab soalan, melukis tangan manusia, atau menghasilkan landskap bandar yang realistik?

Ia adalah sesuatu yang boleh dipercayai.

Mesin Statistik

Sistem AI generatif pada dasarnya adalah model berhubung kait berdasarkan statistik — sekumpulan statistik yang besar. Mereka menebak berdasarkan contoh yang besar untuk menentukan data mana yang paling 'masuk akal' untuk diletakkan di mana (contohnya, perkataan 'pergi' sebelum 'ke pasar' dalam ayat 'Saya pergi ke pasar'). Oleh itu, adalah nampaknya, semakin banyak contoh yang boleh digunakan oleh suatu model, semakin baik prestasi model yang dilatih dengan contoh-contoh tersebut.

“Nampaknya, peningkatan prestasi ini datang daripada data,” kata Kyle Lo, seorang saintis penyelidik terapan kanan di Institut Allen untuk AI (AI2), sebuah persatuan penyelidikan AI yang bukan keuntungan, kepada TechCrunch, “sekurang-kurangnya apabila anda mempunyai suatu persediaan latihan yang stabil.”

Lo memberi contoh Llama 3 Meta, suatu model yang menghasilkan teks yang dikeluarkan pada awal tahun ini, yang melebihi model OLMo AI2 sendiri walaupun secara arkitekturalnya sangat serupa. Llama 3 telah dilatih pada dataset yang jauh lebih banyak daripada OLMo, yang Lo percaya menerangkan keunggulannya dalam banyak penanda prestasi AI yang popular.

(Saya ingin menunjukkan di sini bahawa penanda prestasi yang banyak digunakan dalam industri AI hari ini tidak semestinya merupakan penunjuk terbaik tentang prestasi suatu model, tetapi di luar ujian kualitatif seperti ujian kami sendiri, penanda tersebut adalah antara satu-satunya ukuran yang boleh kita rujuk.)

Ini bukan bermaksud bahawa melatih pada dataset yang secara eksponen lebih besar adalah jalan yang pasti untuk memperbaiki model secara eksponen. Model beroperasi atas prinsip 'masukkan sampah, keluarlah sampah', Lo mencatat, oleh itu kurasi data dan kualiti penting, mungkin lebih penting daripada jumlah semata-mata.

“Mungkin model kecil dengan data yang direka dengan teliti yang lebih baik melebihi model besar,” tambahnya. “Sebagai contoh, Falcon 180B, suatu model besar, berada di tempat ke-63 dalam penanda LMSYS, manakala Llama 2 13B, suatu model yang jauh lebih kecil, berada di tempat ke-56.”

Dalam satu temubual dengan TechCrunch pada Oktober lalu, penyelidik OpenAI Gabriel Goh berkata bahawa anotasi kualiti tinggi menyumbang dengan besar kepada peningkatan kualiti imej dalam DALL-E 3, model teks-ke-imge OpenAI, berbanding dengan pendahulunya DALL-E 2. “Saya fikir inilah sumber utama peningkatan,” katanya. “Anotasi teks jauh lebih baik daripada yang sebelumnya [dengan DALL-E 2] — ia tidak dapat dibandingkan.”

Ramai model AI, termasuk DALL-E 3 dan DALL-E 2, dilatih dengan memiliki anotator manusia melabel data agar model boleh belajar untuk mengaitkan label-label tersebut dengan ciri-ciri pengamatan lain daripada data tersebut. Sebagai contoh, satu model yang diberi banyak gambar kucing dengan anotasi untuk setiap bangsa akhirnya “belajar” untuk mengaitkan istilah seperti bobtail dan shorthair dengan ciri visual unik mereka.

Perilaku buruk

Pakar seperti Lo bimbang bahawa penekanan yang semakin meningkat pada dataset latihan yang besar dan berkualiti tinggi akan mendaratkan pembangunan AI ke dalam beberapa pemain dengan bajet berbilion ringgit yang boleh mampu membeli set-set tersebut. Inovasi utama dalam data sintetik atau seni bina asas mungkin boleh menggugat ketaktentuan kini, tetapi tiada yang kelihatan di hadapan.

“Secara keseluruhannya, entiti yang mengendalikan kandungan yang mungkin berguna untuk pembangunan AI berinsentif untuk mengunci bahan-bahan mereka,” kata Lo. “Dan apabila akses ke data tertutup, pada dasarnya kita sedang memberkati beberapa pemain yang awal dalam perebutan data dan menarik tangga supaya tiada sesiapa yang lain boleh mendapatkan akses kepada data untuk mengejar.”

Sungguhpun perlumbaan untuk menggumpulkan lebih banyak data latihan tidak membawa kepada perilaku yang tidak etika (dan mungkin juga tidak melebihi undang-undang) seperti mengumpulkan bahan berhak cipta secara rahsia, ia telah memberi ganjaran kepada raksasa teknologi dengan kantung yang dalam untuk belanja pada lesen data. Pada keseluruhan, entiti yang mengawal kandungan yang mungkin berguna untuk pembangunan AI berinsentif untuk mengunci bahan-bahan mereka.”Lo kemudian menambah lagi bahawa, “kebakatan bagi keseluruhan data latihan yang besar pada dasarnya lebih produktif kepada beberapa gergasi teknologi yang mempunyai bajet berbilion ringgit yang mampu membeli set tersebut daripada gergasi teknologi kecil bahkan syarikat-syarikat sedang. Kebanyakan inovasi pada data sintetik ataupun seni bina asas yang boleh menggugat kedudukan semasa, tetapi tiada yang kelihatan di hadapan.”

“Secara keseluruhan, entiti yang mengawal kandungan yang mungkin berguna untuk pembangunan AI berinsentif untuk mengunci bahan-bahan mereka,” kata Lo. “Dan apabila akses ke data tertutup, pada dasarnya kita sedang memberkati beberapa pemain yang awal dalam perebutan data dan menarik tangga supaya tiada sesiapa yang lain boleh mendapatkan akses kepada data untuk mengejar.”

Dalam banyak kes, syarikat besar dan kecil bergantung pada pekerja di negara-negara dunia ketiga yang hanya dibayar beberapa dolar sejam untuk membuat anotasi bagi set latihan. Beberapa daripada anotator ini — diupah oleh gergasi startup seperti Scale AI — bekerja berhari-hari tanpa henti untuk menyelesaikan tugas yang menimbulkan mereka dengan paparan kepada gambaran-gambaran keganasan dan pembunuhan tanpa sebarang faedah atau jaminan pekerjaan masa depan.

Kos yang berkembang

Dalam kata-kata lain, walaupun perjanjian data yang lebih beretika, ia tidak benar-benar memajukan ekosistem AI generatif yang terbuka dan adil.

OpenAI telah belanja beratus juta dolar untuk lesen kandungan daripada penerbit berita, perpustakaan media saham, dan banyak lagi untuk melatih model AI mereka — bajet yang jauh melebihi kebanyakan kumpulan penyelidikan akademik, badan-badan bukan keuntungan, dan startup. Meta melangkah sejauh untuk mempertimbangkan untuk membeli penerbit Simon & Schuster untuk hak-hak petikan e-buku (akhirnya, Simon & Schuster dijual kepada firma ekuiti swasta KKR seharga $1.62 bilion pada tahun 2023).

Dengan pasaran data latihan AI dijangka berkembang dari kira-kira $2.5 bilion sekarang menjadi hampir $30 bilion dalam tempoh satu dekad, broker data dan platform sedang bergegas untuk menetapkan harga tinggi — dalam beberapa kes melebihi bantahan pengguna mereka.

Perpustakaan media saham Shutterstock telah menandatangani perjanjian dengan vendor AI yang berkisar dari $25 juta hingga $50 juta, manakala Reddit mendakwa telah menjana beratus juta daripada membekalkan data kepada organisasi seperti Google dan OpenAI. Sedikit platform-platform dengan data yang melimpah yang terkumpul secara organik sepanjang masa tidak menandatangani perjanjian dengan pembangun AI generatif, kelihatannya — daripada Photobucket ke Tumblr hingga laman Q&A Stack Overflow.

Ini adalah data platform untuk dijual — sekurang-kurangnya bergantung kepada hujah undang-undang mana yang anda percaya. Tetapi dalam kebanyakan kes, pengguna tidak melihat sebarang keuntungan. Dan ia merosakkan komuniti penyelidikan AI secara meluas.

“Pemain-pemain kecil tidak akan mampu membeli lesen-lesem data ini, dan oleh itu tidak akan dapat mengembangkan atau menyiasat model-model AI,” kata Lo. “Saya risau ini boleh membawa kepada kurangnya penyiasatan secara independen mengenai amalan pembangunan AI.”

Usaha Bebas

Jika terdapat sinar matahari di celah kesuraman, itu adalah sedikit usaha bebas dan tanpa keuntungan untuk mencipta dataset berskala besar yang boleh digunakan oleh sesiapa untuk melatih model AI generatif.

EleutherAI, sebuah kumpulan penyelidikan tanpa keuntungan yang bermula sebagai kumpulan Discord longgar pada tahun 2020, bekerjasama dengan Universiti Toronto, AI2, dan penyelidik bebas untuk membuat The Pile v2, satu set miliaran pengepungan teks yang utamanya diperoleh dari domain awam.

Pada bulan April, startup AI Hugging Face menerbitkan FineWeb, versi tersaring dari Common Crawl — dataset beserta nama yang dikekalkan oleh Common Crawl, yang terdiri daripada berbilion laman web — yang Hugging Face dakwa meningkatkan prestasi model pada banyak penanda prestasi.

Sedikit usaha untuk melepaskan dataset latihan terbuka, seperti set imej LAION, telah melawan hak cipta, privasi data, dan cabaran etika dan undang-undang yang lain yang serius. Tetapi beberapa pengkurator data yang lebih dedikasi telah berjanji untuk membuat yang lebih baik. The Pile v2, sebagai contoh, menghapuskan bahan berhak cipta yang problematic yang terdapat dalam dataset pendahulunya, The Pile.

Soalan adalah sama ada mana-mana usaha terbuka ini boleh berharap untuk mengekalkan langkah dengan Teknologi Besar. Selagi pengumpulan dan kurasi data kekal menjadi hal sumber, jawapannya mungkin tidak — sekurang-kurangnya bukan sehingga ada terobosan penyelidikan yang menyelesaikan masalah tersebut.

Timesis Amerika 3 weeks ago