
Tantangan Pengembangan AI di Afrika
Pengembangan kecerdasan buatan (Artificial Intelligence/AI) di Afrika menghadapi berbagai tantangan yang kompleks. Salah satu hambatan utama adalah variasi bahasa yang sangat tinggi di benua ini, dengan sekitar 1.500 hingga 3.000 bahasa yang digunakan. Namun, data teks dalam jumlah besar untuk pelatihan model bahasa besar (Large Language Model/LLM) seperti ChatGPT dan Gemini sangat terbatas.
Kesenjangan data ini sangat mencolok. Misalnya, bahasa Inggris memiliki lebih dari 7 juta artikel di Wikipedia, sementara bahasa Tigrinyayang dituturkan oleh sekitar 9 juta orang di Ethiopia dan Eritreahanya memiliki 335 artikel. Bahkan untuk Akan, bahasa asli yang paling banyak digunakan di Ghana, tidak ada satu pun artikel Wikipedia.
Vukosi Marivate, profesor ilmu komputer di Universitas Pretoria, Afrika Selatan, menggunakan data Wikipedia untuk menunjukkan kesenjangan yang signifikan. Dari 42 bahasa yang saat ini memiliki model bahasa, hanya tiga aksara Afrika yang tersedia: Latin, Arab, dan GeEz yang digunakan di Tanduk Afrika.
Risiko Marjinalisasi Bahasa
Chinasa T Okolo, pendiri Technecultura, menjelaskan bahwa keterbelakangan ini berasal dari sudut pandang finansial. Meskipun jumlah penutur bahasa Swahili lebih banyak daripada penutur bahasa Finlandia, Finlandia dianggap sebagai pasar yang lebih baik bagi perusahaan teknologi seperti Apple dan Google.
Okolo memperingatkan bahwa jika kesenjangan data ini tidak segera diatasi, dampak buruk akan terjadi di seluruh benua. "Kita akan terus melihat orang-orang terpinggirkan dari kesempatan," ujar Okolo kepada CNN.
Upaya Mengembangkan Bahasa di AI Afrika
Untuk menghindari marjinalisasi, Okolo menekankan bahwa pengembang AI di Afrika harus membayangkan kembali cara pengembangan model sejak awal. Salah satu proyek yang dilakukan adalah African Next Voices, yang dipimpin oleh Marivate. Proyek ini fokus pada perekaman suara untuk 18 bahasa di Afrika Selatan, Kenya, dan Nigeria.
Selama dua tahun, tim berhasil mengumpulkan total 9.000 jam rekaman dari orang-orang dengan beragam usia dan lokasi. Kumpulan data ini akan tersedia bagi pengembang AI di seluruh benua untuk melatih model.
Dalam proses pengumpulan data, peneliti sering memberikan naskah kepada penutur asli untuk dibaca atau merekam tanggapan lisan yang kemudian ditranskripsikan. Untuk bahasa Isindebele, para pengembang kesulitan menemukan sumber tertulis, sehingga mereka menggunakan buku panduan pemerintah untuk penggembala kambing.
Meski African Next Voices belum mengumpulkan data yang cukup untuk melatih LLM raksasa seperti ChatGPT, fokus utama mereka adalah pada topik-topik spesifik, seperti kesehatan dan pertanian, yang dianggap penting bagi masyarakat.
Masalah Prioritas Kesalahan
Nyalleng Moorosi, peneliti di Distributed AI Research Institute (DAIR), menjelaskan bahwa menggunakan kumpulan data kecil untuk membuat model umum akan menghasilkan tingkat kesalahan yang tinggi. Namun, kumpulan data kecil dan terfokus dapat sangat akurat dalam lingkup terbatas untuk model khusus.
Moorosi mencontohkan, "Jika seseorang hanya ingin mengetahui apa yang terjadi di pusat Kota Nairobi, saya dapat menolerir kesalahan di sana." Namun, kesalahan dalam model yang membahas topik sensitif seperti perbankan atau perawatan kesehatan dapat memiliki konsekuensi serius.
Tantangan Tata Bahasa dan Infrastruktur
Kurangnya data bukan satu-satunya tantangan. Marivate menyebutkan bahwa sebagian besar bahasa Afrika tidak dikodifikasi melalui kamus atau studi tata bahasa. Dalam bahasa Kinyarwanda, misalnya, terdapat tiga cara umum untuk mengeja nama negara tersebut, yaitu uRwanda, Urwanda, dan u Rwanda. Tanpa aturan ejaan yang jelas, bahkan pemrosesan teks paling dasar pun menjadi sulit.
Selain itu, kurangnya pusat data juga menjadi hambatan. Uni Afrika pada 2024 memperingatkan, hanya 10 persen dari permintaan pusat data di benua itu yang terpenuhi.
Masa Depan AI di Afrika
Marivate khawatir jika model tidak dibuat untuk bahasa-bahasa yang lebih kecil ini, bahasa-bahasa tersebut akan lenyap. Dia menambahkan, "Modelnya harus diubah" untuk bahasa yang bahkan mungkin tidak memiliki sistem penulisan.
Proyek African Next Voices telah menyelesaikan pengumpulan dan transkripsi datanya. Meskipun saat ini belum mengerjakan bahasa pemrograman baru, Marivate mengungkapkan bahwa tim sudah memikirkan bahasa mana yang akan menjadi langkah selanjutnya.
Diskusi Pembaca
Belum ada komentar
Jadilah yang pertama memberikan tanggapan!
Tambah Komentar