Kembangkan Korpus, Badan Bahasa Jadikan Media Indonesia Acuan

MEDIA Indonesia menjadi salah satu sumber data untuk Badan Pengembangan dan Pembinaan Bahasa (Badan Bahasa) mengembangkan Korpus Indonesia (Koin). Koin yang kini berisi 10 juta sekapur hendak dimutakhirkan dengan bahan mencapai 25 juta sekapur.
Koordinator Kelompok Kepakaran dan Layanan Profesional Perkamusan serta Peristilahan Badan Bahasa yang juga ketua pelaksana pengembangan korpus Azhari Dasman, Rabu (10/3), mengatakan Media Indonesia disertakan sebagai sumber petunjuk karena surat kabar nasional ini pernah mendapatkan penghargaan dari Badan Bahasa dalam penggunaan bahasa Indonesia dalam media cetak. Selain Media Indonesia , yang menjadi sumber bukti Koin ialah Koran Tempo, Kompas , dan Republika .
Pada tahap pembukaan, data yang dimanfaatkan Lembaga Bahasa untuk Koin ialah editorial media yang terlibat. Rentang waktu yang direkam tidak kurang dari lima tahun ke belakang.
Korpus Indonesia diluncurkan pada 2018. Hingga kini sudah tersedia 10 juta kata yang disusun berdasarkan teks ilmiah dan sastra. Badan Gaya hendak mengembangkan Koin tahun ini hingga 25 juta kata dengan mencakupkan teks dari media massa.
Buat tahap awal, yang disasar ialah media cetak. Koin dikembangkan dengan tujuan menyediakan data digital kebahasaan yang dapat dimanfaatkan secara luas oleh peneliti bahasa, leksikograf, penerjemah, dan pemerhati sopan santun. Melalui Koin, orang dapat melihat tuturan alami bahasa Indonesia di masyarakat. Di dalam Koin terdapat detail titik berat, konkordansi, kolokasi, dan bagian kata.
Pada 2018 telah terinput 5. 140. 780 token (kemunculan kata). Token itu diambil dari postulat dan skripsi sebanyak 900 teks dan jurnal keilmuan sebanyak 1. 130 teks. Pada 2020 input ditambah dengan 5. 428. 688 token dari berbagai buku harian dan teks sastra.
Buku harian kedokteran, misalnya, menyumbang 235 teks dan jurnal komputer 209. Karya sastra cetakan 1920-2016 menyumbang 133 teks. Sastra klasik dari periode kelahiran 1700-an berandil enam naskah saja. Beda kecil, sastra klasik periode 1800-an menyumbang 10 teks.
Sebanyak 881. 422 token menduduki diinput. Jumlah itu diperoleh dari 743 artikel berita daring dan 73 karya sastra terbitan 2017. Awak Bahasa menargetkan dapat menaikkan hingga tahun ini menjelma 25 juta token agar data tentang bahasa Indonesia kontemporer dapat mengejar keunggulan korpus nasional negara lain.
British National Corpus (BNC), misalnya, terdiri atas 100 juta kata yang disusun berdasarkan korpus tulis & lisan dengan rentang perekaman 1975-1994. BNC dikembangkan Oxfor University Press, Longman Group UK Ltd, Chambers Harrap, Oxford University, dan Lancaster University. Berdasarkan data Natcorp. ox. ac. uk, 30% materi penyusun BNC bersumber dari surat kabar. (RO/OL-14)