アフリカ大陸で使われる言語は英語やフランス語、アラビア語の方言など一般に知られているものだけでなく、アフリカの部族が昔から使ってきた言語も非常に多く使われています。一説によるとアフリカ大陸に存在する言語は2000個を超え、さまざまな言語に分かれていることはコミュニケーションおよび商取引の障害にもなり得ます。そこで2019年、アフリカのAI研究者やエンジニアらは「Masakhane」というオープンソースプロジェクトを作成し、「機械翻訳を使ってアフリカの諸言語を翻訳する壮大な試み」をスタートしました。
Masakhaneを立ち上げたのは南アフリカのAI研究者であるJade Abbott氏とLaura Martinus氏であり、プロジェクトはアフリカ全土のAI研究者およびデータサイエンティストと協力して行われています。2人は2019年に機械学習や自然言語処理(NLP)関連のカンファレンスで出会った際に、アフリカの言語を機械学習モデルで翻訳するプロジェクトについて話し合い、Masakhaneをスタートしました。「Masakhane」というプロジェクト名は、ズールー語で「私たちで一緒に作る」という意味を持つ言葉だとのこと。
Masakhaneで機械翻訳を可能にする言語は、アフリカのさまざまな固有言語だけではなく、ナイジェリアのピジン英語や、北アフリカおよび中央アフリカで話されているアラビア語の方言も含んでいます。これらの言語にはヨーロッパの言語とは違い、特定のベンチマークや大きなデータセットが存在していません。そのため記事作成時点では、Masakhaneは国境なき翻訳者団などのグループや言語学者と協力し、言語データセットを作成することから始める予定です。
さまざまなアフリカの言語が機械翻訳可能になれば、アフリカ人に利益をもたらすさまざまなオープンソースプロジェクトに拡張していくことができると2人は考えています。以下の画像は、記事作成時点においてMasakhaneに参加している開発者の人数を、緑色の濃さで表した地図です。記事作成時点で参加している開発者はアフリカ全土で60人ほどだそうで、南アフリカ、ケニア、ナイジェリアの開発者が特に多い模様。各参加者は自らの母国語でデータを収集し、モデルのトレーニングを行うとしています。
ケニアのルヒヤ族出身のエンジニアであるKathleen Siminyu氏は、同じ部族の人々と話す際はルヒヤ語を使っています。ケニアでは学校を初めとする公的な場では英語が用いられることが多いものの、日常生活では部族ごとに違う言語を用いているため、コミュニケーション上のギャップが生じているとSiminyu氏は感じていました。そのため、AI開発者でもあるSiminyu氏はMasakhaneに参加することを決めたとのこと。
Siminyu氏は機械学習を用いてアフリカの言語を翻訳することが、アフリカにおけるAI活用を成長させるきっかけとなり、アフリカの人々がAIを生活に役立てる動きが促進されると考えています。Masakhaneのようなアフリカ大陸全土にまたがるプロジェクトは、アフリカの開発者と研究者のコミュニティを結び付け、持続的で長期的なコラボレーションを実現するために重要だとSiminyu氏は主張しています。
「言語の違いは障壁となっており、言語の壁を排除できれば多くのアフリカ人がデジタル経済に、そして最終的にはAI経済に携わることが可能となります。私は、デジタル社会に参加できていない人々をAI社会に参加させることが、Masakhaneに参加する者の責任だと感じています」と、Siminyu氏は述べました。