Aplicativos de tradução, reconhecimento e sintetização de voz já são muito bons em idiomas falados por milhões de pessoas, como inglês, francês, alemão ou português.
Mas eles ainda são de pouca valia para falantes de idiomas menos difundidos justamente porque falta "massa de dados" para que os sistemas de inteligência artificial nos quais essas ferramentas são baseadas obtenham o treinamento necessário.
"Quando desenvolvemos sistemas de tradução automática e motores de busca, normalmente inserimos no computador enormes quantidades de textos anotados manualmente que contêm informações sobre a função e o significado das palavras individuais.
"Por razões históricas, esses textos têm sido principalmente artigos de jornal em inglês e outras grandes línguas. Nós não temos acesso a textos anotados em línguas menores, como feroesa [Ilhas Faroé], galês, galego e irlandês, ou mesmo uma grande língua africana como o iorubá, que é falada por 28 milhões de pessoas," explica o professor Anders Sogaard, da Universidade de Copenhague, na Dinamarca.
Sabedoria bíblica
Mas artigos de jornal não são a única fonte possível de informação sobre palavras e expressões em um determinado idioma. Há um livro grande, o mais traduzido em todo o mundo e, provavelmente, também o mais comentado: a Bíblia.
"A Bíblia foi traduzida em mais de 1.500 idiomas, mesmo os menores e mais 'exóticos', e as traduções são extremamente conservadoras: os versículos têm uma estrutura completamente uniforme ao longo de muitas línguas diferentes, o que significa que nós podemos construir modelos de computador adequados mesmo dos menores idiomas, dos quais nós temos apenas algumas centenas de páginas de texto bíblico," disse Sogaard.
Agora a equipe apresentou os primeiros resultados de seu "esforço bíblico".
"O esforço está valendo a pena, já tendo servido para construir modelos de mais de 100 idiomas 'exóticos', como suaíli, uólofe e xhosa, que são falados na Nigéria [e em outros países africanos]. Isto significa que poderemos desenvolver tecnologias de linguagem para esses idiomas similares às disponíveis para os falantes de inglês ou francês," disse o pesquisador.
O trabalho da equipe não tem data para terminar, e o esforço de criação de novas ferramentas - do tipo de aplicativos como Siri e Google Translate - para idiomas menos falados continuará.
Bibliografia:
If all you have is a bit of the Bible: Learning POS taggers for truly low-resource languages
Zeljko Agic, Dirk Hovy, Anders Sogaard
Proceedings of the National Academy of Sciences
Vol.: To be published
If all you have is a bit of the Bible: Learning POS taggers for truly low-resource languages
Zeljko Agic, Dirk Hovy, Anders Sogaard
Proceedings of the National Academy of Sciences
Vol.: To be published
Nenhum comentário:
Postar um comentário