Como médico na Nigéria, Tobi Olatunji conhece o estresse de praticar nos movimentados hospitais da África. Como cientista de aprendizado de máquina, ele tem uma receita para isso.
“Eu trabalhei em um dos maiores hospitais da África Ocidental, onde atendia rotineiramente mais de 30 pacientes por dia – é um trabalho muito difícil”, disse Olatunji.
A necessidade de escrever anotações detalhadas do paciente e preencher formulários torna isso ainda mais difícil. Os registros em papel também diminuíram o ritmo da pesquisa médica.
Em seus primeiros anos de prática, Olatunji imaginou um programa para eliminar os montes de papelada, liberando os médicos para ajudar mais pacientes.
Tem sido uma jornada, mas esse software program está disponível hoje em sua empresa, Saúde do Intronmembro do NVIDIA Inception programa, que nutre startups de ponta.
Uma viagem secundária em tecnologia
Com o incentivo dos mentores da escola de medicina, Olatunji obteve um mestrado em informática médica pela Universidade de San Francisco e outro em ciência da computação na Georgia Tech. Ele começou a trabalhar como cientista de aprendizado de máquina nos EUA durante o dia e escrevendo código à noite e nos fins de semana para ajudar a digitalizar os hospitais da África.
Um teste piloto durante a pandemia atingiu um obstáculo.
Os primeiros médicos a usar o código levaram 45 minutos para terminar as anotações dos pacientes. Sentindo-se constrangidos diante de um teclado, alguns profissionais de saúde disseram preferir papel e caneta.
“Tomamos uma decisão difícil de investir em processamento de linguagem pure e reconhecimento de fala”, disse ele. É uma tecnologia com a qual ele já estava familiarizado em seu trabalho diário.
Construindo modelos de IA
“A combinação de terminologia médica e fortes sotaques africanos produziu resultados horríveis com a maioria dos softwares de fala para texto existentes, então sabíamos que não haveria atalho para treinar nossos próprios modelos”, disse ele.

A equipe da Intron avaliou várias estruturas de reconhecimento de fala comerciais e de código aberto e grandes modelos de linguagem antes de escolher construir com NVIDIA NeMouma estrutura de software program para IA generativa. Além disso, os modelos resultantes foram treinados em GPUs NVIDIA na nuvem.
“Inicialmente, tentamos treinar com CPUs como a opção mais barata, mas demorou uma eternidade, então começamos com uma única GPU e, eventualmente, passamos a usar várias delas na nuvem”, disse ele.
O aplicativo Transcribe resultante captura as mensagens ditadas pelos médicos com mais de 92% de precisão em mais de 200 sotaques africanos. Ele reduz o tempo gasto com a papelada em 6x, em média, de acordo com um estudo em andamento que a Intron está realizando em hospitais de quatro países africanos.
“Mesmo o médico com as habilidades de digitação mais rápidas no estudo obteve uma aceleração de 40%”, disse ele sobre o software program agora em uso em vários hospitais da África.
Ouvindo as vozes da África
Olatunji sabia que seus modelos precisavam de dados de áudio de alta qualidade. Assim, a empresa criou um aplicativo para capturar sons de termos médicos falados em diferentes sotaques.
Até o momento, o aplicativo reuniu mais de um milhão de clipes de mais de 7.000 pessoas em 24 países, incluindo 13 nações africanas. É um dos maiores conjuntos de dados desse tipo, partes dos quais foram lançadas como código aberto para apoiar a pesquisa da fala africana.
Hoje, a Intron atualiza seus modelos a cada dois meses à medida que mais dados chegam.
Nutrindo a Diversidade em Medtech
Existe muito pouca pesquisa sobre reconhecimento de fala para sotaques africanos em um ambiente clínico. Portanto, trabalhar com as comunidades tecnológicas africanas como DSN, Masakhane e ZindiIntron lançado AfriSpeech-200um desafio do desenvolvedor para iniciar a pesquisa usando seus dados.
Da mesma forma, apesar de toda a sua sofisticação, a medtech fica atrás em diversidade e inclusão, então Olatunji lançou recentemente um esforço que aborda essa questão também.
Laboratório Bio-RAMP é uma comunidade world de pesquisadores minoritários que trabalham em problemas com os quais se preocupam na interseção de IA e assistência médica. O grupo já tem meia dúzia de trabalhos em análise em grandes congressos.

“Durante sete anos, fui o único negro em todas as equipes em que trabalhei”, disse ele. “Não havia cientistas ou gerentes negros, mesmo em minhas entrevistas de emprego.”
Enquanto isso, a Intron está até ajudando hospitais na África a encontrar maneiras criativas de adquirir o {hardware} de que precisam. É mais um desafio a caminho de abrir grandes oportunidades.
“Uma vez que os dados de saúde são digitalizados, você abre um mundo totalmente novo para pesquisas em áreas como modelos preditivos que podem ser sistemas de alerta precoce para epidemias – não podemos fazer isso sem dados”, disse Olatunji.
Assistir uma masterclass (a partir das 20:30) com Olatunji, HuggingFace e NVIDIA em IA para reconhecimento de voz.