Em formação

Pesquisadores procuram no cérebro algoritmos para o problema da festa

Pesquisadores procuram no cérebro algoritmos para o problema da festa


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

A capacidade de um computador de reconhecer alguns sinais ocultos em uma massa de dados ruidosos, mas não outros, é um problema bem conhecido e atualmente intratável para cientistas da computação que trabalham no campo da linguagem e do processamento de som. Conhecido como o problema do coquetel, algoritmos que podem identificar uma voz específica e amplificá-la ao mesmo tempo em que amortecem a cacofonia de outras vozes, ruídos e distorções produzidos pelo ambiente permanecem indefinidos até hoje.

RELACIONADOS: ESTE DISPOSITIVO DE COMPUTADOR-CÉREBRO DÁ VOZ PARA QUEM NÃO PODE FALAR

Felizmente, os cientistas têm um sistema para modelar para ajudá-los a resolver esse problema: o cérebro humano. Os seres humanos são animais sociais e, como tal, nossos cérebros foram altamente evoluídos para isolar e focar na voz da pessoa com quem estamos falando, amortecendo e muitas vezes suprimindo outras vozes e ruídos ambientais inteiramente para ouvir o que uma pessoa está dizendo. Agora, os pesquisadores estão começando a fazer progressos significativos na compreensão de como o cérebro isola e processa uma voz específica entre muitas, bem como no desenvolvimento de novas abordagens para resolver o problema.

O efeito do coquetel

O efeito do coquetel, como é conhecido, é a capacidade do cérebro humano de se concentrar em uma única voz em uma multidão e isolá-la do ruído ambiental circundante. Embora isso possa parecer bastante direto para alguns, é fácil tomar o efeito do coquetel como certo e não apreciar o quão extraordinário é um processo neurológico.

Em uma multidão, as vozes são distrações no ar circundante que se chocam e se espalham umas nas outras, tornando difícil ouvir a voz de alguém, a menos que ela simplesmente domine todo o resto seja gritando ou algo semelhante. Como essa não é uma solução ideal para o problema dos coquetéis, nosso cérebro faz outra coisa que é bastante extraordinária.

Em frações de segundo, nosso cérebro identifica e isola o sinal de voz da pessoa que queremos ouvir e o amplifica. Em seguida, ele filtra ou mascara todos os outros sinais de voz ou ruído de modo que esses sons sejam suprimidos, permitindo-nos ouvir o que uma pessoa está dizendo na maioria das circunstâncias sociais.

Todos os dias, nosso cérebro processa uma infinidade de sons que ele prioriza em frações de segundo. E assim como eles estão continuamente removendo a imagem daquela parte do nosso nariz que se estende fisicamente em nosso campo de visão desobstruído, nosso cérebro amplifica os sons que estamos focalizando e suprime os outros ruídos de baixa prioridade no ambiente para que eles desaparecer funcionalmente.

Mas como exatamente nossos cérebros alcançam esse incrível efeito de coquetel era um mistério por décadas depois que o "problema do coquetel" foi discutido pela primeira vez por pesquisadores na década de 1950. Felizmente, a pesquisa dos últimos anos lançou luz sobre como nossos cérebros identificam e isolam esses sinais de voz tão importantes em ambientes sociais, nos aproximando muito mais do que nunca de replicar o mesmo processo usando uma máquina.

Segregação de diferentes sinais de voz no córtex auditivo

o última década viu grandes melhorias em nossa compreensão de como os humanos identificam e processam a fala e a linguagem. Dois pesquisadores apoiados pelo Instituto Nacional de Surdez e Outros Distúrbios da Comunicação dos Estados Unidos publicando um artigo notável na revista Natureza dentro 2012 que mostrou como podíamos não apenas ver como o cérebro estava filtrando e distinguindo entre sinais de voz concorrentes, mas os pesquisadores foram até mesmo capazes de prever qual palavra o entrevistado estava ouvindo.

Edward Chang, Ph.D., neurocirurgião e professor associado da Universidade da Califórnia em San Francisco (UCSF), inicialmente não estava procurando identificar como os humanos alcançam o efeito de coquetel; ele estava tratando de pacientes com epilepsia. Ele implantou uma folha de 256 eletrodos logo abaixo do crânio de seus pacientes para monitorar a atividade elétrica na camada externa dos neurônios de seus lobos temporais.

Chang e Nima Mesgarani, Ph.D., um pós-doutorando na UCSF, percebeu que esses pacientes apresentavam a eles uma rara oportunidade. Com seu equipamento sofisticado - que era sensível o suficiente para detectar o disparo de um único neurônio - e o fato de que os eletrodos intracranianos também seriam capazes de monitorar o córtex auditivo - que está localizado no lobo temporal - eles poderiam estudar como o cérebro processa o som em detalhes sem precedentes.

Três voluntários ouviram gravações de áudio simultâneas, uma lida por uma mulher e a outra por um homem, com instruções para ouvir uma das duas palavras-alvo específicas que iniciariam a amostra de áudio, então eles relatariam qual era a voz no áudio amostra disse após essas palavras. Ao analisar as leituras dos eletrodos usando um algoritmo de decodificação que poderia identificar padrões e reconstruir o que o sujeito ouviu, os pesquisadores descobriram que as leituras dos eletrodos captaram apenas o padrão do falante-alvo, o que significa que o córtex auditivo ignora o que não é orador alvo inteiramente.

“Muitas pessoas pensavam que o córtex auditivo estava apenas passando essas informações para a parte cognitiva do cérebro, o córtex frontal e as áreas de controle executivo, onde seriam realmente processadas”, disse Chang. “O que descobrimos foi que o córtex auditivo é em si bastante sofisticado. É como se soubesse quais sons devem ser agrupados e só extraia aqueles que são relevantes para o falante único. ”

Ainda mais notável é o fato de que o algoritmo de decodificação foi capaz de prever qual alto-falante o sujeito estava ouvindo com base apenas na atividade neural e que foi capaz de detectar o momento em que a atenção do sujeito mudou ou se desviou para o outro falante. O que isso nos diz é que o córtex auditivo contém a chave para entender como o cérebro humano pode lidar com o problema do coquetel de uma forma que os computadores atualmente não conseguem.

Diferenciando a voz do som

Embora um computador possa decodificar a atividade neural do cérebro e saber exatamente o que o córtex auditivo realmente ouviu, isso não é suficiente para superar o problema da festa por conta própria; ainda precisamos saber como o cérebro realmente faz essas distinções e diferencia os sinais de voz e outros ruídos ambientais para focar na voz alvo.

Pesquisadores da Universidade de Genebra, Suíça (UNIGE) e da Universidade de Maastricht, na Holanda, publicaram um artigo neste verão no jornal Nature Human Behavior que tentou chegar à raiz do mecanismo desse processo, ou seja, como o cérebro processa as vozes que ouvimos e as palavras que estão sendo faladas.

Para fazer isso, os pesquisadores desenvolveram uma coleção de pseudopalavras - palavras sem significado - faladas por um foneticista treinado em três tons diferentes. Os sujeitos que ouviram as amostras de voz foram então solicitados a realizar as tarefas auditivas específicas de diferenciação entre diferentes tons de uma mesma voz ou ouvindo os próprios sons da fala, conhecidos como fonemas.

“Criamos 120 pseudopalavras que atendem à fonologia da língua francesa, mas que não fazem sentido, para garantir que o processamento semântico não interferisse na percepção pura dos fonemas”, disse Narly Golestani, professor da Seção de Psicologia da UNIGE Faculdade de Psicologia e Ciências da Educação (FPES) e co-autora do artigo.

Sanne Rutten, pesquisadora do FPES da UNIGE e coautora do artigo, disse que a tarefa de diferenciar as vozes do locutor precisava ser o mais difícil possível para o sujeito estudar com precisão a forma como o cérebro realiza essa audição em processamento. "Para tornar a diferenciação das vozes tão difícil quanto a diferenciação dos sons da fala, criamos a percepção de três vozes diferentes a partir dos estímulos gravados, em vez de gravar três pessoas realmente diferentes."

Antes do teste, os pesquisadores analisaram as diferenças nos parâmetros acústicos entre os sons da voz e os sons dos fonemas, como frequência - alta ou baixa - modulação temporal - velocidade percebida do som falado - e modulação espectral - o forma como a energia do som é distribuída nas várias frequências. Determinou-se que modulações espectrais altas são mais úteis na diferenciação de diferentes amostras de voz, e que modulações espectrais baixas, juntamente com modulação temporal rápida, foram mais úteis na identificação de diferenças em fonemas.

Durante o teste propriamente dito, os sujeitos foram solicitados a identificar três sons específicos da fala - / p /, / t /, ou / k /, como nas pseudopalavras preperibion, gabratade e ecalimacre - ou identificar se a amostra havia sido falada por voz um, dois ou três. Durante o teste, seus cérebros foram escaneados por uma máquina de ressonância magnética funcional (fMRI) para monitorar a oxigenação do sangue do cérebro, uma maneira altamente eficaz de identificar quais partes do cérebro estavam mais ativas, uma vez que mais atividade requer mais oxigênio do que menos ativa regiões do cérebro.

Ao usar um modelo de computador para analisar os resultados de fMRI, os pesquisadores descobriram que o córtex auditivo amplificou as modulações espectrais mais altas quando foi encarregado de diferenciar vozes e quando foi solicitado a identificar os fonemas específicos nas amostras, ele se concentrou no temporal mais rápido modulações e modulações espectrais mais baixas sobre outros estímulos.

"Os resultados mostram grandes semelhanças entre as informações da tarefa nos próprios sons e os dados neurais de fMRI", disse Golestani.

Isso demonstra que o córtex auditivo processa o mesmo som de maneira diferente, dependendo da tarefa específica que está tentando realizar, revelando a mecânica essencial envolvida em como ouvimos as pessoas que estão falando conosco e como nosso cérebro distingue entre diferentes vozes. "Esta é a primeira vez que foi mostrado, em humanos e usando métodos não invasivos, que o cérebro se adapta à tarefa em mãos de uma maneira que seja consistente com a informação acústica que é atendida nos sons da fala", disse Rutten.

Resolvendo o problema da festa com algoritmos modelados no córtex auditivo

Conforme nossa compreensão do que acontece dentro do córtex auditivo aumenta e descobrimos mais sobre a mecânica do efeito coquetel, podemos usar esses novos insights para melhorar a maneira como os sistemas de computador processam o som da voz humana. Embora os sistemas de processamento de linguagem natural, como a API de voz para texto do Google, sejam certamente poderosos, seus melhores algoritmos para o problema da festa ainda são inadequados. Levará vários anos, pelo menos, até que a pesquisa neurológica no córtex auditivo produza o tipo de descoberta que nos permite desenvolver os algoritmos certos para reproduzir o efeito da festa em computadores.

Até então, o tipo de interface de computador controlada por voz, como as vistas em Star Trek, permanecerá fora de alcance. Mas a pesquisa no córtex auditivo mostra-se muito promissora e os dados que coletamos até agora de estudos neurológicos mostram que pesquisas futuras dessa região do cérebro provavelmente revelarão novas mecânicas neurológicas essenciais para o desenvolvimento de algoritmos eficientes para o coquetel problema de festa.


Assista o vídeo: Andamento das Pesquisas e Ensaios Clínicos COVID-19 no Einstein (Julho 2022).


Comentários:

  1. Jushakar

    Agora tudo ficou claro para mim, obrigado por sua ajuda neste assunto.

  2. Lapu

    Você tem certeza de estar certo

  3. Birkey

    Eu concordo que este tópico já é tão chato!

  4. Merritt

    Esta é uma mensagem muito valiosa

  5. Geraldo

    Que palavras... grande, a frase notável



Escreve uma mensagem