O Ubuntu 26.10 receberá o Projeto Myna, uma solução de ditado por voz que funciona totalmente offline, garantindo privacidade e integração nativa ao ambiente de desktop. A iniciativa, batizada em homenagem ao pássaro mímico, tem como objetivo oferecer uma experiência de fala‑para‑texto natural, sem depender de serviços na nuvem.

O que será entregue na versão 26.10

Ditado simples: ao pressionar um atalho de teclado, o usuário fala livremente e o texto aparece instantaneamente no aplicativo ativo.
Feedback visual: indicadores claros mostram quando o reconhecimento está em andamento.
Execução local: os modelos de reconhecimento de voz são carregados e processados apenas na máquina do usuário, sem necessidade de conexão com a internet.

A primeira versão será otimizada para o Ubuntu Desktop rodando Wayland com GNOME como ambiente validado, porém a arquitetura foi planejada para suportar outros desktops futuramente.

Escopo inicial e funcionalidades excluídas

Para garantir estabilidade, o lançamento inicial não inclui assistentes de voz, comandos de controle do desktop, traduções automáticas ou detecção de idioma. Essas funcionalidades poderão ser avaliadas em versões posteriores, após a consolidação dos fundamentos.

Privacidade por design

Processamento local: os modelos de reconhecimento são executados no próprio hardware.
Sem upload: nenhum áudio gravado é enviado a serviços externos.
Uso explícito do microfone: o microfone só é ativado quando o usuário inicia o ditado.
Descarte imediato: os dados de áudio são mantidos em memória volátil e descartados após o uso.

Arquitetura modular

Myna foi desenvolvida como uma plataforma modular, separando o motor de reconhecimento de voz da camada de interação com o usuário e da injeção de texto nas aplicações. Essa divisão permite aprimorar componentes individuais sem alterar a experiência geral.

myna

Figura: Visão geral da arquitetura de reconhecimento de fala do Myna.

Próximos passos e envolvimento da comunidade

Após o lançamento no 26.10, a equipe pretende refinar a integração com o desktop e melhorar a naturalidade e precisão do ditado, guiada pelo feedback dos usuários. O projeto está aberto a contribuições de:

Usuários que dependem de tecnologias assistivas
Desenvolvedores e testadores de reconhecimento de fala no Linux
Redatores de documentação
Qualquer pessoa interessada em aprimorar a experiência de desktop

Não é necessário conhecimento avançado em machine learning para participar. As especificações técnicas e documentos de arquitetura estão disponíveis no repositório oficial do projeto.