Docling: a mais recente oferta de software livre com foco corporativo da IBM para IA generativa

Docling: a mais recente oferta de software livre com foco corporativo da IBM para IA generativa

É bom ver kits de ferramentas de código aberto para fazer IA generativa.

A IBM tem uma longa trajetória de inovação no setor tecnológico, sempre se reinventando para acompanhar as tendências globais. Não é de se surpreender que a onda da inteligência artificial (IA) tenha atraído sua atenção.

Recentemente, a IBM apresentou a família Granite 3.0 de LLMs de código aberto, além de atualizações para sua plataforma empresarial de IA, o RHEL AI. Agora, eles deram mais um passo à frente com o lançamento oficial do Docling, um projeto que começou a ser desenvolvido em julho de 2024.

Docling: Um novo marco em processamento de documentos

Fluxo do processo Docling

Fluxo do processo do Docling. (Fonte: GitHub)

O Docling é um kit de ferramentas de código aberto licenciado sob a Licença MIT. Ele foi projetado para extrair informações de documentos e exportá-las para os formatos Markdown e JSON, facilitando sua integração com grandes modelos de linguagem (LLMs) e modelos base.

Como funciona?

A ferramenta utiliza dois modelos principais desenvolvidos por pesquisadores da IBM:

  1. Modelo de visão: Emprega técnicas de detecção de objetos para analisar o layout de páginas em documentos. Isso permite identificar e classificar componentes como blocos de texto, imagens e tabelas.

  2. TableFormer: Converte tabelas baseadas em imagem em formatos estruturados e legíveis por máquinas, organizando os dados em linhas e colunas.

Casos de uso e desempenho

O Docling já foi extensivamente testado. Um exemplo impressionante é o trabalho realizado pelo InstructLab, que utilizou a ferramenta para processar 2 milhões de PDFs do Common Crawl, transformando dados brutos em material utilizável para treinar IA.

Além disso, há planos ambiciosos para processar 1,8 bilhão de PDFs, alimentando dados para futuras versões do Granite.

Aplicações corporativas

Docling é voltado para empresas que precisam organizar grandes volumes de dados estruturados, como manuais técnicos, guias de usuários e documentos legais. Um uso típico seria o treinamento de modelos de IA internos, ajudando no compartilhamento de conhecimento e na otimização de processos.

No futuro, a IBM planeja expandir a funcionalidade do Docling para lidar com dados mais complexos, como equações matemáticas e gráficos.

Como começar com o Docling

A ferramenta oferece uma interface de linha de comando e uma API Python, otimizada para rodar até mesmo em laptops comuns. Segundo a IBM, são necessárias apenas cinco linhas de código para integrá-la com estruturas LLM de código aberto, como LlamaIndex e LangChain.

Para explorar o Docling:

Com o Docling, a IBM reforça sua posição como pioneira em soluções de IA de código aberto. Descubra mais no repositório oficial.

Última atualização deste artigo: 17 de november de 2024