📋

Fatos Principais

  • Z80-μLM é um modelo de linguagem em nível de caractere com pesos quantizados de 2 bits.
  • O sistema inteiro cabe em um arquivo .COM de 40KB.
  • Ele roda em um processador Z80 com 64KB de RAM.
  • O modelo pode jogar uma versão simplificada de 20 Perguntas.
  • O treinamento usou quantização consciente com estimadores de passagem direta.

Resumo Rápido

Um novo projeto demonstra a viabilidade da IA conversacional em hardware legado. Z80-μLM é um modelo de linguagem em nível de caractere projetado especificamente para operar dentro dos limites estritos de um processador Z80 e 64KB de RAM. Diferente dos modernos grandes modelos de linguagem que exigem gigabytes de memória e GPUs poderosas, este modelo cabe em sua totalidade em um compacto arquivo .COM de 40KB. Isso permite que ele rode em hardware real ou em emuladores que suportam o sistema operacional CP/M.

O modelo utiliza pesos quantizados de 2 bits com valores limitados a {-2, -1, 0, +1}. Embora não tenha capacidade para tarefas de escrita de propósito geral, ele é capaz de jogar uma versão simplificada de 20 Perguntas e engajar em breves conversas com personalidade. A conquista destaca como restrições extremas podem impulsionar soluções de engenharia inovadoras no desenvolvimento de IA.

Arquitetura Técnica e Restrições

Desenvolver um modelo de IA que roda em hardware do final dos anos 1970 exigiu uma releitura completa das técnicas modernas de aprendizado profundo. O desenvolvedor enfrentou o desafio de encaixar lógica de inferência, pesos do modelo e uma interface de usuário de chat em um binário de 40KB. Para alcançar isso, o projeto depende de hashing de trigramas, uma técnica que é tolerante a erros de digitação mas sacrifica a ordem das palavras. Além disso, o sistema usa matemática inteira de 16 bits em vez da aritmética de ponto flutuante padrão na IA contemporânea.

A arquitetura foi fortemente influenciada pela necessidade de igualar as limitações de hardware do Z80. Especificamente, o desenvolvedor teve que considerar os limites do acumulador de 16 bits do processador. O processo de treinamento foi projetado para lidar com essas restrições desde o início, garantindo que o modelo não exigisse ajustes pós-treinamento que pudessem causar colapso de quantização.

Metodologia de Treinamento 🧠

A chave para o sucesso do Z80-μLM reside em sua abordagem de treinamento única, conhecida como treinamento consciente de quantização. Em vez de treinar um modelo padrão e comprimi-lo depois, o desenvolvedor executou duas passagens para frente em paralelo durante o treinamento: uma usando números de ponto flutuante padrão e outra usando valores inteiros quantizados. Isso permitiu que o sistema pontuasse o modelo sobre o quão bem seu conhecimento sobreviveu ao processo de quantização.

O loop de treinamento empurrou ativamente os pesos em direção à grade de 2 bits usando estimadores de passagem direta. Para evitar erros, o sistema aplicou penalidades de estouro que espelhavam os limites do acumulador de 16 bits do Z80. Este método garantiu que, ao final do treinamento, o modelo estivesse totalmente adaptado às restrições de seu hardware alvo, eliminando o risco de colapso de quantização pós-fato.

Geração de Dados e Capacidades

Para ensinar o modelo a jogar o jogo de 20 Perguntas, o desenvolvedor precisava de um conjunto de dados específico. O projeto utilizou a API Claude para gerar esses dados de treinamento. Alguns dólares foram gastos na API para criar exemplos adequados para o formato de jogo simplificado. Esses dados permitem que o modelo funcione como um parceiro de conversação em um contexto limitado.

Apesar de seu pequeno tamanho, o Z80-μLM é capaz de manter a ilusão de uma conversa. Ele possui uma personalidade distinta e pode engajar em trocas curtas. No entanto, sua utilidade é estritamente definida por seus dados de treinamento; ele não pode generalizar para tarefas como composição de e-mails ou raciocínio complexo, focando em vez disso em seu nicho conversacional específico.

Conclusão

O Z80-μLM representa uma intersecção fascinante entre retrocomputação e técnicas modernas de IA. Ao aderir estritamente às limitações de 64KB de RAM e um tamanho de arquivo de 40KB, o projeto prova que interações de IA úteis são possíveis mesmo em hardware severamente restrito. O uso de treinamento consciente de quantização e matemática inteira oferece um plano para futuros projetos que visam rodar IA em sistemas embarcados ou dispositivos legados. Embora possa não substituir assistentes modernos, ele se destaca como uma conquista técnica significativa em code golf e design eficiente de modelos.