Prêmio Hutter - Hutter Prize

O Prêmio Hutter é um prêmio em dinheiro financiado por Marcus Hutter que recompensa melhorias na compressão de dados em um arquivo de texto em inglês de 1 GB específico. Especificamente, o prêmio concede 5.000 euros para cada melhoria de um por cento (com financiamento total de 500.000 euros) no tamanho compactado do arquivo enwik9 , que é o maior dos dois arquivos usados ​​no Benchmark de Compressão de Texto Grande; enwik9 é o primeiro 1.000.000.000 de caracteres de uma versão específica da Wikipedia em inglês . A competição contínua é organizada por Hutter, Matt Mahoney e Jim Bowery.

Metas

O objetivo do Prêmio Hutter é incentivar a pesquisa em inteligência artificial (IA). Os organizadores acreditam que a compressão de texto e IA são problemas equivalentes. Hütter provou que o comportamento ideal de um agente que busca objetivos em um ambiente desconhecido, mas computável, é adivinhar, a cada etapa, que o ambiente é provavelmente controlado por um dos programas mais curtos consistentes com todas as interações até agora. No entanto, não há uma solução geral porque a complexidade de Kolmogorov não é computável. Hütter provou que no caso restrito (denominado AIXI tl ) onde o ambiente é restrito ao tempo t e espaço l , uma solução pode ser calculada no tempo O (t2 l ), que ainda é intratável.

Os organizadores acreditam ainda que compactar texto em linguagem natural é um problema difícil de IA, equivalente a passar no teste de Turing . Assim, o progresso em direção a uma meta representa o progresso em direção a outra. Eles argumentam que prever quais caracteres têm maior probabilidade de ocorrer em uma sequência de texto requer um vasto conhecimento do mundo real. Um compressor de texto deve resolver o mesmo problema para atribuir os códigos mais curtos às sequências de texto mais prováveis.

Regras

O concurso é aberto. Está aberto a todos. Para participar, o concorrente deve apresentar um programa de compressão e um descompactador que descompacta para o arquivo enwik9 . Também é possível enviar um arquivo compactado em vez do programa de compactação. O tamanho total do arquivo compactado e descompressor (como um executável Win32 ou Linux) não deve ser maior do que 99% da entrada ganhadora do prêmio anterior. Para cada melhoria de um por cento, o concorrente ganha 5.000 euros. O programa de descompressão também deve atender às restrições de tempo de execução e memória, atualmente 100 horas em 1 núcleo de uma CPU de 3 GHz com 10 GB de memória. Essas restrições podem ser relaxadas no futuro.

As submissões devem ser publicadas para permitir uma verificação independente. Há um período de espera de 30 dias para comentários públicos antes de conceder um prêmio. As regras não exigem a liberação do código-fonte, a menos que tal liberação seja exigida pela licença do código (como no caso do PAQ , que é licenciado sob GPL ).

História

O prêmio foi anunciado em 6 de agosto de 2006 com um arquivo de texto menor: enwik8 consistindo de 100 MB. Em 21 de fevereiro de 2020 foi ampliado por um fator de 10, para enwik9 de 1GB, da mesma forma, o prêmio vai de 50.000 a 500.000 euros. A linha de base do prêmio original era 18.324.887 bytes, alcançada pelo PAQ 8F. A linha de base do prêmio expandida foi de 116 MB.

Em 16 de agosto de 2006, Rudi Cilibrasi apresentou uma versão modificada do PAQ8F chamada RAQ8G que adicionou modelagem de parênteses. No entanto, não atingiu o limite de 1%.

No mesmo dia, mas algumas horas depois, Dmitry Shkarin apresentou uma versão modificada de seu compressor DURILCA chamado DURILCA 0,5h, que melhorou a compressão em 1,5%. No entanto, ele foi desqualificado por usar 1,75 GB de memória. A decisão de desqualificar foi controversa porque os limites de memória não foram claramente especificados nas regras da época.

Em 20 de agosto, Alexander Ratushnyak enviou o PAQ8HKCC, uma versão modificada do PAQ8H, que melhorou a compressão em 2,6% em relação ao PAQ8F. Ele continuou a melhorar a compressão para 3,0% com PAQ8HP1 em 21 de agosto, 4% com PAQ8HP2 em 28 de agosto, 4,9% com PAQ8HP3 em 3 de setembro, 5,9% com PAQ8HP4 em 10 de setembro e 5,9% com PAQ8HP5 em 25 de setembro. ponto ele foi declarado o primeiro vencedor do prêmio Hütter, concedido 3416 euros, e a nova linha de base foi definida para 17.073.018 bytes.

Ratushnyak quebrou seu recorde várias vezes, tornando-se o segundo (em 14 de maio de 2007, com PAQ8HP12 compactando enwik8 para 16.481.655 bytes e ganhando 1.732 euros), terceiro (em 23 de maio de 2009, com decomp8 compactando o arquivo para 15.949.688 bytes, e ganhando 1.614 euros), e quarto (em 4 de novembro de 2017, com phda comprimindo o arquivo para 15.284.944 bytes, e ganhando 2.085 euros) vencedor do prêmio Hütter.

Veja também

Referências

  1. ^ Marcus Hutter, Concurso de Compressão do Conhecimento Humano, http://prize.hutter1.net/
  2. ^ [1]
  3. ^ a b Matt Mahoney, Sobre os dados de teste http://mattmahoney.net/dc/textdata.html
  4. ^ Marcus Hutter, Universal Artificial Intelligence: Sequential Decisions based on Algorithmic Probability, Springer, Berlin, 2004, http://www.hutter1.net/ai/uaibook.htm
  5. ^ Matt Mahoney, Rationale for a Large Text Compression Benchmark, 2006, http://mattmahoney.net/dc/rationale.html
  6. ^ http://www.compression.ru/ds/

links externos