Limitações

Transparência radical sobre o que falta:

Cobertura

  • Só war.gov/UFO/: AARO (aaro.mil) e ODNI (dni.gov/uap) ainda não estão incluídos.
  • Antes de 1947: cobertura esparsa. Foo Fighters, Ghost Rockets e Battle of Los Angeles têm página, mas o material primário existe principalmente em arquivos militares ainda não desclassificados.
  • Incidentes brasileiros: mantemos páginas curadas (Colares, Varginha, Trindade), mas sem documento oficial brasileiro — limitação da fonte.

Qualidade do OCR

  • Manuscrito: 88–93% de acurácia em scans 1947–1960. Pode haver letras trocadas em palavras incomuns ou abreviações.
  • Documentos muito redigidos: páginas com >50% de pixels pretos têm OCR pobre por design.
  • Datas inferidas: quando o documento não tem data explícita, usamos a data do CSV oficial ou inferência LLM — marcado como ~data na UI.

Vídeos

  • Transcrição de áudio: ainda não implementada na v1. Player funciona, mas legendas sincronizadas virão na v1.1.
  • Frames-chave: vídeos ainda não têm extração de frames como itens visuais.

Tradução

  • Idiomas suportados: PT-BR (default), EN, ES. Outros idiomas precisam ser solicitados.
  • Tradução de OCR completo: só títulos, resumos e captions são traduzidos. Texto OCR fica no idioma original (predominantemente EN).

Busca

  • Sem busca semântica: full-text com BM25, sem embeddings. "platillo volador" não acha "flying saucer" sem digitar uma das duas formas exatamente.
  • Latência de re-index: novo conteúdo aparece após o próximo build (~minutos), não em tempo real.

Mudanças no site oficial

  • Diff automático: ainda em desenvolvimento. Por enquanto, snapshots manuais do manifest.
  • Itens removidos do war.gov: mantemos o arquivo localmente, mas pode haver atraso até detectarmos a remoção.

Atribuição

  • Em alguns documentos, agência primária e secundária ficam ambíguas — usamos a primeira agência mencionada no entities.agencies da extração. Pode não refletir a fonte real.

Se você encontrar um erro material, abra issue no GitHub ou use o canal de contato.

UFO Archive

Public archive of UFO/UAP documents released by the US Department of War

Documents
About
Preserved archive.

Official source: war.gov/UFO/

US government content in the public domain (17 U.S.C. § 105). Curation under MIT license.