Limitações
Transparência radical sobre o que falta:
Cobertura
- Só war.gov/UFO/: AARO (
aaro.mil) e ODNI (dni.gov/uap) ainda não estão incluídos. - Antes de 1947: cobertura esparsa. Foo Fighters, Ghost Rockets e Battle of Los Angeles têm página, mas o material primário existe principalmente em arquivos militares ainda não desclassificados.
- Incidentes brasileiros: mantemos páginas curadas (Colares, Varginha, Trindade), mas sem documento oficial brasileiro — limitação da fonte.
Qualidade do OCR
- Manuscrito: 88–93% de acurácia em scans 1947–1960. Pode haver letras trocadas em palavras incomuns ou abreviações.
- Documentos muito redigidos: páginas com >50% de pixels pretos têm OCR pobre por design.
- Datas inferidas: quando o documento não tem data explícita, usamos a data do CSV oficial ou inferência LLM — marcado como
~datana UI.
Vídeos
- Transcrição de áudio: ainda não implementada na v1. Player funciona, mas legendas sincronizadas virão na v1.1.
- Frames-chave: vídeos ainda não têm extração de frames como itens visuais.
Tradução
- Idiomas suportados: PT-BR (default), EN, ES. Outros idiomas precisam ser solicitados.
- Tradução de OCR completo: só títulos, resumos e captions são traduzidos. Texto OCR fica no idioma original (predominantemente EN).
Busca
- Sem busca semântica: full-text com BM25, sem embeddings. "platillo volador" não acha "flying saucer" sem digitar uma das duas formas exatamente.
- Latência de re-index: novo conteúdo aparece após o próximo build (~minutos), não em tempo real.
Mudanças no site oficial
- Diff automático: ainda em desenvolvimento. Por enquanto, snapshots manuais do manifest.
- Itens removidos do war.gov: mantemos o arquivo localmente, mas pode haver atraso até detectarmos a remoção.
Atribuição
- Em alguns documentos, agência primária e secundária ficam ambíguas — usamos a primeira agência mencionada no
entities.agenciesda extração. Pode não refletir a fonte real.
Se você encontrar um erro material, abra issue no GitHub ou use o canal de contato.