O sistema de estatísticas da LA Referencia opera em uma infraestrutura compartilhada na Amazon AWS, mantida como parte dos serviços fornecidos pela LA Referencia, graças às contribuições dos países membros e ao apoio da SCOSS.

A infraestrutura é baseada em um conjunto de componentes abertos publicados no GitHub como parte do compromisso de contribuir para o Ecossistema Global de Ciência Aberta.

Componentes de banco de dados de fontes, administração e bibliotecas de normalização de identificadores
Componentes de armazenamento e preservação de eventos
Componentes de processamento, limpeza, normalização e agregação de eventos
Componentes de serviços web para repositórios e agregadores

Acessando aqui, você poderá ver todo o código-fonte dos componentes

Componentes de banco de dados de fontes, administração e bibliotecas de normalização de identificadores

Banco de Dados do Serviço de Estatísticas de Uso

Acesso ao código e manuais de instalação

https://github.com/lareferencia/lareferencia-usage-stats-db

Sistema de Administração e Orquestração

Acesso ao código e manuais de instalação

https://github.com/lareferencia/lareferencia-usage-stats-admin

Componente de Armazenamento e Preservação de Eventos

Armazenamento AWS S3 e Matomo para S3

Acesso ao código e manuais de instalação

https://github.com/lareferencia/lareferencia-usage-stats-processor

Componente de Processamento, Limpeza, Normalização e Agregação de Eventos

Software de processamento desenvolvido em Python com o objetivo de filtrar e normalizar as informações armazenadas no S3 Parquet, que depois são persistidas em índices Elastic/OpenSearch.

Carregamento de arquivos Parquet do Amazon S3
Essa etapa carrega arquivos Parquet de um repositório específico em uma data determinada. Durante esse processo, são extraídos os dados de sessão do usuário e os eventos associados a essa sessão.

Filtro de robôs
O propósito dessa etapa é melhorar a confiabilidade dos dados estatísticos. O filtro permite identificar e eliminar as sessões e eventos gerados por robôs, garantindo que apenas dados autênticos sejam analisados.

Filtro de assets
Semelhante à etapa anterior, esta fase continua a melhorar a qualidade dos dados estatísticos. Aqui, eventos errôneos, como os “downloads” de miniaturas (thumbnails), são detectados e eliminados quando o coletor de estatísticas registra incorretamente a visualização de uma miniatura como um download.

Cálculo de métricas
Nesta etapa, são calculadas as visualizações, downloads e links associados a uma sessão específica e seu identificador. Além disso, uma nova métrica chamada “conversões” é introduzida, baseada em combinações de visualizações com downloads ou visualizações com links.

Agregação de dados
Esta fase agrega dados por item (identificador), calculando as visualizações, downloads, links e conversões de um item, independentemente das sessões que o consultaram. Esses dados também são agregados por país de origem do evento.

Normalização de identificadores
O objetivo desta etapa é homogenizar e padronizar os identificadores (identifiers) provenientes dos repositórios, melhorando a consistência dos dados.

Indexação no ElasticSearch/OpenSearch
Nesta etapa final, são feitos os últimos ajustes no fluxo de dados para garantir uma indexação eficaz e eficiente no OpenSearch ou ElasticSearch.

Pipeline S3 para Elastic/OpenSearch

Acesso ao código e manuais de instalação

https://github.com/lareferencia/lareferencia-usage-stats-processor

Componente de Serviços Web para Repositórios e Agregadores

Serviços Web de Estatísticas de Uso

Acesso ao código e manuais de instalação

https://github.com/lareferencia/lareferencia-usage-services