As trinta e cinco boas práticas da recomendação DWBP são frutos de um trabalho minucioso de coleta e análise de casos de usos de dados na web.
Até o início dos anos 2000, o compartilhamento na web era essencialmente de textos, e as tecnologias web eram focadas, portanto, no desenvolvimento da web de documentos, de modo a interligar documentos através de links de hipertexto. Embora a web de documentos ainda exista, a crescente disponibilização de dados na web deu origem à web de dados ou web semântica, que é a atribuição semântica – isto é, de significados – aos dados e recursos disponibilizados na web, interligando-os com o uso de tecnologias web; dessa forma, a web semântica possibilitaria que máquinas compreendessem recursos e dados disponíveis na web.
Dado o contexto de disponibilização e compartilhamento de dados abertos, caracterizado pela carência de padrões e documentação oficial – que levava a dificuldades como comparação de dados abertos com outras fontes, termos de uso conflitantes, impossibilidade de agregar e/ou limpar bases e insegurança com relação à fidedignidade e origem do dado, foi criado, em dezembro de 2013, o Grupo de Trabalho Boas Práticas para Dados na Web (do inglês Data on the Web Best Practice Working Group – DWBP WG) do W3C, dentro da área Data Activity. O grupo de trabalho tinha como missão desenvolver o ecossistema de dados abertos, facilitando uma melhor comunicação entre desenvolvedores e editores, fornecer orientação àqueles que trabalham publicando e/ou utilizando dados para contribuir com a consistência na gestão dos dados, promovendo, assim, sua reutilização, fomentar a confiança nos dados entre os desenvolvedores, independentemente da tecnologia que escolherem usar, aumentando o potencial de inovação.
Após alguns anos de estudo e imersão se debruçando sobre o desafio de contribuir para um entendimento entre produtores e consumidores de dados para alcançar a missão do grupo de trabalho – processo registrado em diversos documentos tais como as versões da recomendação, casos de uso e requisitos das boas práticas para dados na web, vocabulários como qualidade de dados e uso de dados e outros documentos que podem ser encontrados na página do grupo de trabalho – em 2017 foi publicada a recomendação Data on the Web Best Practices (DWBP).
Contemplando o processo de reflexão e discussão em torno da publicação de dados na web, o documento DWBP traz trinta e cinco boas práticas “que estende classificações como o esquema de cinco estrelas dos dados abertos e os princípios dos dados abertos governamentais, ao trazer práticas em um cenário mais amplo, baseada em padrões já estabelecidos na web para a recuperação de informações”.
Assim, as boas práticas presentes na recomendação DWBP foram desenvolvidas com o objetivo de estimular e possibilitar a expansão da web como um ambiente para a troca de dados. Com a finalidade de que publicadores e consumidores de dados se beneficiem ao máximo da arquitetura web – conjunto de tecnologias que entrelaçadas sustentam a web – no contexto de publicação de dados na web, o documento visa alcançar seu objetivo melhorando a comunicação entre publicadores e consumidores de dados.
Por publicadores (ou produtores de dados) de dados entende-se pessoa ou grupo responsável por gerar e manter dados, que tem como expectativa compartilhar dados abertamente ou de maneira controlada. E por consumidores de dados, pessoa ou grupo que objetiva acessar, usar e também realizar etapas de pós-processamento dos dados. “A combinação dessas expectativas faz com que seja fundamental um alinhamento entre os publicadores e os consumidores de dados. Sem tal concordância, os esforços dos publicadores podem tornar-se incompatíveis com os desejos dos consumidores de dados”.
Ciclo de Vida dos Dados na Web
Para melhor compreender os desafios, resultados pretendidos e boas práticas indicadas na recomendação DWBP, é importante compreender o ciclo de vida dos dados na web. O ciclo contempla uma estrutura básica circular que facilita contextualizar momentos e características do caminho que o dado percorre na Web.
Inicia-se com a preparação dos dados a serem publicados, o que contempla desde o momento do surgimento da intenção de publicar até a seleção dos dados. Esse é o momento para considerar a segurança, a sensibilidade comercial e, acima de tudo, a privacidade dos indivíduos e, portanto, a proteção de dados pessoais. Na sequência, a criação dos dados diz respeito à elaboração do conjunto de dados: extração dos dados a partir de suas respectivas fontes e transformação/adaptação deles para o formato adequado de publicação na web; nesta fase está presente a criação de metadados – isto é, dados sobre o(s) próprio(s) conjunto(s) de dados disponibilizado(s).
A fase avaliação está relacionada à avaliação dos dados antes da sua publicação, a fim de detectar inconsistências ou erros, bem como apontar possíveis fronteiras de sensibilidade nas quais os dados podem esbarrar. Nesta fase, o caráter cíclico desse esquema faz-se presente: a depender da avaliação, adaptações são necessárias, o que corresponde a uma revisita ao momento de criação da base de dados, para, num segundo momento, voltar à avaliação.
Na fase de publicação os dados são disponibilizados na web, o que pode ser feito por meio de ferramentas de catalogação de dados, como a rede abrangente de arquivamento de conhecimento (do inglês Comprehensive Knowledge Archive Network – CKAN), ou através de interfaces de programação de aplicativos (do inglês Application Programming Interface, APIs).
Após esse processo, os dados estarão disponíveis para serem acessados pelos consumidores, que poderão utilizá-los agregando valor, construindo novos dados, visualizações, aplicações que permitem o cruzamento e a realização de análises sobre os dados, dentre outras possibilidades.
Uma vez consumidos os dados, os consumidores retornam comentários sobre os dados em si e também sobre todos os outros elementos do processo: metadados, acesso, e uso dos dados. Esta fase é chamada de feedback e é fundamental para garantir melhorias e correções nos dados e identificar novos dados relevantes a serem publicados.
Por fim, o refinamento encerra a circularidade do ciclo de vida dos dados na web. Compreendendo todas as atividades relacionadas à manutenção, inclusão e atualização dos dados publicados, essa fase tem como insumo o feedback dos usuários e a periodicidade de atualização dos dados. Esse processo de refinamento abre precedentes para a criação de novos conjuntos de dados, para serem avaliados e posteriormente publicados, dando continuidade ao ciclo de vida.
Ressalta-se que, embora seja ideal começar a publicação de dados na web com a preparação dos dados, nem sempre isso é possível. Assim, há dados que já foram publicados e que não passaram pelo processo de preparação, mas isso não impede de contemplar o ciclo de vida e, se necessário, revisitar as etapas. O ciclo serve, portanto, como base para facilitar o entendimento dos publicadores de dados sobre as etapas idealmente a serem seguidas.
As Boas Práticas
As trinta e cinco boas práticas da recomendação DWBP apresentadas na tabela são frutos de um trabalho minucioso de coleta e análise de casos de usos de dados na web, sintetizado no documento casos de uso e requisitos das boas práticas para dados na web. Cada caso de uso fornece uma descrição sobre a experiência de publicação e uso de dados na web, abordam diferentes domínios e ilustram alguns dos principais desafios enfrentados pelos publicadores e consumidores de dados. Foi a partir deste estudo de casos de uso e requisitos que se deu o levantamento dos desafios, que também são apresentados na tabela abaixo.
Dimensão |
Desafio |
Boas Práticas |
Metadados |
Como eu forneço metadados para pessoas e máquinas? |
(BP 1) Fornecer metadados |
(BP 2) Fornecer metadados descritivos |
||
(BP 3) Fornecer metadados estruturais |
||
Licença dos dados |
Como eu permito e restrinjo o acesso? |
(BP 4) Fornecer informações de licenciamento de dados |
Procedência e qualidade |
Como posso agregar confiança ao dado? |
(BP 5) Fornecer informações sobre a proveniência dos dados |
(BP 6) Fornecer informações sobre a qualidade dos dados |
||
Versionamento dos dados |
Como posso rastrear versões e histórico de versões? |
(BP 7) Fornecer um indicador de versão |
(BP 8) Fornecer histórico de versão |
||
Identificação dos dados |
Como posso identificar conjunto |
(BP 9) Utilizar URIs constantes como identificadores de conjuntos de dados |
|
de dados e distribuições? |
(BP 10) Utilizar URIs constantes como identificadores dentro dos conjuntos de dados |
(BP 11) Designar URIs para versões e séries de conjuntos de dados |
||
Formato dos dados |
Quais formatos de dados devo usar? |
(BP 12) Utilizar formatos de dados padronizados inteligíveis por máquinas |
(BP 13) Utilizar representações de dados de localidade neutra |
||
(BP 14) Fornecer dados em formatos múltiplos |
||
Vocabulário dos dados |
Como posso melhorar a interoperabilidade do dado? |
(BP 15) Reutilizar vocabulários preferencialmente padronizados |
(BP 16) Escolher o nível correto de formalização |
||
Acesso dos dados |
Como posso garantir acesso ao dado? |
(BP 17) Fornecer download em massa |
(BP 18) Fornecer subconjuntos para conjuntos de dados extensos |
||
(BP 19) Utilizar a negociação de conteúdo para disponibilizar dados em formatos múltiplos |
||
(BP 20) Fornecer acesso em tempo real |
||
(BP 21) Fornecer dados atualizados |
||
(BP 22) Fornecer uma justificativa para dados não disponíveis |
||
(BP 23) Disponibilizar dados por meio de uma API |
||
(BP 24) Utilizar pdrões da Web como base para as APIs |
||
(BP 25) Fornecer a documentação completa para sua API |
||
(BP 26) Evitar modificações que quebrem sua API |
||
Preservação dos dados |
Como o dado pode ser arquivado e armazenado? |
(BP 27) Preservar os identificadores |
(BP 28) Avaliar a cobertura do conjunto de dados |
||
Feedback |
Como posso engajar os |
(BP 29) Coletar feedback de consumidores de dados |
|
usuários? |
(BP 30) Disponibilizar feedback |
Enriquecimento dos dados |
Como posso agregar valor ao dado? |
(BP 31) Enriquecer dados por meio da geração de novos dados |
(BP 32) Fornecer apresentações complementares |
||
Republicação de dados |
Como posso utilizar e republicar o dado de forma responsável? |
(BP 33) Fornecer feedback ao editor original |
(BP 34) Seguir os termos de licenciamento |
||
(BP 35) Citar a publicação original |
A tabela apresenta as dimensões das boas práticas, diretamente relacionadas com o desafio, e sumariza cada uma das BPs. Os desafios por sua vez, colocados em forma de pergunta a fim de deixar mais claro o que se busca com sua superação, perpassam uma ou mais fases do ciclo de vida dos dados na web.
O conjunto de BPs relacionadas aos metadados corresponde ao registro e indicação do que se trata o conjunto de dados disponibilizado. Essas BPs estão diretamente relacionadas à fase de preparação e de criação do conjunto de dados, mas não se restringe apenas a este momento. A disponibilização de metadados, bem como sua atualização, faz-se presente em quase todas as outras fases do ciclo de vida: Avaliação, Publicação e Refinamento.
A BP 4, única da dimensão licença de dados, se faz presente sobretudo nas fases de preparação e criação, mas também exige atenção nas de avaliação e publicação. Na fase de publicação, além da licença de dados, outras dimensões às quais o publicador deve ater-se são: Procedência e Qualidade, Versionamento, Identificação, Formato, Vocabulário e Acesso dos dados. Em termos gerais as BPs sempre indicam a disponibilização de uma pluralidade de opções para os consumidores, quer seja de formato do dado, ou da forma de acesso e de identificação.
O grupo de BPs da dimensão feedback se aplica na fase de mesmo nome do ciclo. Já as vinculadas à preservação e republicação de dados estão relacionadas com a fase de Refinamento, que é o elo final do encadeamento de ações do ciclo de vida. Estas dimensões têm todas boas práticas relacionadas ao benefício confiança, que será exposto adiante.
A dimensão enriquecimento dos dados relaciona-se com a fase de Consumo de dados do ciclo de vida. É importante ressaltar que todas as dimensões têm sua realização concretizada na medida em que o consumidor de dados se beneficia das mesmas, assim, os benefícios das BPs também se relacionam com a fase do consumo de dados.
Os Benefícios das Boas Práticas
Com o objetivo de incentivar os publicadores de dados a adotarem as boas práticas para publicação de dados na web, o grupo de trabalho responsável por sua criação elencou oito benefícios que podem ser alcançados a partir de suas aplicações. Para além do benefício geral de padronização da publicação de dados, que constrói uma ponte entre aqueles que publicam e consomem os dados, a aplicação das BPs tem benefícios específicos.
Os benefícios das BPs são: compreensão: pessoas terão um melhor entendimento sobre a estrutura dos dados, seu significado, conteúdo, metadados e a natureza do conjunto de dados, facilidade de processamento: máquinas e dispositivos poderão automatizar o processo e manipular os dados do conjunto de dados; facilidade de descoberta do dado: máquinas e dispositivos conseguirão descobrir automaticamente os dados ou um conjunto de dados; reúso: relacionada a todas as BPs, trata da possibilidade de aumentar o reúso de conjuntos de dados por distintos grupos de consumidores; confiança: aumenta a confiança que qualquer usuário deposita no conjunto de dados; conectividade: possibilita a criação de conexões entre os recursos de dados (conjuntos e itens de dados). facilidade de acesso: pessoas, máquinas e dispositivos serão capazes de acessar dados atualizados de diversas maneiras; e interoperabilidade: facilita o consenso entre os publicadores e consumidores de dados.
De acordo com os autores da recomendação, “os benefícios são importantes porque ajudam publicadores de dados a ter uma melhor compreensão de ‘o que será possível’ quando as boas práticas são adotadas”. Cada benefício está associado a uma ou mais BPs e vice-versa. Tal relação pode ser identificada na tabela.
BOAS PRÁTICAS/ BENEFÍCIOS |
COMPREENSÃO |
FACILIDADE DE PROCESSAMENTO |
FACILIDADE DE DESCOBERTA |
REÚSO |
CONFIANÇA |
CONECTIVIDADE |
FACILIDADE DE ACESSO |
INTEROPERA- BILIDADE |
|
Metadados |
BP 1 |
x |
x |
x |
x |
|
|
|
|
BP 2 |
x |
|
x |
x |
|
|
|
|
|
BP 3 |
x |
x |
|
x |
|
|
|
|
|
Licença dos dados |
BP 4 |
|
|
|
x |
x |
|
|
|
Procedência e qualidade |
BP 5 |
x |
|
|
x |
x |
|
|
|
BP 6 |
|
|
|
x |
x |
|
|
|
|
Versionamento dos dados |
BP 7 |
|
|
|
x |
x |
|
|
|
BP 8 |
|
|
|
x |
x |
|
|
|
|
Identificação dos dados |
BP 9 |
|
|
x |
x |
|
x |
|
x |
BP 10 |
|
|
x |
x |
|
x |
|
x |
|
BP 11 |
|
|
x |
x |
x |
|
|
|
|
Formato dos dados |
BP 12 |
|
x |
|
x |
|
|
|
|
BP 13 |
x |
|
|
x |
|
|
|
|
|
BP 14 |
|
x |
|
x |
|
|
|
|
|
Vocabulário dos dados |
BP 15 |
x |
x |
|
x |
x |
|
|
x |
BP 16 |
x |
|
|
x |
|
|
|
x |
|
Acesso dos dados |
BP 17 |
|
|
|
x |
|
|
x |
|
BP 18 |
|
x |
|
x |
|
|
x |
|
|
BP 19 |
|
|
|
x |
|
|
x |
|
|
BP 20 |
|
|
|
x |
|
|
x |
|
|
BP 21 |
|
|
|
x |
|
|
x |
|
|
BP 22 |
|
|
|
x |
x |
|
|
|
|
BP 23 |
|
x |
|
x |
|
|
x |
x |
|
BP 24 |
|
x |
x |
x |
|
x |
x |
x |
|
BP 25 |
|
|
|
x |
x |
|
|
|
|
BP 26 |
|
|
|
x |
x |
|
|
x |
|
Preservação dos dados |
BP 27 |
|
|
|
x |
x |
|
|
|
BP 28 |
|
|
|
x |
x |
|
|
|
|
Feedback |
BP 29 |
x |
|
|
x |
x |
|
|
|
BP 30 |
|
|
|
x |
x |
|
|
|
|
Enriquecimento dos dados |
BP 31 |
x |
x |
|
x |
x |
|
|
|
BP 32 |
x |
|
|
x |
x |
|
x |
|
|
Republicação de dados |
BP 33 |
|
|
|
x |
x |
|
|
x |
BP 34 |
|
|
|
x |
x |
|
|
|
|
BP 35 |
|
|
x |
x |
x |
|
|
|
O benefício reúso, por exemplo, está vinculado a todas as boas práticas, o que significa dizer que a aplicação de qualquer uma das BPs irá contribuir em alguma medida para o reúso dos dados publicados. Já a compressão está associada a dez boas práticas, que se vinculam às dimensões de metadados, procedência e qualidade, formato, vocabulários de dados, feedback e enriquecimento de dados. Ou seja, se um publicador de dados adotar tais práticas, o nível de compreensão do consumidor com relação à estrutura e o significado dos dados aumentará.
Ainda de acordo com os autores do DWBP, “é importante notar que o benefício se torna mais forte na medida em que aumenta a adoção das boas práticas. Considerando que a publicação de dados na web é um processo incremental, o nível de cada benefício poderá aumentar após algumas iterações do processo de publicação de dados”.
Considerando os esforços do W3C de estabelecer padrões para a publicação de dados na Web, resultantes nas boas práticas e nos benefícios para publicadores e consumidores de dados, será apresentado a seguir o caso do Centro Regional de Estudos para o Desenvolvimento da Sociedade da Informação (Cetic.br) que, tomando em conta a demanda pelos conjuntos de dados por ele produzidos, passou a disponibilizá-los em seu site. Esse processo envolveu uma sensibilização das partes envolvidas e uma reflexão sobre a importância de fazer essa implementação com base nas BPs.