Best Practice

Stream de Dados: no lugar certo e na hora certa

Uma Plataforma de Cloud Streaming para a indústria de Telecom.

Ponto de Partida

A quantidade de dados disponíveis e gerados por uma empresa de telecom diariamente é enorme, mas também extremamente útil. Isso inclui informações sobre contratos de clientes, registros de dados internos e muito mais.

Para que todos os departamentos de uma grande empresa de telecomunicação utilizem de forma eficiente a grande quantidade de dados que chegam, trafegam e saem da organização todos os dias, a empresa passou a utilizar o streaming de dados.

Era fundamental para a empresa que diferentes departamentos fossem munidos com os mesmos conjuntos de dados para usá-los conforme as suas necessidades. Enquanto a business intelligence da empresa se concentra na análise de dados e na obtenção de novos casos de uso da forma mais detalhada possível, os departamentos técnicos os usam para desenvolver novos aplicativos. No geral, as informações obtidas com a análise de dados permite que a empresa tenha informações sobre muitos aspectos da organização e das atividades dos clientes, como atividade do servidor ou como os clientes usam os serviços, e reaja rapidamente às situações de mudança.

Solução

Para reagir a todos os desafios provenientes do processamento de uma enorme quantidade de dados, a empresa de telecomunicação decidiu implementar uma solução baseada em nuvem nas suas unidades de negócio com a ajuda dos especialistas da Data Reply.

Além disso, para implantar com eficiência a plataforma de streaming de dados usada para isso, foi escolhido o Kubernetes na AWS com várias contas. Com essa solução, os dados recebidos podem ser lidos em tempo real.

Requisitos

1. A exigência do cliente era que os vários ambientes de cluster do Kafka fossem configurados de uma forma que permitisse que os dados fossem capturados de suas fontes reais.

Além dessa infraestrutura escalável, novos casos de uso de big data puderam ser criados.

2. Outra exigência era que a solução fosse automatizada, escalável e tolerante a falhas. O desafio para os especialistas da Reply foi transferir o seu conhecimento atual sobre a construção de plataformas data-lake no local para a nuvem. Essa exigência significava mais trabalho em desenvolvimento em termos de segurança e escalonamento apropriado dos clusters do Kafka.

Implementação Técnica

A solução desenvolvida é totalmente criptografada – para garantir a segurança exigida – e possibilitou a autorização e autenticação no nível de dados. A Reply redesenhou toda a infraestrutura do Kafka em um cluster do Kubernetes para resolver alguns problemas que, de outra forma, seriam difíceis de resolver. Uma das vantagens do Kafka é a verificação automatizada da consistência dos dados. Se, por exemplo, uma coluna de dados for deletada acidentalmente, isso não resulta na falha de um processo: o Kafka detecta automaticamente as inconsistências e para o sistema antes que o conjunto de dados possa ser destruído.

Além disso, a abordagem DevOps foi escolhida para esse projeto para garantir o desenvolvimento ágil e rápido da solução e, ao mesmo tempo, facilitar a colaboração entre os especialistas em data-lake da Reply e os colegas da empresa de telecom.

Vantagens da solução

- Produto de código aberto flexível
- Infraestrutura simples
- Muito adequado para ações de data streaming e acionamento
- Autoescalável
- Verificação automatizada de consistência de dados

Disponibilidade em minutos

A solução aumentou significativamente a velocidade de implantação das plataformas. A implantação de um cluster que já contém todos os dados solicitados leva menos que 30 minutos. Com a automação e a escalabilidade da solução, tudo se tornou replicável para cada departamento na empresa e não leva mais vários meses para a organização fazer uma implantação sem a infraestrutura. Além disso, a variedade de casos de uso que podem ser implantados na plataforma da empresa aumentou. O projeto está sendo desenvolvido para poder implementar atividades internas, como por exemplo a implantação GDPR. A diretriz exige novas ferramentas, visando garantir que as exigências sejam atendidas rapidamente, como a exclusão dos dados de um cliente quando solicitado.