Não desperdice tempo apagando incêndios no processo de Data Pipeline

A Reply pode ajudar a simplificar esse processo com o Apache Airflow.
Deixe isso com a gente e volte a gerir o seu negócio.

Apache Airflow

Cenário

Para empresas que enxergam e buscam valor no Big Data, tempo é fundamental. Tarefas recorrentes precisam ser realizadas assim que os dados estiverem prontos para serem processados. Mas a execução baseada em tempo é simples demais e nem sempre atende às necessidades do negócio. Com a implantação do Apache Airflow, a Reply ajuda seus clientes a se beneficiarem da execução de tarefas orientadas por eventos e por tempo, criando relatórios e análises simplificados, facilitando a gestão dos pipelines de Machine Learning e fornecendo dados para o app/website do cliente de forma mais confiável.

APACHE AIFRLOW

O Apache Airflow é um mecanismo de orquestração. Pode ser usado para criar um Data Pipeline com dependências entre tarefas. O Apache Airflow permite o monitoramento detalhado de todo o fluxo de trabalho, bem como do desempenho das tarefas individuais ao longo do tempo, permitindo a melhoria contínua do data pipeline, além de dar uma base confiável e transparente para aplicação de SLAs. O Apache Airflow escala facilmente quando ocorre o aumento das cargas de trabalho e detectará as tarefas de baixo desempenho para resolução de problemas.

ORQUESTRAÇÃO COM APACHE AIRFLOW

Basicamente, o Apache Airflow garante que todas as tarefas do processo sejam executadas na ordem e no momento corretos. o agendamento dessas tarefas é planejado em um DAG (Directed Acyclic Graph – uma forma de representar como executar um fluxo de trabalho). Um dos benefícios do DAG é facilitar a paralelização, ou seja, a execução de várias tarefas simultaneamente. As tarefas em si são normalmente escritas em Python, mas através de operadores, outras tecnologias também podem ser suportadas.

O Apache Airflow pode ser usado para criar um data pipeline (ETL, Machine Learning etc.) com dependência entre tarefas. Ele suporta o agendamento de tarefas e pode lidar com falhas de tarefas, para que determinadas ações sejam acionadas, caso uma tarefa resulte em erro: por exemplo, emitindo um alerta, executando novamente a tarefa ou acionando fluxos de trabalho alternativos. Além disso, graças à paralelização, o DAG pode ramificar. Assim, a falha de tarefa em uma ramificação não afeta as tarefas presentes em outra.

O Apache Airflow possui uma interface de usuário que possibilita o monitoramento detalhado de todo o fluxo de trabalho, bem como do desempenho das tarefas individuais ao longo do tempo. Isso é fundamental para a melhoria contínua do pipeline e garante uma base confiável e transparente para aplicar SLAs. O Apache Airflow escala facilmente quando acontece o aumento da carga de trabalho e detecta as tarefas com baixo desempenho para resolução de problemas.

Por que a Reply?

Os consultores da Reply são especialistas em Apache Airflow. Nosso time possui desenvolvedores que contribuem ativamente com projetos open source com código base– na verdade temos especialistas dentro do Apache Airflow PPMC (comitê que supervisiona o projeto).

Temos vasta experiência em tecnologias de Big Data, muitas das quais podem ser orquestradas por meio do Apache Airflow, e nossa vasta experiência em diversas indústrias possibilita o compartilhamento de Melhores Práticas, uma vez que já nos deparamos com vários problemas comuns. A Reply ajuda empresas à criar recursos personalizados no topo do Airflow para atender às suas necessidades e casos de uso.

Por exemplo, a Reply criou um Data Pipeline configurável e automatizado na Google Cloud Platform para um líder varejista no Reino Unido. Assim que os dados chegam no Data Lake (Cloud Storage), o Apache Airflow transfere os dados para uma área de teste e, em seguida, insere esses dados em uma tabela ODS (Operational Data Store) em BigQuery (Armazenamento de dados corporativos de baixo custo, com escala petabyte e gerenciado pelo Google). O Airflow, em seguida, orquestra as associações para criar uma nova tabela em um BigQuery Data Mart, que deve ser acessado por ferramentas de Visualização de Dados, como Tableau. Todo o pipeline foi automatizado, reduzindo a latência do pipeline (o tempo decorrido da chegada dos dados até a geração do relatório) de 1 semana para um único dia.

  • strip-0

    A Reply

    A Reply é uma empresa especializada em Tecnologia da Informação, incluindo o que há de mais novo em Big Data e Analytics. Dentro os nossos objetivos está ajudar nossos clientes a executar projetos bem-sucedidos de engenharia de dados e Machine Learning.