Aprimorando a agilidade de DevOps e protegendo o pipeline de implementação:

Com as soluções de garantia de negócios criadas para a era digital

O panorama geral

Na era digital, os serviços digitais estão no centro da inovação disruptiva. A agilidade do planejamento, entrega, integração, teste e implementação contínuos de aplicativos e serviços marcam a diferença entre vencedores e perdedores nesse ambiente de negócios altamente competitivo. Embora a automação desses processos ofereça enormes benefícios para a entrega contínua, ela desloca a restrição para o ambiente de produção que agora armazena o fluxo geral do valor para os clientes. Infelizmente, a telemetria de nível de aplicativo utilizada pelas equipes de DevOps para o loop de feedback é ineficiente, já que muitas das restrições estão no nível do sistema. Esses incluem todos os subsistemas arquitetônicos associados à entrega de serviços e ao aplicativo. Os recursos de visibilidade, telemetria e triagem em nível de sistema da NETSCOUT baseados no monitoramento e análise contínuos do tráfego IP permitem que as organizações de DevOps se tornem mais ágeis e eficientes, e ajudem seus negócios a obter uma vantagem competitiva no campo de batalha digital.

Os principais desafios que o DevOps está enfrentando e a respectiva solução NETSCOUT descrita nesta página estão resumidos na Tabela 1 abaixo.

Tabela 1: enfrentando os desafios de DevOps

Desafios de DevOps

Proposta de valor de NETSCOUT

Torne-se mais produtivo e ágil, fornecendo serviços mais rapidamente e com menos recursos Permita que o DevOps realize mais com menos recursos com plataforma de telemetria de nível de serviço e conscientização situacional comum
Minimize o impacto da disrupção Reduza o tempo médio de reparo (MTTR)
Analise continuamente a capacidade global de recursos de TI e a disponibilidade para implementar novos serviços Loop de feedback eficaz com base em monitoramento e análise em tempo real e contínuo da capacidade de recursos de fornecimento de serviços globais
Garanta a qualidade, segurança e disponibilidade do serviço Soluções de garantia de negócios para reduzir os riscos associados à qualidade, segurança e disponibilidade do serviço

 

O enigma da agilidade de DevOps


O DevOps está no epicentro dessa inovação disruptiva e seu desempenho está diretamente ligado aos resultados do negócio corporativo. Infelizmente, quanto mais o pipeline de implementação acelera, mais resistência ele encontra do crescente “caos” criado devido à maior velocidade de operação. Embora a automação e a adoção de princípios ágeis de liderança ajudem a controlar esse caos da entrega contínua, isso também aumenta o caos no ambiente de produção. Como resultado, as equipes de operações correm o risco de se tornar o próximo problema que restringe o fluxo geral do valor para os clientes. O primeiro passo que a equipe de operações deve empreender para enfrentar esse desafio é obter uma visibilidade contínua e em tempo real com base na telemetria em nível de sistema. A equipe de operações precisa usar essas informações para reduzir o MTTR e estabelecer um loop de feedback efetivo com Dev, QA, Sec e Ops. Esse objetivo é extremamente difícil, se não impossível, com as tecnologias tradicionais de gerenciamento de desempenho de aplicativos (APM), como agentes e instrumentação de código de bytes. O motivo é que as ferramentas de APM revelam que é crescente, apenas a telemetria no nível do aplicativo, ao contrário de toda a telemetria de ponta a ponta do sistema. As soluções de garantia de negócios (Business Assurance, BA) da NETSCOUT utilizam tecnologias baseadas em IP para enfrentar esse desafio e ajudam o DevOps a obter visibilidade em nível de sistema para proteger o pipeline de implementação a uma velocidade maior de operação. Conforme ilustrado na figura 1 abaixo, essa abordagem é mais ágil e eficiente, pois qualquer ponto de instrumentação do Tráfego IP oferece uma visão geral de todos os aplicativos e suas respectivas métricas sem a necessidade de instrumentação de código de bytes de cada aplicativo individual.

Assegurando a implementação do DevOps
Figura 1: Assegurando o pipeline de implementação com visibilidade no nível do sistema

Vendo “o todo da lua”[1]


As soluções de garantia de negócios da NETSCOUT permitem que as organizações DevOps vejam “o todo da lua”, monitorando continuamente o tráfego IP que atravessa a infraestrutura de prestação de serviços, detectando proativamente a degradação de serviços e fornecendo informações úteis sobre todas as interdependências necessárias para reduzir o MTTR e resolver problemas antes que os usuários sejam afetados.

Essa visibilidade de nível de sistema de ponta a ponta inclui telemetria de métricas de carga, latência e falha para todos os sistemas de entrega de serviço e interdependências entre rede, servidor, ativadores de serviço, bancos de dados e aplicativos. Essa percepção não apenas ajuda a melhorar a velocidade do planejamento, entrega, integração, testes e implementação contínuos, mas também otimiza a eficiência do DevOps e alcança uma vantagem competitiva no campo de batalha digital.

Otimizando as eficiências operacionais do DevOps


Embora a comunicação perfeita entre as equipes de Dev e Ops seja um pré-requisito para aumentar a produtividade do DevOps, isso não é suficiente. Mesmo que, hipoteticamente, a equipe de DevOps possa alcançar uma consciência situacional comum e totalmente transparente entre as equipes de Dev e Ops, uma análise precisa da “situação” influenciará a eficiência dessa conscientização comum. Se a análise da situação puder identificar rapidamente a causa principal no nível do sistema em todos os sistemas de TI relevantes e no aplicativo, ela não apenas reduzirá drasticamente o MTTR, mas também servirá como um multiplicador de força que permitirá ao DevOps realizar mais trabalho com menos recursos. Além disso, seria muito mais eficiente alcançar essa redução de MTTR sem a necessidade de a equipe de desenvolvimento executar instrumentação de código de bytes para cada aplicativo.

Por exemplo, como apenas uma parte dos problemas de entrega de serviço está relacionada a um aplicativo específico, a produtividade dos desenvolvedores é otimizada se eles estiverem envolvidos apenas quando a causa principal estiver relacionada ao aplicativo específico. Com a visibilidade no nível do aplicativo, por outro lado, a equipe de desenvolvimento não saberia se a causa principal de um problema de desempenho do aplicativo está relacionada ao código do aplicativo ou a outro sistema de TI. Isso resultará em um desperdício de tempo valioso da equipe de desenvolvimento que precisa ajudar a solucionar problemas não relacionados ao aplicativo. A equipe de operações também acabaria gastando mais tempo resolvendo a causa principal devido à falta de visibilidade das interdependências entre os sistemas de TI e os aplicativos. Isso resulta na criação de “Zonas de ineficiência” para o Dev e o Ops, devido ao tempo e esforço desperdiçado, conforme ilustrado na figura 2 abaixo.

Estágios de telemetria APM
Figura 2: os benefícios da migração para a telemetria no nível do sistema: alta agilidade e melhoria da eficiência

A abordagem de telemetria no nível do sistema utiliza uma triagem eficaz do sistema com base na visibilidade de ponta a ponta em todas as interdependências de entrega de serviços para identificar rapidamente a causa principal dos problemas de serviço. O tempo médio que uma organização de TI leva para concluir o processo de triagem é chamado de tempo médio para conhecimento (MTTK) e, de acordo com a pesquisa de ZK, o MTTK responde por 90% do tempo médio total necessário para reparar (MTTR) um problema de desempenho de serviço.

A abordagem de telemetria no nível do sistema depende de métricas de desempenho em toda a infraestrutura de entrega de serviços que abrange fisicamente e virtualmente, nas instalações e fora das instalações e nuvens públicas e privadas. Ele oferece uma capacidade única de analisar o desempenho, os indicadores de tráfego, a carga e as falhas, além de oferecer fluxos de trabalho contextuais para fazer uma triagem rápida e descobrir a causa principal dos problemas que causam a degradação do desempenho do aplicativo. Uma triagem de serviço eficiente pode acelerar significativamente o MTTR em até 80%, o que permite que as equipes de desenvolvimento concentrem a maior parte de seu tempo e esforço de forma produtiva no fornecimento de novos aplicativos e reduzam a sobrecarga em operações associadas a atividades de correção. Isso inclui a redução do tempo gasto na sala de comando e operações reduzidas, além de suporte de custo e complexidade. O resultado final é que com a telemetria em nível de sistema, as organizações de DevOps podem ver “o todo da lua”, [2] melhorar a velocidade e aperfeiçoar as eficiências.

Fundação de telemetria no nível do sistema: dados inteligentes e analytics superiores

Smart Data


Embora a obtenção de uma visibilidade em nível de sistema em todos os aplicativos e sistemas de entrega de serviço e suas interdependências possa soar como um pedido difícil, é possível com dados inteligentes e analytics superiores. Os dados de tráfego IP são a base dos dados inteligentes e são usados para gerar metadados altamente escalonáveis que fornecem uma telemetria histórica e em tempo real de todos os componentes do sistema, incluindo redes físicas e virtuais, aplicativos de n-camadas, cargas de trabalho, protocolos, servidores, bancos de dados, usuários e dispositivos. As principais vantagens do uso de dados de tráfego IP incluem:

  • Telemetria em nível de sistema e tempo real - como cada ação e transação é encapsulada em pacotes IP que atravessam a infraestrutura física e virtual, os dados de tráfego IP oferecem o melhor ponto de vantagem para visibilidade de ponta a ponta
  • Inteligência acionável - o tráfego IP contém todos os dados[3] necessários para obter um conhecimento aprofundado dos problemas de gerenciamento de desempenho do aplicativo e do sistema
  • Percepção agnóstica da aplicação - os dados de tráfego IP podem ser usados para monitorar qualquer aplicativo tradicional, móvel, personalizado ou padrão independentemente do código-fonte e sem a necessidade de agentes ou instrumentação de código de byte
  • Maior escalabilidade - a tecnologia IP baseada em padrões é bem estruturada e, portanto, mais adequada para triagem de sistema escalável que requer coletar, normalizar, correlacionar, organizar e analisar continuamente grandes volumes de dados em um sistema de forma contextual

Combinando dados inteligentes com analytics superiores


Figura 3: Fundação de telemetria no nível do sistema: combinando dados inteligentes com analytics superiores

 

Analytics superiores


Quando dados inteligentes são combinados com analytics superiores, pode revelar informações importantes sobre aplicativos e métricas de desempenho de serviços, como volumes de tráfego de aplicativos, tempos de resposta do servidor de aplicativos, taxas de transferência do servidor, contagens de erros agregadas e códigos de erro específicos para servidores de aplicativos e domínio. Além disso, os dados inteligentes podem revelar todas as dependências de aplicativos e suportar a transição contextual entre várias camadas de análise, facilitando a transferência eficiente de tarefas de resposta a incidentes entre os diferentes grupos funcionais de TI ao longo do processo de triagem de causa principal. Assim, a transferência para a respectiva equipe de desenvolvimento torna-se necessária apenas se a causa principal estiver associada ao aplicativo específico fornecido.

O estágio final de aperfeiçoamento do DevOps pode ser realizado com a análise preditiva que detecta proativamente a degradação dos serviços antes que vários usuários sejam afetados. Ao estabelecer automaticamente linhas de base de desempenho, alertas podem ser gerados com base em limites predefinidos ou desvios da linha de base. Os desvios incluem a utilização crescente e decrescente de links, as taxas de falhas nas transações de aplicativos e a capacidade de resposta. O mecanismo de analytics também precisa ajustar automaticamente as linhas de base ao longo do tempo para se adaptar às mudanças graduais na utilização do serviço, ao mesmo tempo em que fornece alertas pontuais sobre anomalias de desempenho. Ao utilizar essas analytics preditivas, as organizações de DevOps podem obter visibilidade dos problemas de desempenho de serviços emergentes antes que eles afetem vários usuários, fazer triagem contextualmente e analisar evidências de alerta e causas subjacentes. O resultado geral da utilização de dados inteligentes e das analytics superiores é uma redução drástica no MTTK e no MTTR, conforme ilustrado na figura 4 abaixo.

Reduzindo o MTTR
Figura 4: Triagem de sistema efetiva utilizando telemetria no nível do sistema e analytics superiores

As vantagens adicionais da telemetria e triagem no nível do sistema incluem melhor disponibilidade do serviço e experiência do usuário e capacidade de dimensionar serviços para oferecer suporte a milhões de usuários no ambiente de produção.

As soluções da NETSCOUT para as necessidades de DevOps

Soluções de eficiência operacional
A plataforma de garantia de serviço nGeniusONE da NETSCOUT reduz drasticamente o MTTR e o MTTK e serve como multiplicador de força que permite que o Ops realize mais com menos recursos, reduzindo ao mínimo o trabalho não planejado. Esse recurso também maximiza a produtividade dos desenvolvedores, reduzindo a sobrecarga de lidar com problemas relacionados a outros sistemas de TI. As eficiências básicas são realizadas com nGeniusONE por:

  • Detecção proativa de degradações de serviço com base em desvios de linhas de base de desempenho ou limites predefinidos
  • Suporte a fluxos de trabalho de triagem completa intuitivos que reduzem efetivamente o MTTK, detectando a causa raiz em todo o sistema, incluindo vários aplicativos de n-camadas, sistemas de infraestrutura de TI e todas as suas respectivas interdependências
  • Monitoramento de qualquer legado e novos aplicativos e sistemas de infraestrutura

Soluções de implementação contínua ágil
A plataforma nGeniusONE da NETSCOUT oferece análise de tendências em tempo real relacionada à telemetria[4] e analytics para fornecer um circuito de retorno que protege a implementação do canal e aumenta a agilidade do DevOps. Esses recursos incluem:

  • Insight granular em todos os sistemas de entrega de serviço e análise da causa principal, considerando todas as interdependências entre aplicativos e infraestrutura local e baseada em nuvem.
    • A tecnologia de Adaptive Service Intelligence (ASI) Plus em execução nos dispositivos InfiniStreamNG oferece visibilidade em tempo real dos sistemas de DevOps e interdependências, incluindo redes físicas e virtuais, aplicativos de n-camadas, cargas de trabalho, protocolos, servidores, bancos de dados, usuários e dispositivos
    • A tecnologia ASI Plus utiliza o tráfego IP como a fonte de dados inteligentes, ideal para monitorar micro-serviços e ambientes locais complexos ou nuvem.
    • O ASI eXtender (ASI-X) permite instrumentar e monitorar rapidamente qualquer aplicativo personalizado
  • Painéis personalizáveis, relatórios e mapas de dependência de serviços ajudam a estabelecer uma consciência situacional comum entre as equipes de Dev, QA e Ops e facilitam o circuito de retorno
  • O nGeniusPULSE complementa os recursos do nGeniusONE com a visibilidade da garantia de serviço de aplicativos em diversas combinações de arquiteturas de nuvem privada, híbrida, SaaS e pública que as empresas estão implementando hoje e, portanto, são essenciais para o canal de implementação

Planejamento DevOps
A plataforma nGeniusONE permite que as equipes de operações reduzam o risco de confiabilidade da infraestrutura de entrega de serviços associado à implementação contínua por meio de:

  • Análise em tempo real e contínua da capacidade dos recursos de entrega de serviços globais, antes que a equipe de Ops aceite o trabalho de Dev.
  • Isso inclui um mapa de dependência de serviço automatizado que oferece informações sobre carga, latência e falhas em toda a infraestrutura de entrega de serviços, bem como capacidade de infraestrutura em níveis de rede, link e servidor
  • A adição do nGeniusPULSE com sua capacidade de testar serviços baseados em nuvem para disponibilidade, capacidade de resposta e aderência aos níveis de serviço, oferece ao DevOps a percepção do risco de confiabilidade associado à implementação contínua

Mitigação de riscos empresariais
As soluções de garantia de negócios da NETSCOUT ajudam a mitigar os riscos do negócio e alcançar resultados desejáveis. Isso é realizado com:

  • Um conjunto de soluções de garantia de serviço nGeniusONE e ASI, que ajudam a reduzir o MTTR, aumenta a qualidade e a disponibilidade do serviço
  • A Arbor Networks, a divisão de segurança da NETSCOUT, ajuda a proteger a integridade e disponibilidade com a distribuição da negação de serviço (DDoS) e a ameaça persistente avançada (APT)

Resumo

Na era digital, a organização DevOps pode fazer a diferença entre o sucesso e o fracasso corporativo. Os principais fatores de sucesso do DevOps são agilidade, eficiência operacional e a capacidade de reduzir os riscos de negócios que podem impedir a empresa de atingir os resultados de negócios desejáveis. Enquanto a automação e a implementação de princípios ágeis pelo DevOps ajudaram a melhorar a velocidade e a eficiência da entrega contínua, o ambiente de produção tornou-se a nova restrição na circulação do fluxo de valor para os clientes. Essa restrição não pode ser efetivamente atenuada pelas equipes de Operações que dependem da visibilidade em nível de aplicativo e das equipes de Desenvolvimento que precisam executar a instrumentação de código de bytes para cada aplicativo. Os recursos de visibilidade, telemetria e triagem em nível de sistema da NETSCOUT baseados no monitoramento e análise contínuos do tráfego IP permitem que as organizações de DevOps se tornem mais ágeis e eficientes, e ajudem seus negócios a obter uma vantagem competitiva no campo de batalha digital.

RECURSOS

Voz do cliente -

Fichas técnicas
Leituras rápidas

[1]Da letra da música The Whole of the Moon - The Waterboys
[2]Da letra da música The Whole of the Moon - The Waterboys
[3]Modelo de interconexão de sistemas abertos (OSI) camada 2 através de 7
[4]Telemetria é a terminologia usada pelo DevOps e inclui métricas de negócios, aplicativos e infraestrutura necessárias para monitorar como os sistemas operam em ambientes de produção