Regra da cadeia - Chain rule

No cálculo , a regra da cadeia é uma fórmula que exprime o derivado da composição de duas funções diferenciáveis f e g em termos dos derivados de f e g . Mais precisamente, se a função é tal que para cada x , então a regra da cadeia é, na notação de Lagrange ,

ou equivalente,

A regra da cadeia também pode ser expressa na notação de Leibniz . Se uma variável z depende da variável y , que por sua vez depende da variável x (ou seja, y e z são variáveis ​​dependentes ), então z depende de x também, por meio da variável intermediária y . Neste caso, a regra da cadeia é expressa como

e

para indicar em quais pontos as derivadas devem ser avaliadas.

Na integração , a contrapartida da regra da cadeia é a regra de substituição .

Explicação intuitiva

Intuitivamente, a regra da cadeia afirma que conhecer a taxa instantânea de mudança de z em relação ayea de y em relação a x permite calcular a taxa instantânea de mudança de z em relação a x como o produto das duas taxas de mudança.

Como colocado por George F. Simmons : "se um carro viaja duas vezes mais rápido que uma bicicleta e a bicicleta é quatro vezes mais rápida que um homem que anda, então o carro viaja 2 × 4 = 8 vezes mais rápido que o homem."

A relação entre este exemplo e a regra da cadeia é a seguinte. Sejam z , y e x as posições (variáveis) do carro, da bicicleta e do homem que anda, respectivamente. A taxa de mudança das posições relativas do carro e da bicicleta é similar, então, a taxa de mudança das posições relativas do carro e do homem que anda é

A taxa de mudança de posições é a razão das velocidades, e a velocidade é a derivada da posição em relação ao tempo; isso é,

ou equivalente,

que também é uma aplicação da regra da cadeia.

História

A regra da corrente parece ter sido usada pela primeira vez por Gottfried Wilhelm Leibniz . Ele o usou para calcular a derivada de como o composto da função de raiz quadrada e da função . Ele o mencionou pela primeira vez em um livro de memórias de 1676 (com um erro de sinal no cálculo). A notação comum da regra da cadeia é devida a Leibniz. Guillaume de l'Hôpital usou a regra da cadeia implicitamente em sua Analyze des infiniment petits . A regra da cadeia não aparece em nenhum dos livros de análise de Leonhard Euler , embora tenham sido escritos mais de cem anos após a descoberta de Leibniz.

Demonstração

A forma mais simples da regra da cadeia é para funções com valor real de uma variável real . Ele afirma que se g é uma função diferenciável em um ponto c (ou seja, a derivada g ′ ( c ) existe) ef é uma função diferenciável em g ( c ) , então a função composta é diferenciável em c , e a derivada é

A regra às vezes é abreviada como

Se y = f ( u ) e u = g ( x ) , então esta forma abreviada é escrita na notação de Leibniz como:

Os pontos onde os derivados são avaliados também podem ser declarados explicitamente:

Seguindo o mesmo raciocínio, dadas n funções com a função composta , se cada função é diferenciável em sua entrada imediata, então a função composta também é diferenciável pela aplicação repetida da Regra da Cadeia, onde a derivada é (na notação de Leibniz):

Formulários

Compostos com mais de duas funções

A regra da cadeia pode ser aplicada a compostos de mais de duas funções. Para obter a derivada de um composto de mais de duas funções, observe que o composto de f , g e h (nessa ordem) é o composto de f com gh . A regra da cadeia afirma que para calcular a derivada de fgh , é suficiente calcular a derivada de f e a derivada de gh . A derivada de f pode ser calculada diretamente, e a derivada de gh pode ser calculada aplicando a regra da cadeia novamente.

Para concretude, considere a função

Isso pode ser decomposto como a composição de três funções:

Seus derivados são:

A regra da cadeia afirma que a derivada de seu composto no ponto x = a é:

Na notação Leibniz, isso é:

ou para abreviar,

A função derivada é, portanto:

Outra maneira de calcular essa derivada é ver a função composta fgh como a composição de fg e h . Aplicar a regra da cadeia dessa maneira resultaria em:

Isso é igual ao que foi calculado acima. Isso deveria ser esperado porque ( fg ) ∘ h = f ∘ ( gh ) .

Às vezes, é necessário diferenciar uma composição arbitrariamente longa do formulário . Neste caso, defina

onde e quando . Em seguida, a regra da cadeia assume a forma

ou, na notação de Lagrange,

Regra do quociente

A regra da cadeia pode ser usada para derivar algumas regras de diferenciação bem conhecidas. Por exemplo, a regra de quociente é uma consequência da regra da cadeia e da regra do produto . Para ver isso, escreva a função f ( x ) / g ( x ) como o produto f ( x ) · 1 / g ( x ) . Primeiro, aplique a regra do produto:

Para calcular a derivada de 1 / g ( x ) , observe que é a composição de g com a função recíproca, ou seja, a função que envia x para 1 / x . A derivada da função recíproca é . Ao aplicar a regra da cadeia, a última expressão se torna:

que é a fórmula usual para a regra do quociente.

Derivadas de funções inversas

Suponha que y = g ( x ) tenha uma função inversa . Chame sua função inversa f para que tenhamos x = f ( y ) . Existe uma fórmula para a derivada de f em termos da derivada de g . Para ver isso, observe que f e g satisfazem a fórmula

E porque as funções e x são iguais, seus derivados devem ser iguais. A derivada de x é a função constante com valor 1 e a derivada de é determinada pela regra da cadeia. Portanto, temos que:

Para expressar f' como uma função de uma variável independente y , substituímos para x onde quer que apareça. Então podemos resolver para f ' .

Por exemplo, considere a função g ( x ) = e x . Ele tem um inverso f ( y ) = ln y . Porque g ′ ( x ) = e x , a fórmula acima diz que

Esta fórmula é verdadeira sempre que g é diferenciável e seu inverso f também é diferenciável. Essa fórmula pode falhar quando uma dessas condições não for verdadeira. Por exemplo, considere g ( x ) = x 3 . Seu inverso é f ( y ) = y 1/3 , que não é diferenciável em zero. Se tentarmos usar a fórmula acima para calcular a derivada de f em zero, devemos avaliar 1 / g ′ ( f (0)) . Como f (0) = 0 e g ′ (0) = 0 , devemos avaliar 1/0, que é indefinido. Portanto, a fórmula falha neste caso. Isso não é surpreendente porque f não é diferenciável em zero.

Derivadas superiores

A fórmula de Faà di Bruno generaliza a regra da cadeia para derivados superiores. Supondo que y = f ( u ) e u = g ( x ) , então as primeiras derivadas são:

Provas

Primeira prova

Uma prova da regra da cadeia começa com a definição da derivada:

Presuma, por enquanto, que não é igual para nenhum x próximo a a . Então, a expressão anterior é igual ao produto de dois fatores:

Se oscila perto de um , então pode acontecer que não importa o quão perto chega a um , há sempre um ainda mais perto x tal que g ( x ) = g ( um ) . Por exemplo, isso acontece perto de a = 0 para a função contínua g definida por g ( x ) = 0 para x = 0 e g ( x ) = x 2 sen (1 / x ) caso contrário. Sempre que isso acontece, a expressão acima é indefinida porque envolve divisão por zero . Para contornar isso, introduza uma função da seguinte maneira:

Mostraremos que o quociente de diferença para fg é sempre igual a:

Sempre que g ( x ) não é igual ag ( a ) , isso é claro porque os fatores de g ( x ) - g ( a ) se cancelam. Quando g ( x ) é igual a g ( a ) , então o quociente de diferença para fg é zero porque f ( g ( x )) é igual a f ( g ( a )) , e o produto acima é zero porque é igual a f ′ ( g ( a )) vezes zero. Assim, o produto acima é sempre igual ao quociente de diferença, e para mostrar que a derivada de fg em a existe e para determinar seu valor, precisamos apenas mostrar que o limite conforme x vai para a do produto acima existe e determinar seu valor.

Para fazer isso, lembre-se de que o limite de um produto existe se os limites de seus fatores existirem. Quando isso acontecer, o limite do produto desses dois fatores será igual ao produto dos limites dos fatores. Os dois fatores são Q ( g ( x )) e ( g ( x ) - g ( a )) / ( x - a ) . O último é o quociente de diferença para g em a , e como g é diferenciável em a por suposição, seu limite quando x tende a a existe e é igual a g ′ ( a ) .

Quanto a Q ( g ( x )) , observe que Q é definido onde quer que f esteja. Além disso, f é diferenciável em g ( a ) por suposição, então Q é contínuo em g ( a ) , por definição da derivada. A função g é contínua em a porque é diferenciável em a e, portanto, Qg é contínua em a . Portanto, seu limite quando x vai para a existe e é igual a Q ( g ( a )) , que é f ′ ( g ( a )) .

Isso mostra que os limites de ambos os fatores existem e que são iguais a f ′ ( g ( a )) e g ′ ( a ) , respectivamente. Portanto, a derivada de fg em a existe e é igual a f ′ ( g ( a )) g ′ ( a ) .

Segunda prova

Outra forma de provar a regra da cadeia é medir o erro na aproximação linear determinada pela derivada. Essa prova tem a vantagem de generalizar para várias variáveis. Ele se baseia na seguinte definição equivalente de diferenciabilidade em um ponto: Uma função g é diferenciável em a se existe um número real g ′ ( a ) e uma função ε ( h ) que tende a zero conforme h tende a zero, e além disso

Aqui, o lado esquerdo representa a verdadeira diferença entre o valor de g em a e em a + h , enquanto o lado direito representa a aproximação determinada pela derivada mais um termo de erro.

Na situação da regra da cadeia, tal função ε existe porque g é assumido como diferenciável em a . Novamente por suposição, uma função semelhante também existe para f em g ( a ). Chamando esta função η , temos

A definição acima não impõe restrições a η (0), embora seja assumido que η ( k ) tende a zero como k tende a zero. Se definirmos η (0) = 0 , então η é contínuo em 0.

Provar o teorema requer o estudo da diferença f ( g ( a + h )) - f ( g ( a )) conforme h tende a zero. A primeira etapa é substituir g ( a + h ) usando a definição de diferenciabilidade de g em a :

O próximo passo é usar a definição de diferenciabilidade de f em g ( a ). Isso requer um termo da forma f ( g ( a ) + k ) para algum k . Na equação acima, o k correto varia com h . Defina k h = g ′ ( a ) h + ε ( h ) h e o lado direito se torna f ( g ( a ) + k h ) - f ( g ( a )) . A aplicação da definição da derivada dá:

Para estudar o comportamento dessa expressão à medida que h tende a zero, expanda k h . Depois de reagrupar os termos, o lado direito se torna:

Como ε ( h ) e η ( k h ) tendem a zero conforme h tende a zero, os dois primeiros termos entre colchetes tendem a zero enquanto h tende a zero. Aplicando o mesmo teorema sobre produtos de limites como na primeira prova, o terceiro termo entre colchetes também tende a zero. Como a expressão acima é igual à diferença f ( g ( a + h )) - f ( g ( a )) , pela definição da derivada fg é diferenciável em a e sua derivada é f ′ ( g ( a )) g ′ ( a ).

O papel de Q na primeira prova é desempenhado por η nesta prova. Eles estão relacionados pela equação:

A necessidade de definir Q em g ( a ) é análoga à necessidade de definir η em zero.

Terceira prova

A definição alternativa de Constantin Carathéodory da diferenciabilidade de uma função pode ser usada para dar uma prova elegante da regra da cadeia.

Sob esta definição, uma função F é diferenciável num ponto um se e apenas se existe uma função q , contínua a uma e de modo a que f ( x ) - f ( um ) = q ( x ) ( x - um ) . Existe no máximo uma dessas funções, e se f é diferenciável em a então f ′ ( a ) = q ( a ) .

Dadas as suposições da regra da cadeia e o fato de que funções diferenciáveis ​​e composições de funções contínuas são contínuas, temos que existem funções q , contínuas em g ( a ) e r , contínuas em a , e tais que,

e

Portanto,

mas a função dada por h ( x ) = q ( g ( x )) r ( x ) é contínua em a , e obtemos, para isso, um

Uma abordagem semelhante funciona para funções continuamente diferenciáveis ​​(vetoriais) de muitas variáveis. Este método de fatoração também permite uma abordagem unificada para formas mais fortes de diferenciabilidade, quando a derivada deve ser contínua de Lipschitz , contínua de Hölder , etc. A diferenciação em si pode ser vista como o teorema do resto polinomial (o pequeno teorema de Bézout , ou teorema do fator) , generalizado para uma classe apropriada de funções.

Prova via infinitesimais

Se e, em seguida, escolhendo infinitesimal , calculamos o correspondente e, em seguida, o correspondente , de modo que

e aplicando a parte padrão que obtemos

que é a regra da cadeia.

Caso multivariável

A generalização da regra da cadeia para funções multivariáveis é bastante técnica. No entanto, é mais simples de escrever no caso de funções do formulário

Como esse caso ocorre com frequência no estudo de funções de uma única variável, vale a pena descrevê-lo separadamente.

Caso de f ( g 1 ( x ), ..., g k ( x ))

Para escrever a regra da cadeia para uma função do formulário

f ( g 1 ( x ), ..., g k ( x )) ,

precisa-se das derivadas parciais de f com respeito a seus k argumentos. As notações usuais para derivadas parciais envolvem nomes para os argumentos da função. Como esses argumentos não são nomeados na fórmula acima, é mais simples e claro denotar por

a derivada de f em relação ao seu i ésimo argumento, e por

o valor desta derivada em z .

Com esta notação, a regra da cadeia é

Exemplo: operações aritméticas

Se a função f é adição, isto é, se

então e . Assim, a regra da cadeia dá

Para multiplicação

os parciais são e . Assim,

O caso de exponenciação

é um pouco mais complicado, pois

e como

Segue que

Regra geral

A maneira mais simples de escrever a regra da cadeia no caso geral é usar a derivada total , que é uma transformação linear que captura todas as derivadas direcionais em uma única fórmula. Considere funções diferenciáveis f  : R mR k e g  : R nR m , e um ponto a em R n . Seja D a g a derivada total de g em a e D g ( a ) f denote a derivada total de f em g ( a ) . Essas duas derivadas são transformações lineares R nR m e R mR k , respectivamente, para que possam ser compostas. A regra da cadeia para derivadas totais é que seu composto é a derivada total de fg em a :

ou para abreviar,

A regra da cadeia de dimensão superior pode ser provada usando uma técnica semelhante à segunda prova fornecida acima.

Como a derivada total é uma transformação linear, as funções que aparecem na fórmula podem ser reescritas como matrizes. A matriz correspondente a uma derivada total é chamada de matriz Jacobiana , e a composição de duas derivadas corresponde ao produto de suas matrizes Jacobianas. Desta perspectiva, a regra da cadeia, portanto, diz:

ou para abreviar,

Ou seja, o Jacobiano de uma função composta é o produto dos Jacobianos das funções compostas (avaliadas nos pontos apropriados).

A regra da cadeia de dimensão superior é uma generalização da regra da cadeia unidimensional. Se k , m e n são 1, de modo que f  : RR e g  : RR , então as matrizes Jacobianas de f e g são 1 × 1 . Especificamente, eles são:

O Jacobiano de fg é o produto dessas matrizes 1 × 1 , então é f ′ ( g ( a )) ⋅ g ′ ( a ) , como esperado da regra da cadeia unidimensional. Na linguagem das transformações lineares, D a ( g ) é a função que dimensiona um vetor por um fator de g ′ ( a ) e D g ( a ) ( f ) é a função que dimensiona um vetor por um fator de f ′ ( g ( a )). A regra da cadeia diz que o composto dessas duas transformações lineares é a transformação linear D a ( fg ) e, portanto, é a função que dimensiona um vetor por f ′ ( g ( a )) ⋅ g ′ ( a ).

Outra maneira de escrever a regra da cadeia é utilizado quando f e g são expressos em termos dos seus componentes como y = f ( L ) = ( f 1 ( u ), ..., f k ( u )) e u = g ( x ) = ( g 1 ( x ),…, g m ( x )) . Nesse caso, a regra acima para matrizes Jacobianas é geralmente escrita como:

A regra da cadeia para derivados totais implica uma regra da cadeia para derivados parciais. Lembre-se de que, quando existe a derivada total, a derivada parcial na i- ésima direção da coordenada é encontrada multiplicando-se a matriz Jacobiana pelo i- ésimo vetor de base. Fazendo isso com a fórmula acima, encontramos:

Como as entradas da matriz Jacobiana são derivadas parciais, podemos simplificar a fórmula acima para obter:

Mais conceitualmente, essa regra expressa o fato de que uma mudança na direção x i pode mudar totalmente de g 1 a g m , e qualquer uma dessas mudanças pode afetar f .

No caso especial em que k = 1 , de modo que f é uma função de valor real, esta fórmula simplifica ainda mais:

Isso pode ser reescrito como um produto escalar . Lembrando que u = ( g 1 , ..., g m ) , a derivada parcial u / ∂ x i também é um vetor, e a regra da cadeia diz que:

Exemplo

Dado u ( x , y ) = x 2 + 2 Y , onde X ( R , t ) = r sen ( t ) e Y ( R , t ) = sin 2 ( t ) , determinar o valor de u / ∂ r e u / ∂ t usando a regra da cadeia.

e

Derivadas mais altas de funções multivariáveis

A fórmula de Faà di Bruno para derivadas de ordem superior de funções de variável única generaliza para o caso multivariável. Se y = f ( u ) é uma função de u = g ( x ) como acima, então a segunda derivada de fg é:

Outras generalizações

Todas as extensões do cálculo têm uma regra em cadeia. Na maioria deles, a fórmula permanece a mesma, embora o significado dessa fórmula possa ser muito diferente.

Uma generalização é para variedades . Nessa situação, a regra da cadeia representa o fato de que a derivada de fg é a composição da derivada de f e da derivada de g . Este teorema é uma consequência imediata da regra da cadeia dimensional superior dada acima e tem exatamente a mesma fórmula.

A regra da cadeia também é válida para derivados de Fréchet em espaços de Banach . A mesma fórmula é válida como antes. Este caso e o anterior admitem uma generalização simultânea para variedades de Banach .

Em álgebra diferencial , a derivada é interpretada como um morfismo de módulos de diferenciais de Kähler . Um homomorfismo de anéis comutativos f  : RS determina um morfismo de diferenciais de Kähler Df  : Ω R → Ω S que envia um elemento dr para d ( f ( r )), o diferencial exterior de f ( r ). A fórmula D ( fg ) = DfDg também é válida neste contexto.

A característica comum desses exemplos é que eles são expressões da ideia de que a derivada é parte de um functor . Um functor é uma operação em espaços e funções entre eles. Ele associa a cada espaço um novo espaço e a cada função entre dois espaços uma nova função entre os novos espaços correspondentes. Em cada um dos casos acima, o functor envia cada espaço para seu feixe tangente e envia cada função para sua derivada. Por exemplo, no caso da variedade, a derivada envia uma variedade C r para uma variedade C r −1 (seu feixe tangente) e uma função C r para sua derivada total. Há um requisito para que este seja um functor, a saber, que a derivada de um composto deve ser o composto das derivadas. Esta é exatamente a fórmula D ( fg ) = DfDg .

Existem também regras em cadeia no cálculo estocástico . Um deles, o lema de Itō , expressa o composto de um processo Itō (ou mais geralmente um semimartingale ) dX t com uma função duas vezes diferenciável f . No lema de Itō, a derivada da função composta depende não apenas de dX t e da derivada de f, mas também da segunda derivada de f . A dependência da segunda derivada é uma consequência da variação quadrática diferente de zero do processo estocástico, o que, de modo geral, significa que o processo pode se mover para cima e para baixo de uma forma muito grosseira. Essa variante da regra da cadeia não é um exemplo de functor porque as duas funções que estão sendo compostas são de tipos diferentes.

Veja também

Referências

links externos