Como determinar o tipo de distribuição de probabilidade para dados

Índice:

Anonim

Quando você coletar dados em seu sistema ou processo, o próximo passo é determinar que tipo de distribuição de probabilidade você tem. Os tipos de distribuições de probabilidade são: uniformes discretos, Bernoulli, binomial, binomial negativo, Poisson, geométrico, uniforme contínuo, normal (curva de sino), exponencial, gama e beta. Restringir até mesmo alguns da lista de possibilidades faz com que determinar qual é o valor mais próximo de R ao quadrado muito mais rápido.

Itens que você precisará

  • Software de representação gráfica

  • Meios de calcular o valor de R ao quadrado (melhor ajuste de análise)

Plote os dados para uma representação visual do tipo de dados.

Um dos primeiros passos para determinar qual distribuição de dados um tem - e, portanto, o tipo de equação a ser usado para modelar os dados - é descartar o que não pode ser. • Se houver algum pico no conjunto de dados, ele não poderá ser uma distribuição uniforme e discreta. • Se os dados tiverem mais de um pico, não é Poisson ou binomial. • Se tiver uma curva única, sem picos secundários e um declive lento em cada lado, pode ser Poisson ou uma distribuição gama. Mas não pode ser uma distribuição uniforme e discreta. • Se os dados forem distribuídos uniformemente e não houver um desvio para um lado, é seguro descartar uma distribuição gama ou Weibull. • Se a função tiver uma distribuição par ou um pico no meio dos resultados gráficos, ela não será uma distribuição geométrica ou uma distribuição exponencial. • Se a ocorrência de um fator varia com uma variável ambiental, provavelmente não é uma distribuição de Poisson.

Após o tipo de distribuição de probabilidade ter sido reduzido, faça uma análise R quadrática de cada tipo possível de distribuição de probabilidade. Aquele com o maior valor de R ao quadrado está provavelmente correto.

Elimine um ponto de dados discrepantes. Então recalcule R ao quadrado. Se o mesmo tipo de distribuição de probabilidade aparecer como a correspondência mais próxima, haverá uma alta confiança de que essa é a distribuição de probabilidade correta a ser usada para o conjunto de dados.

Dicas

  • Se os dados mostrarem vários picos com uma ampla dispersão, é possível que dois processos separados estejam em andamento ou que o produto que está sendo amostrado esteja misturado. Recorde os dados e, em seguida, volte a analisar.

Aviso

Valide as equações geradas em relação a conjuntos de dados posteriores para confirmar que ainda é preciso para o conjunto de dados. É possível que os fatores ambientais e o desvio do processo tenham tornado equações e modelos atuais incorretos.