logowanie

matematyka » forum » forum zadaniowe - uczelnie wyższe » zadanie

Statystyka, zadanie nr 4347

ostatnie wiadomości  |  regulamin  |  latex

AutorZadanie / Rozwiązanie

kasiaaa33
postów: 2
2016-03-01 12:19:50

Cześć,
jako część projektu nad którym pracuję potrzebuję sposobu na aproksymację następujących danych: ilość pracowników 1, ilość firm 1 000 000,
ilość pracowników od 2 do 9, ilość 1 000 000,
ilość pracowników od 10 do 49, ilość 117 486,
ilość pracowników od 50 do 249, ilość 2 453,
ilość pracowników od 250 do 999, ilość 2 453,
ilość pracowników od 1000, ilość 462

Potrzebna jest metoda, aby na podstawie tych danych wygenerować wzór funkcji który dałby mi możliwość otrzymania na wyjściu ilości firm dla podanej liczby pracowników.
Proszę o pomoc, a w razie czego informację na ile według Was możliwe jest rozsądne wykonanie takiego zadania.


janusz78
postów: 820
2016-03-01 15:53:43

Znajdź prostą regresji $ y=\hat{\alpha}x +\hat{\beta}$ dla Twojego szeregu rozdzielczego.


kasiaaa33
postów: 2
2016-03-03 11:24:12

Niestety nie doszłam z Twoją pomocą do odpowiednich wyników.

Może uprośćmy - wystarczy mi dobra estymacja. Może być kilka różnych funkcji - osobnych dla każdego z przedziałów - obojętnie.
Byleby te funkcje łączyły się w przejściach między przedziałami - czyli, żeby nie było ostrych skoków oraz aby sumy w przedziałach były zbliżone do podanych.

Ważniejsze są dla mnie przedziały powyżej 10 ilości pracowników. Ten milion na początku możemy pominąć w estymacji funkcji.


To co realnie potrzebuję, to wyliczyć ile jest firm w przedziale od 50-99 oraz 100-499. Może same te przedziały ktoś wie jak przeliczyć?


tumor
postów: 8070
2016-03-03 13:41:42

Popatrz, funkcji jest nieskończenie wiele. Wybrać odpowiednią z nieskończenie wielu to dość mocno zaryzykować. Ogólnie użycie jakieś funkcji powinno mieć sens. Czyli musimy dysponować jakimiś przypuszczeniami, że zależność ilości firm od ilości pracowników jest akurat logarytmiczna albo akurat liniowa albo akurat wykładnicza albo akurat jakaś jeszcze.
Jeśli się takich przypuszczeń nie ma, to zgadywanie jest dziwne. Można oczywiście zauważyć jakiś charakterystyczny kształt wykresu, ale czemu brać go np za fragment krzywej wykładniczej, a nie na przykład arctg albo sumę kilku funkcji potęgowych?

Jeśli znasz wartości dla ilości firm z maksymalnie 1,9,49,249, 999, pracownikami, to już możesz sobie pozwolić na szacowanie z pięcioma parametrami. Możesz mieć zatem wielomian maksymalnie czwartego stopnia (ale kształt wykresu nie bardzo wskazuje na zależność wielomianową), albo sumę kilku potęg logarytmów, albo jakieś wykładnicze.

Możesz sobie zrobić dla żartu tak:
$F(x)=ab^x+\frac{c}{x}+d +elnx$, gdzie a,b,c,d,e są nieznanymi parametrami.
Robimy układ równań
$\left\{\begin{matrix} F(1)=10^6 \\ F(9)=2*10^6 \\ F(49)= 2117 486 \\ ... \end{matrix}\right.$
I tak dalej, gdzie F(x) oznacza liczbę firm, w której pracuje x lub mniej pracowników.

Czemu wybrałem akurat takie funkcje? No właśnie. Bez dobrego uzasadnienia. Równie dobrze można kombinować jakieś inne. Możesz dorzucić jakiś składnik liniowy $fx$, albo $g*arctgx$, albo $h*ln^ix$.

Bez teoretycznej analizy zagadnienia, co i w jaki sposób wpływa na kształt funkcji, wszelkie przybliżenia są tylko zgadywaniem. Istotne jest to, że masz 5 parametrów, które możesz dowolnie rozdysponować.
Możesz zrobić kilka wariantów funkcji, ale każdy wariant będzie równie nieuzasadniony. Zatem gdyby to była niezbyt ważna kwestia wymagająca szybkiego byle jakiego rozwiązania, to po prostu wymyślilibyśmy kilka wariantów, sprawdzili, który najlepiej oddaje Twoje dane i już. Ale w przypadku poważnej pracy nie możemy sobie pozwolić na tak arbitralne wybieranie kilku funkcji spośród nieskończoności. Nie ma to sensu.

Janusz dość bezsensownie zaproponował regresję liniową, choć dane układają się bardzo daleko od linii prostej. Wielomiany będą nieco lepsze, ale kształt wykresu pozwala przypuszczać, że dla skrajnych danych (mało lub dużo pracowników) wyniki przybliżane wielomianem byłyby kiepskie.
Możesz spróbować kilku takich mieszanych funkcji z odpowiednimi współczynnikami. Możesz mieć pewność, że osoba, która to potem przeczyta, złapie się za głowę, bo te funkcje bierzesz z powietrza. Bez uzasadnienia. Magia. Ale jeśli to, czego potrzebujesz, jest po prostu jakimś przybliżeniem, to możesz otrzymać funkcję o zadowalającym Cię kształcie.

Ta funkcja zaczyna się stromo (dla 1 mamy $10^6$, dla 9 mamy już $2*10^6$), a potem się wypłaszcza, różnica między 249 a 999 jest znikoma w stosunku do wartości funkcji.
Strome na początku a potem bliższe płaskości są homografie, w mniejszym stopniu logarytmy czy pierwiastki. Zatem możesz próbować jakiejś sumy składników
$\frac{a}{x}$
$\sqrt[b]{x}$
$\frac{c}{x^2}$
$dln^e{x}$
i innych
$f*arctg{x}$, gdzie a,b,c,d,e,f,... są parametrami. Możesz dodawać/mnożyć/dzielić takie funkcje, ale by układ miał rozwiązanie pozostań przy maksymalnie 5 parametrach łącznie. Jedną z takich funkcji jest zaproponowana F, ale pamiętaj, NIC, ABSOLUTNIE NIC nie uzasadnia takiego jej wyboru. Jedynie dla praktycznego przybliżenia jakichś wartości można sobie na takie fikuśne rozwiązanie pozwolić - stworzyć kilka kandydatur na funkcje, przetestować je i wybrać najlepszą. Ale to wciąż losowanie kilku opcji z nieskończoności.


janusz78
postów: 820
2016-03-03 14:59:03


Pierwszy przedział ze względu na dużą liczbę - odbiegającą od reszty liczby firm odrzuć- traktując jako odzielną wartość
funkcji
$ f(n)= 1000000$ dla $ n\in <2, \ \ 9>.$

Dla pozostałych przedziałów liczbowych pracowników znajdź ich środki.

Z tego nierównomiernego szeregu rozdzielczego przejdź na szereg
szczegółowy.

Znajdź równanie linii regresji dla tego szeregu, przyjmując dla ostatniego przedziału $ (x_{4},\ \ y_{4})= ( 1000, 462).$

Wiadomość była modyfikowana 2016-03-03 15:54:53 przez janusz78

tumor
postów: 8070
2016-03-03 19:27:16

A założenie o liniowości to Janusz bierzesz z kryształowej kuli? :)

strony: 1

Prawo do pisania przysługuje tylko zalogowanym użytkownikom. Zaloguj się lub zarejestruj





© 2019 Mariusz Śliwiński      o serwisie | kontakt   drukuj