hogyan próbáljuk megnyerni az ötöslottót?

2018. január 02. 02:49 - leahnora

Adattudományt tanulok szabadidőmben, és természetesen a pandas, numpy és matplotlib eszköztárainak felfedezésével kezdtem. Egy pár hét tanulás után, melyet egyébként egy online platformon keresztül végzek, szerettem volna összedobni egy egyszerű kis projektet, hogy lássam, hol is tartok.

Kutattam érdekes adathalmazok után az interneten, és meg is találtam az ötöslottó eredményeit, melyet hetente, a sorsolások után frissítenek. Az adathalmazban megtalálhatóak a nyerőszámok, illetve a nyertesek és nyereményeik kategóriánként (kettes, hármas, négyes vagy ötös).

Jupyter Notebook segítségével végeztem a minimális adattisztítást és az elemzéseket, de készítettem egy szebb formátumú riportot az eredményekről.

A notebook fájl megtalálható itt, a riport pedig itt.

Egy jól kinéző riportot szerettem volna készíteni, nem feledve azt, hogy ne csak számokat dobjak az olvasó elé, hanem inkább egy teljes történetet adjak át. Jah, és jó tudni, hogy a lottó 2017-ben volt 60 éves! :)

Tudva azt, hogy sok ember a saját szerencseszámaival játszik, legyenek azok a családi szülinapok, házszámok, stb, próbáltam néhány egyéb stratégiát összegyűjteni és elemezni hatékonyságukat:

  • leggyakrabban húzott számok
  • legritkábban húzott számok
  • legrégebb óta nem húzott számok

Kíváncsi voltam természetesen a telitalálatos nyereményekre is, de főként arra, hogy az évek során hogyan növekedtek a nyeremények. Szerencsétlenségemre az adathalmazban csak 1998 óta vannak erre vonatkozó információk.

Néhány érdekes adat kiesett ebből a projektből, és remélem, hogy többeknek is érdekes adatokkal tudtam szolgálni. Talán még pár embert ahhoz is hozzásegítetek, hogy egy nagyobb összeget tudjon nyerni egy másfajta stratégiát választva!

Ha bármilyen hibát, javaslatot, ötletet vagy csak visszajelzést adnál, akkor kérlek jelezd hozzászólásként, vagy írj ide: leah [kukac] floppylab [pont] com

# adathalmaz: itt (2018. 01. 01.) és eredetileg innen (hetente frissítve)
# kapcsolat: leah [at] floppylab [dot] com

21 komment

A bejegyzés trackback címe:

https://adatmuhely.blog.hu/api/trackback/id/tr7113540097

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Szalay Miklós 2018.01.02. 17:48:49

Egy összefoglaló a véletlenszerűségről és társairól. (Ok és okozat, valószínűség, kockázat, determinizmus, kiszámíthatóság, stb...):

egyvilag.hu/temakep/017.shtml

fda 2018.01.02. 18:29:42

Ha már adattudománnyal foglalkozol, akkor érdemes lenne kicsit a valószínűségszámítással is. Akkor nem akarnád kiszámolni a legvalószínűbb lottószámokat.

leahnora 2018.01.02. 18:58:51

@fda: Kedves fda! Igazából a célom nem az volt, hogy megmondjam a jövőheti nyerőszámokat, hanem az, hogy az eddig kihúzottak alapján néhány érdekes adattal, diagrammal tudjak szolgálni ebben a témakörben. Remélem, hogy ez legalább sikerült!

Le Orme 2 2018.01.02. 19:09:37

"leggyakrabban húzott számok
legritkábban húzott számok
legrégebb óta nem húzott számok"

Ezeknek nincs jelentősége.

Ami egyedül érdekes lehet, hogy melyek a leggyakrabban legritkábban megjátszott számok. Azokra érdemes fogadni, mert akkor a változatlan nagyságú nyereményalap kevesebb győztes között osztódik (persze csak addig, amíg nincsenek sokan az ilyen stratégiát választók).

ipartelep · http://ipartelep.blog.hu 2018.01.02. 19:17:18

Ha már az Index a címlapra rakott, szívesen segítek neked "adattudományilag".
A témában 2 db releváns kérdés van, úgymint:
(1) A véletlenszerű (szándékkal nem befolyásolt) lottószám húzásoknál, van-e különbség az egyes szám-ötösök (pontosan 43949268 db ilyen lehetőség van) kihúzásának valószínűsége között?
Erre az a jó válasz, hogy nincs. Pl. az 1,2,3,4,5 sorozat ugyanolyan valószínű, mint bármely tetszőleges, "szabálytalan" számötös. Ha ezt tudod, akkor ez a tudás máris feleslegessé teszi azt, hogy "szabályokat", stratégiát, vagy bármi olyan trükköt keress a lottóban, amelynek segítségével nagyobb valószínűséggel nyerhetsz. Merthogy ilyen stratégia nincs.

A másik kérdés így szól:
(2) Nyerés esetén lehet-e valahogyan növelni a nyeremény összegét?
Erre az a jó válasz, hogy igen, lehet. Ennek az az oka, hogy az egyes nyereményosztályok összege véges, és ezt az összeget osztják el annyi részre, ahányan az adott nyereményosztályban nyertek. Mivel bizonyos "szerencse számokat" (az egyes pont értelmében ilyen nincs, de az emberek ostobák, ezt nem tudják) többen játszanak meg, mint más számokat (1, 13, 21, stb.), ezért, ha ezeket a számokat húzzák ki, akkor több lesz a nyerő szelvény - így a véges nyereményt több felé kell osztani, vagyis a nyereményösszeg kisebb lesz. Ennek azért mennyiségileg nincs túl nagy nagy jelentősége, de mondjuk egy nagy nyereménynél azért számít, hogy azt egyedül nyered meg az "összevissza számaiddal", vagy 10 felé kell osztani, mert a véletlenül közismert szerencseszámokat húzták ki.

És ennyi a lottózás "tudománya", semmi több. Semmilyen statisztikával sem tudod növelni a nyereményed _esélyét_. (Mint mondtam a (2)-ben, az _összegét_ tudod.) És ha nekem nem hiszel, majd remélhetőleg eljutsz oda z "adattudományi" tanulmányaid során, amikor ezt az információt is tanítják.

2018.01.02. 19:38:48

@Le Orme 2: "Ezeknek nincs jelentősége."

Neked sincs.
:)

Le Orme 2 2018.01.02. 19:58:41

Egyébként a múltban húzott számoknak nincs jelentősége, érdekesség, hogy a már kihúzott számok újbóli kihúzására (ugyanaz mindegyik nyerőszám) volt már példa a francia, a bolgár és az izraeli lottón.

Inimma 2018.01.02. 20:04:05

Új blog - index.hu címlapon. Nagyon érdekes... A soha viszontnemlátásra.

Alick 2018.01.02. 21:03:25

Ha a kihúzott lottószámokat kvázi véletlenszám generátornak tekintjük, érdemes lenne a randomitását (entrópiáját) tesztelni:

csrc.nist.gov/Projects/Random-Bit-Generation/Documentation-and-Software/Guide-to-the-Statistical-Tests

Tuvalu 2018.01.02. 21:22:47

@ipartelep: Teljesen egyetértek avval amit írtál.
Egy kisebb pontosítás, a leggyakrabban megjátszott szám a 19-es (a többi gyakori a 3,7,9,13,21). Erre még a 20 évvel ezelőtt készitett tanulmányomból emlékszem, amiben pont azt néztem, hogy a beérkezett szelvények számához képest hány darab kéttalálatos volt a húzott számok függvényében.

A 31 alatti számok felülreprezentáltak (mert ugye sokan játszanak születési dátumot). Meg még az volt érdekes, hogy szomszédos nyeröszámok kihúzása esetén is növekedett a nyeremény, azaz a legtöbb ember irtózik szomszédos számok bejelölésétől (pedig kb 20% esély van ilyen sorsolásra).

Másik érdekesség (de erre sose volt eröm teljesen megcsinálni) hogy euromillions nyerési adataiból különbözö nemzetek által kedvelt szerencsejátékokat meghatározni.

Tuvalu 2018.01.03. 11:43:23

@Beer Monster: Ha valaki 1983 október 29-én született, akkor jó eséllyel játssza meg a 83,10,29 számokat. Az 1-12-ig számok is felül vannak súlyozva, tehát ha azokat húzzák ki, akkor kevesebb a nyeremény, de az 1-31 is feljebb van súlyozva (születés napja a hónapban). Olyan 10%-kal többet játsszák ezeket a számokat mint a 32-90-et. (egyébként a saját elméletem, amit nyilván bizonyitani nem tudok, hogy a 19 is azért van felülsúlyozva, mert 19-83-10-29-et játszanak fenti esetben). Bőven elég ha minden 10. játékos amugy ilyen számokat játszik, az már nagyon látszik a nyereményekben.
Egyébként még az is kimutatható volt halványan, hogy 1990 elött az adott évszám kihuzásakor is pár %kal csökkentett nyeremények voltak (tehát többen játszották azt a számot)

sdani 2018.01.03. 13:21:43

OK, egy csomóan fikáztak, én megpróbálok kritizálni. Remélem azért lesz különbség. :D

Szóval, amit csináltál, annak nincs sok köze a data science-hez. Ahogy írtad is, a data science feladata az, hogy egy történetet meséljen. Szerinted az, hogy listáztad a tíz leggyakrabban és a tíz legritkábban kihúzott számot az történet-e? Nem. Nem az. Data science-e az, ha nincs hipotézis, és nincs hiptézis tesztelve? Nem. A címben feltett kérdést, miszerint "hogyan próbáljuk megnyerni az ötöslottót?", az analízis során megválaszoltad-e? Megválaszolható-e ez a kérdés? Ha nem, akkor miért nem?

Az egész kérdéshez én így álltam volna hozzá: 1) megválaszolni azt a kérdést, hogy vannak-e olyan számok, amik az elvártnál gyakrabban vagy ritkábban húznak ki? Ez egy hipotézis, amit a megfelelő statisztikai eszközökkel tesztelni lehet. Borítékolható, hogy nincs ilyen szám, ezért a legritkább és leggyakoribb számok listája teljesen értelmetlen a nyerés valószínűségének szempontjából. 2) Van-e értelme kihúzott számkombinációkat vizsgálni? Miért nem? 3) Segíthetünk-e akkor növelni a nyerés esélyét a kihúzott számok vizsgálatával? Nem. 4) Segíthet-e a data science ebben a kérdésben? IGEN. Hogyan? Ebben segítek: az esélyt ugyan nem tudjuk növelni, de a nyerés esetén a nyeremény összegét lehet optimalizálni, ha azt hasonlítjuk össze, hogy milyen számokat húztak ki, amikor kicsi vagy nagy volt a nyeremény. Elég-e a rendelkezésre álló adat ehhez a számításhoz? (power kalkuláció)

Szóval lehet ezen a mezsgyén kapargatni, bár nagy igazságokra nem fogsz bukkani, azt borítékolom.

Még egy megjegyzés: a kódrészletek print-screen-es copy-paste-elése annyira gagyi hatást kelt, hogy arra nincsenek szavak. A jupyter notebook-ból exportálható az adott cella forrása, amit aztán beilleeszthetsz a blogra. Itt a példa ugyan wordpress, de a lényeg az ugyan az: www.mianchen.com/wordpress-blogging-with-jupyter-notebook-in-five-simple-steps/ Ha komolyan gondolod a data science dolgot, akkor azt ajánlom, hogy az analízist githubon oszd meg. Mindenesetre az irány jó, az adattudomány csodálatos. A lényeg, hogy legyenek értelmes kérdéseid, amik megválaszolása valami mély, vagy legalábbis nem trivális, érdekes igazságra derít fényt. Ha vannak kérdések, akkor törekedni fogsz, hogy megszerezd a válaszhoz szükséges programozói és statisztikai eszközöket. Így lehet fejlődni.

Beer Monster 2018.01.04. 10:08:25

@sdani: "legyenek értelmes kérdéseid"

Attól mentsen meg az isten! Vagy vannak kérdései, akkor juthat valamire, vagy nincsenek, akkor ne is legyenek.

rozsomák 2018.01.07. 04:34:08

@Tuvalu:
"a leggyakrabban megjátszott szám a 19-es "

Ez egy ostobaság..

Ugyanis nincs adatbázis a megjátszott számokról.. Te ezt csak az ujjadból szophattad..

Amivel kevered, az a kihúzott/kisorsolt számok.

A te hozzászólásod is bizonyítja, hogy nem árt, ha a magát akárkinek tekintő - datascientist, vagy kukabúvár vagy tök mindegy - régebben ezt statisztikusnak hívták, ma is az, nem más, csak ez most modernebb, trendibb, akkor juhé !!! örülünk !!! - legalább kicsit ismeri azt a területet, ahova betéved., mielőtt elkezd ott okoskodni és baromságokat összehordani...mint amit a poszter tett..

A másik, hogy a nyereményalap mekkora - a befolyó pénz hányadát osztják szét, és mekkora az adó - és utána annak felosztása - mekkora hányad került melyik nyerőosztályba - elég lényegesen változott az idők folyamán, ha már valaki a pénzekről beszélni akar, ezeket nem ártana figyelembe venni, mielőtt pénzbeli statisztikákat akar elemezni

Tuvalu 2018.01.07. 12:20:35

@rozsomák:
Mint fentebb írtam, 20 éve egy tanulmányt készítettem. Nem akartam neked kirészletezni, de akkor megteszem. 1990 előtt a Sportfogadás nevű újságban megjelent minden hétről az az adat, hogy hány szelvény került játékba valamint az is hogy az egyes nyerőosztályokban hány darab nyertes szelvény volt. 1990 után már bonyolódott kicsit a helyzet, de 1997-ben még vissza lehetett következtetni a szelvényszámokra, csak el kellett olvasni, hogy a beérkezett összeg felosztása milyen %ok alapján történt (mivel ugye állami cégről beszélünk, ezért ezek nyilvános adatok voltak). Ha egyébként 2017-ben kellene ezt megcsinálni, akkor se lenne lehetetlen, mert év közben nem minden héten változik a felosztási rendszer, tehát ha egy adatod már van beérkezett szelvényszámra, akkor jó vagy.
bet.szerencsejatek.hu/jatekok/otoslotto/sorsolasok
www.hirado.hu/2015/02/20/eves-rekord-kozeleben-az-otos-lotto-szelvenyek-szama/

Például ebböl a két linkböl lesz beérkezett szelvényszámod, illetve kéttalálatosok számára adatod (nem azt mondom hogy tűpontos, de számolni ebből is lehet)

Azt mondanám, hogy a hozzászólásodban az lepett meg, hogy azt nagyjából helyesen sorolod fel, hogy az általam állított dolgok kiszámításához milyen adatok kellenének, de ezek hozzáférhetőségét alapból lehetetlennek érzed, ezért lehülyézel. Remélem a fenti magyarázat láttán átértékeled álláspontodat. Üdv.

rozsomák 2018.01.17. 22:14:37

@Tuvalu:

Akkor mégegyszer nekifutok - bár nem valószínű, hogy megérted.

Te arról írtál, hogy a "megjátszott" számokról van statisztika - hisz ebből szophattad, jaj, bocs, helyesbítek : vehetted - hogy a 19-es az.

Én az mondom, hogy ha tegnap megjátszottam a 1,2,3,4,5 variációt... aztán kihúzták/sorsolták a 6,7,8,9,10-et, akkor az én tippem -1,2,3,4,5 - nem kerül bele semmiféle elérhető statisztikába, tehát nem képezi az alapját semmiféle utólag elemezhető adatbázisnak.

Tehát a "megjátszott" alatt te nem a tényleg megjátszott, hanem a kihúzott/kisorsolt számokat értheted csak, mert csak azokról érhető el statisztika, nem a "megjátszottakról."

Én azt állítom, hogy nincs olyan elérhető adatbázis, ami tartalmazza az össze beérkező szelvény összes megtipoelt/megjátszott számát, azokat is, amik nem nyertek egyáltalán...

Sőt, azt állítom, hogy nemhogy elérhető nincs, hanem egyáltalán nem is létezik még magánál a Szerencsejátétk Rt-nél sem, mert egy idő után megsemmisítik az x évnél korábbi játékok adatbázisát, ezért statisztikai elemzésre nem is léteznek már.

Tuvalu 2018.01.18. 03:48:31

@rozsomák: Értem, amit írsz, de úgy látom te nem akarod végiggondolni, amit én írok. Goromba vagy, ami alapból nem zavarna, de azt látom, hogy te a gorombaságra koncentrálsz, és nem is próbálod megérteni amit irok.
De azért mégegyszer nekifutok. Ha minden számot ugyanolyan valószinüséggel játszanának meg, akkor minden héten a beérkező szelvények 1/44,5 része lenne kéttalálatos. Azonban vannak hetek, amikor ennél jóval több, és vanna kmikor jóval kevesebb kéttalálatos van. Az eltérés akár kétszeres is lehet. Tehát ha a 3,7,13,19,21 számokat húzzák ki, akkor akár a szelvények 5%a is (tehát minden 20.) kéttalálatos lesz (illetve volt). Példaként nézd meg itt 2017 33. és 34. hetét:
bet.szerencsejatek.hu/cmsfiles/otos.html
Egyik héten feleannyit fizet a kéttalálatos (és kétszerannyi van belöle, úgy hogy légyszi ne gyere avval hogy nem tudni hogy hány beérkezö szelvény van) mint a másikon. Látod hogy a 33. héten volt a 3,7,19 is.
A dolog lényege, hogy tökmindegy hogy te a 6,7,8,9,10-et játszod mikor az 1-2-3-4-5-öt huzzák ki, mert ettöl még meg lehet mondani hogy azon a héten az 1-2-3-4-5-tel az átlagnál többen játszottak vagy kevesebben. Abban igazad van hogy a 6-7-8-9-10 (söt 11-90) megjátszásáról nem sokat lehet tudni az adott héten, viszont az éppen kihuzott számokról meg igen.
Persze matematikailag igazad lehetne, hogy minden héten mindenki más számokkal játszik, de ez a gyakorlatban nem így van. Mielött megint valami gorombaságot írnál, bizonyítom is: Ha így lenne, akkor a 3,7,19 számok kihuzásakor néha sok kéttalálatos lenne, néha meg kevés. Na de mindig sok van.
A konkrét matematikája egyébként még leegyszerüsítve is az, hogy ha a 3,7,17,19,21 számok mindegyikét az átlaghoz képest (1/18) 41%kal többen játszanák, akkor jönne ki kétszer annyi kéttalálatos mint az átlag (mert igazából a 3-7;3-17; ...19-21 számpárokról van szó. Ha ezekböl irtál egyiket, akkor van kettesed.
Következö dolog, hogy minden számot viszonylag gyakran kihuznak, ugye 1/18 eséllyel, azaz évente kb 3szor. Ebböl már pont lehet mérni minden számot. Nyilván mókás kis iteráció legkisebb négyzetek elvén szórást minimalizálni, de a végén csak kijön arról a kva 60asról például, hogy ritkán játsszák (mert vannak ugyan átlagfeletti kéttalálatosok mikor kihuzzák a 60at (a 3-7-13-21-gyel együtt), de mikor átlagos számokkal huzzák ki, akkor a 60as hosszu távon jó pénzt fizet, mert kevesen játsszák.
Aztán nyilván van olyan következmény is, hogy azt pl nem fogom tudni neked megmondani, hogy van-e 5 találatos vagy nincs, mert ez tényleg arról szól hohy Józsi bácsi feladta-e a szelvényét.
Viszont az 5 szám kihuzásakor +-3%kal meg tudom mondani neked hogy mennyit fizet a kéttalálatos. Ahogy te mondanád, kiszopom az ujjamból. Pedig csak simán van egy táblám, hogy melyik számot milyen gyakran játsszák az emberek.

A konkrét felvetésedre, hogy a Szerencsejáték zrt eltárolja-e az összes lottószelvényadatot, a válasz az hogy 1998 óta igen. 1990-1997 közt nem tudom mert az már félautomata rendszer volt. 1990 elött viszont törvényileg is az volt a szabály hogy 30 vagy 90 nappal a sorsolás után bezuzták a szelvényeket.

rozsomák 2018.01.19. 20:15:54

@Tuvalu:
"Abban igazad van hogy a 6-7-8-9-10 (söt 11-90) megjátszásáról nem sokat lehet tudni az adott héten,.."

Nemcsak hogy erre céloztam, hanem pontosan ezt írtam !!
Hogy a megjátszott számokról nem lehet tudni semmit !!! Csakis a kihúzott/kisorsolt számokról..

Te meg itt azzal kezdted, hogy magáról a MEGJÁTSZOTT ! számokról van elérhető statisztika..
Na aztán hol ??

"A konkrét felvetésedre, hogy a Szerencsejáték zrt eltárolja-e az összes lottószelvényadatot, a válasz az hogy 1998 óta igen."

Na de meddig tárolod te a krumplit ? Amíg kell.. amíg van értelme..
Ugyanígy van az Szrt is. Amíg jogi következményei vannak és lehetnek, addig érdemes tárolni.

De pl. elérhetőek ma mondjuk a 2003 év. 5. heti összes megjátszott szelvényeinek adatai ?
Publikusan hol ?

Mert te erre hivatkozol.. nem ?
Szerintem magában az SZRT-ben sem..

Tuvalu 2018.01.20. 01:30:42

@rozsomák: Először is köszönöm, hogy nem anyáztál ezúttal.
Másodszor pedig szeretném felhívni a figyelmedet, hogy az egész eszmecserénk abból nőtt ki, hogy az állításomra, mely szerint a leggyakrabban megjátszott szám a 19-es, azt írtad hogy ostobaság. És mindezt avval indokoltad, hogy nincs adatbázis, később pedig avval, hogy nincs elérhető statisztika.

Evvel szemben én ilyet soha nem is állítottam, ellenben azt magyarázom, hogy azt, hogy a 19-es számot játsszák legtöbbet az emberek, azt akkor is ki lehet SZÁMOLNI, ha nincs ilyen adatbázis.

Te azt állítod, hogy ha nincs olyan adatbázis, amiben pontosan benne van, hogy melyik szelvényre milyen számokat ikszeltek, akkor lehetetlen megmondani mindezt, én pedig azt állítom, hogy a kettesek relatív darabszámából minden kihúzott 5 számra, lehet gyakoriságot felállítani, ami több éves távlatban már az összes számra ad egy gyakoriságot.

Te viszont azt, hogy ha nincs pontos adatbázis, akkor onnantól már minden ujjból kiszopott adat.

De egyébként tényleg olvass vissza, soha nem írtam hogy a megjátszott számokról STATISZTIKA van. Te valamiért fejedbe vetted, hogy ezt állítom, és ezt próbálod cáfolni, hogy ostoba vagyok mert nincs ilyen statisztika. Én meg itt végig azt bizonygatom, hogy a kéttalálatosok számából lehet számolni-következtetni etc.

Egyébként hogy van-e értelme folytatni ezt az eszmecserét azt lényegében meghatározza a következő kérdésre adott válaszod:
Ha egyik héten az 1-2-3-4-5 kihúzott számok esetén a 2 találatos 1000 forintot fizet, a másik héten a 6-7-8-9-10 kihúzott számok esetén a 2 találatos 2000 forintot fizet (és nem történt a nyerőosztályok közti pénzelosztási szabályokban változás), akkor levonható-e ebből hogy az 1-2-3-4-5 számokat külön külön átlagosan többet játsszák meg az emberek, mint a 6-7-8-9-10-et külön-külön (tehát megjátszásnak számít az 1-3-30-40-77 szelvény is az 1-3-ra)?
süti beállítások módosítása