opravdu velké kousky ovce

Na navigaci | Klávesové zkratky

Václav Henych podvedl prezidentské kandidáty

Ostuda nevídaných rozměrů. Ministerstvo vnitra vyřadilo z prezidentských voleb 3 kandidáty na základě chybného výpočtu. Výpočet je natolik nesmyslný, že se mnozí zdráhali uvěřit, že by se něco takového mohlo vůbec stát. Leč místo nápravy se průšvih rozmazává.

O co jde? Prezidentští kandidáti museli podle zákona předložit 50.000 podpisů a ministerstvo pak ověřuje jejich „pravost“. Pravost píši v uvozovkách, neboť se jen kontroluje, zda lidé uvedeného jména a adresy existují. Zda skutečně něco podepsali, se už neověřuje.

Protože podpisů je mnoho, úředníci ověří pouze náhodný vzorek. Pokud se třeba u pětiny podpisů ukáže, že 10 % je neplatných, dá se předpokládat, že stejné procento neplatných podpisů bude vykazovat i celek.

A nyní přichází moment totálního zatemnění mysli mnoha lidí mnoha profesí. Úředníci z ministerstva vnitra pod vedením Václava Henycha spočítali neplatné podpisy a vydali zprávu. Jejich data publikovalo například Aktuálně.cz:

Podívejte se do tabulky. Pokud první vzorek, například u Miloše Zemana, vykazoval chybovost 10,6 % a druhý 11,2 %, dá se odhadovat, že neplatných podpisů bude něco kolem 11 %. To je myslím zcela zřejmé, že? Tudíž ze 106 tisíc podpisů bude cca 11 tisíc neplatných. Jenže: vyřazených je 23 162 podpisů.

To je přece evidentní nesmysl!

Jak je to možné? Než se k tomu dostaneme, všimněte si:

  • prezidentská volba je velmi sledované společenské téma
  • úředníci na ministerstvu vygenerovali zjevně absurdní čísla, aniž by si toho všimli
  • Aktuálně.cz z nich udělalo přehlednou tabulku, aniž by si někdo všiml, že jsou to nesmysly
  • žádný z prezidentských kandidátů nenapadl nesmyslnost výpočtu (Vladimír Dlouhý to napadl ihned, ostatní kandidáti až po zmedializování.)

Prvním, kdo se ozval, byl až Marek Antoš na Twitteru. A záhy se ukázalo, že úředníci jednoduše procenta chybovosti v jednotlivých vzorcích sečetli. V tu chvíli šel národ do kolen. To je totéž, jako spočítat, že v Čechách je v populaci 51 % žen, na Moravě taky 51 % žen, takže v České republice máme 102 % žen. Nebo že ráno bylo 7 °C, odpoledne 13 °C, takže přes den bylo 20 °C.

Čím víc vzorků se ověří, tím přesnější údaj o množství neplatných podpisů získáme. Nikoliv ovšem v podání ministerstva vnitra: kdyby ověřili 10 vzorků a výsledky sečetli, zjistí, že Miloš Zeman má 110 % neplatných podpisů a zavřou ho za porušení přírodních zákonů.

Asi bylo naivní očekávat, že Václav Henych, šéf této frašky, se veřejnosti omluví a okamžitě rezignuje. Místo toho poskytl iHNED.cz rozhovor, kde si stále trvá na svém:

Vezmu příklad, aby se to dobře počítalo. Celkový počet podporovatelů některého kandidáta bude 100 tisíc. V prvním vzorku najdeme čtyři procenta chyb a ve druhém vzorku šest procent. To je celkem deset procent. A ty se odečtou, celkem tedy deset tisíc podpisů. A zůstane 90 tisíc.

Přísahám, že to skutečně odpověděl, to jsem si nevymyslel.

Absurdnost jeho prohlášení by vynikla, kdyby ministerstvo místo neplatných podpisů počítalo platné (což je fuk, je to slovíčkaření) a Václav by smrtelně vážně prohlásil:

V prvním vzorku najdeme 96 procent platných podpisů a ve druhém vzorku 94 procent. To je celkem 190 procent.

Václav Henych působí jako sympatický člověk a věřím, že je vzdělaný právník, ale v matematice je natolik zaostalý, že se mu chechtal i náš pes. Mně do smíchu nebylo, protože Henych měl na vnitru na starost všechny volby od roku 1992…

Co je ale nutné zdůraznit: jeho odpověď se týká obecně matematiky a nesouvisí se žádným zákonem. Ta skutečná blamáž totiž teprve začíná.

Blamáž přichází s interpretací zákona a jeho možných výkladů. Začíná se diskutovat, jak lze zákon vyložit a jestli úředníci postupovali v jeho souladu. Což je naprosté pošlapání ducha zákona ve prospěch litery. Tady přece nejde o žádné nejednoznačné výklady. Cílem je přece zjistit, zda kandidát oněch 50.000 podpisů má, nebo ne. Jakékoliv snahy překroutit výklad pak od cíle jen a jen odbíhají.

Je mi až do breku, když vidím, jak si v novinách a televizi jeden člověk vedle druhého dělá ostudu kolem tak očividné absurdity. Žádné mrcasení se zákonem nemůže nic změnit na tom, že Václav Henych si skutečně myslí, že procenta se mohou takto sčítat, svou neuvěřitelnou hloupostí poškodil přinejmenším jednoho prezidentského kandidáta a nejspíš zostudil celé volby. A že tedy není člověkem na svém místě.

Doplněno 13. 12. – Nejvyšší soud potvrdil, že průměrování je jediná rozumná možnost (rozhodnutí v PDF). Václav Henych to ale stále nechápe. Odstoupí konečně?

Komentáře

  1. Lukas Mach #1

    avatar

    Ciste teoreticky si dovedu predstavit situaci, kdy je procento chybnych podpisu vetsi nez prumer (nebo dokonce i soucet) procent chybnych podpisu v obou vzorcich. Pokud budou v prvnim testovacim vzorku validni podpisy lidi A, B, C a D a v druhem disjunktnim (!) vzorku jsou podepsani lide A, B, X a Y, tak je chybovost obou vzorku 0, tzn. soucet i prumer jsou 0, ale chybovost celeho datasetu je nenulova, protoze A a B jsou tam podepsani dvakrat. Chybovost dat z obou vzorku (A, B, C, D, A, B, X, Y) dohromady je 50% (pokud duplicitni podpisy vyskrtavame uplne) nebo 25% (pokud se vyskrtava druha kopie duplicitniho podpisu). Jinymi slovy: pokud jsou mezi chybovosti podpisu nelinearni zavislosti, nebude prumerovani (a scitani) fungovat.

    Ta interpretace (scitani procent) by dokonce byla docela dobry postup, pokud bychom byli v situaci, kdy je velka mira chybnych podpisu vzacny jev, ktery se stane jen u jednoho/dvou kandidatu a prekroceni hranice akceptovatelne chybovosti indikuje neco velice podezreleho, jako napriklad velke procento duplicitnich podpisu. V takovem pripade je mozne interpretovat soucet procent jako dobry odhad na upper bound chybovosti celeho datasetu, protoze v nahodne vybranem vzorku bude odhalena jen sublinearni cast chybnych dat.

    Takze nejaky smysl ta interpretace dava, za predpokladu, ze definice „chybny podpis“ je dostatecne komplikovana.

  2. dein Grammar Nazzi #2

    před den ⇒ přes den

    před 11 lety
  3. David Grudl #3

    avatar

    #1 Lukasi Machu, Díky za komentář. To pravda, právě proto je vzorek náhodný a dostatečně velký.

    před 11 lety
  4. ic #4

    avatar

    V zákoně sice je, že se musí zjistit, zda kandidát skutečně shromáždil 50 000 platných podpisů, ale není tam, že se to musí zjistit správně. Tak jakej stres, no né. Klidně mohli vyloučit několik kandidátů metodou Karlovarské losovačky a říct jim, je nám líto nepostupujete XD

    před 11 lety
  5. Blat #5

    avatar

    V naší republice mne už nic nepřekvapí. Proboha, proč prostě nepočítají všechny hlasy? Zase tak náročné to není a když už jde o volbu hlavy státu..

    před 11 lety
  6. suchosch #6

    avatar

    Vladimír Dlouhý o chybě mluvil hned a poměrně jasně – ve dvě skončila tiskovka MV, ve tři měl tiskovku on: http://www.ceskatelevize.cz/…11015001123/

    před 11 lety | reagoval [35] David Grudl
  7. Petr Staníček #7

    avatar

    #1 Lukasi Machu, Jenže to je právě ta častá chyba ne-statistiků. Ano, takové úvahy dávají smysl u těch čtyř, deseti, patnácti vzorků. A to ještě za toho předpokladu, že se opravdu očekává velmi nízká a výjimečná chybovost.

    Jenže tady jde o desítky tisíc jednotek. Tady už platí Zákon velkých čísel a statistická rozložení. A funguje statistická matematika, která se od té školské aritmetiky holt v některých ohledech docela významně liší. Nicméně i na těch malých počtech a s použitím obyčejné aritmetiky se to dá ukázat.

    Řekněme, že budu mít dvacet jednotek k posouzení, ale to posouzení každé bude poměrně náročné (řekněme několik hodin práce) a nebudu mít možnosti prověřit všechny. Ale třeba 8 jich zvládnu. Vyberu si tedy dva náhodné vzorky po čtyřech kusech (nejlépe každou čtveřici jinou metodou) a prověřím je. Když v jedné čtveřici najdu 1 chybnou jednotku, dalo by se soudit, že celý soubor bude mít cca 25 % – plus mínus statistická chyba, která je u tak malého počtu jednotek ale obrovská. Mám ale druhý vzorek –který má stejně velkou statistickou chybu, ale oba dohromady ji poměrně významně redukují (násobí se to). Pokud druhý vzorek bude obsahovat 2 chyby ze 4, naznačuje 50% chybovost souboru. Z prvního vzorku ale víme, že taková zas možná nebude – tady právě začíná fungovat ta kumulace více vzorků a redukce statistické chyby. Z každého vzorku samostatně tedy víme, že chyba souboru bude 25, resp. 50 procent, plus mínus autobus. A to dost velký autobus. Když ale máme oba vzorky současně, víme mnohem víc. Máme 3 chyby z 8 jednotek, můžeme tedy říct, že chybovost celého souboru bude asi 37,5% – ovšem pozor, plus mínus sotva poloviční autobus (to záleží hlavně na oné metodě výběru vzorků).
    Pozn. na okraj: Je asi jasné, že soudný člověk by zde jen těžko dokázal ta procenta sečíst a prohlásit, že chybovost souboru bude nejspíš 75%…

    A teď si vemte, že ve skutečnosti nešlo o 20 jednotek, ale o 50–100 tisíc jednotek! Co to mění? V samotném postupu nic, jen ty „autobusy“ jsou maličké, miniaturizované na téměř nepodstatné mikroskopické velikosti. Takže jediná změna při takto velkých číslech je to, že výsledná hodnota se od „plus mínus autobus“ významně posunula k „téměř přesně“.

    Ale je snad jasné, že nejidiotštější krok, který se v tom výpočtu dá udělat, je ta procenta ze všech vzorků sečíst.

  8. Jan #8

    avatar

    Je nepochopitelné, jak něco takového mohlo projít s tím, že si této chyby nikdo na ministerstvu nevšiml.

    před 11 lety
  9. me2d09 #9

    avatar

    Ještě taková poznámka:
    Zákon č. 275/2012 Sb., §25, odst. 6:
    Zjistí-li Ministerstvo vnitra postupem podle odstavce 5 nesprávné údaje u 3 % nebo více než 3 % podepsaných občanů, provede kontrolu u dalšího vzorku stejného rozsahu (dále jen „druhý kontrolní vzorek“).

    Zjistí-li Ministerstvo vnitra, že druhý kontrolní vzorek vykazuje chybovost u méně než 3 % občanů podepsaných na petici, nezapočítá Ministerstvo vnitra občany z obou kontrolních vzorků do celkového počtu občanů podepsaných na petici.

    Zjistí-li Ministerstvo vnitra, že druhý kontrolní vzorek vykazuje chybovost u 3 % nebo více než 3 % občanů podepsaných na petici, odečte od celkového počtu občanů podepsaných na petici počet občanů, který procentuálně odpovídá chybovosti v obou kontrolních vzorcích.

    Tedy hypoteticky:
    Když by někdo měl v 1. vzorku chybovost nad 3% a v 2. pod 3%, tak by se mu, cituji, „nezapočítali občané z obou kontrolních vzorků do celkového počtu občanů podepsaných na petici“… Jinými slovy by se mu nezapočetlo celých 2*8500=17000 podpisů. Chápe někdo logiku tohodle paragrafu??

  10. Jiří Rusňák #10

    avatar

    Předpokládám, že v daném případě platí Normální rozložení a ne Studentovo . I kdyby někdo nevěděl, co to je, tak snad v 6. třídě už se učí účely používání průměru. V Událostech komentářích ČT ze sebe Henych-a udělal typického úředníka-politika-demagoga. Nechápu, jak může věřit, že tomu co řekl, někdo uvěří.

    Za dané situace je více než podezřelé, že po „správném“ odečení hlasů bude Dlouhému a Okamurovi chybět shodně cca 1100 hlasů. Náhoda?

    Je to neuvěřitelná ostuda a jen ukázka toho, jak to v tomhle státě funguje.

    před 11 lety
  11. Tomáš S. #11

    avatar

    #7 Petře Staníčku, Dovolím si polemizovat v jedné věci. Nejidiotštější krok by bylo spíše čísla vynásobit, ale rozhodně je to nejhůře druhá nejblbější možnost ?.

    před 11 lety | reagoval [13] Jiří Rusňák
  12. Jiří Rusňák #12

    avatar

    #9 me2d09, To chápeš špatně. Tento paragraf pouze upravuje situaci, kdy druhý ze vzorků má pod 3 procenta. V případě, že první vzorek je pod 3%, tak by se další kontrola nedělal a hlasy se ani nepřepočítávaly (není důvod), prostě by měl dost podpisů.

    V případě, který řešíš, se řeší situace, kdy až ten 2. vzorek má pod 3 procenta. V tomto případě se má udělat průměr z obou dvou. Problametické slovo je ODPOVÍDAJÍCÍ, ale to dělá problém asi jen vyvoleným.

    Řešení celé sitace je jednoduché, 2 kontroly se udělají vždy bez ohledu na to, jestli je nebo není pod 3%. Z výsledku se udělá průměr a ten se použije k dečtu z celku.

    před 11 lety
  13. Jiří Rusňák #13

    avatar

    #11 Tomáši S., Ne, horší by bylo použití exponentu či exponenciální funkce. Třeba by pak šla k volbám 1 miliarda neexistujících čechů s 2 miliardami neplatných hlasů :D – ten člověk totiž dělá i parlamentní volby –

    před 11 lety | reagoval [19] Zopper
  14. ondrej #14

    avatar

    #9 me2d09, Je to nesmysl. Pokud by nekdo v prvnim vzorku mel nad 3% a ve druhem pod 3%, tak by to podle tohoto pravidla bylo hrozne zavisle na velikosti tech vzorku – tzn pokud by vzorek mel velikost 100, tak by se v tomto pripade odecetlo z celkoveho poctu maximalne 102 podpisu (100 + 2). Pokud by ale vzorek mel velikost 1000, tak u by to bylo maximalne 1029 podpisu (1000+29).

    před 11 lety | reagoval [15] Jiří Rusňák
  15. Jiří Rusňák #15

    avatar

    #14 ondreji, Není to nesmysl, resp. nesmysl je hranice 3% .. ale může se stát, že bude mít 3.1% a 2.8%

    Velkou otázkou je, jak probíhal vůbec náhodný výběr, protože správně by měli vždy vybírat z celého vzorku, tj. to co už ověřili, musí vrátit z5 a udělat další náhodný výběr. Pokud to tak nebylo, tak ani průměrování není správně, v tom případě totiž není správně nic :c))

    Pokud ale vrátily archy z5, některý vylosovaly znova a tam pak vyřadili všechny lidi, protože se „jako podepsali víckrát“, tak to by byl další nesmysl z úředničiny.

    .. nedivil bych se ničemu z toho ..

    před 11 lety | reagoval [17] ondrej
  16. blechova #16

    avatar

    Nevim, ale ja jsem ten podivny zakon pochopila tak, ze je-li v prvnim nebo druhem vzorku neme nez 3% chyb, pak se neodecita nic.
    Je-li v jednom z vzorku nad 3% a ve druhem tez, odecita se procentualni prumer hlasu.
    Jiny vyklad nema smysl, proc by se melo odecitat jen kdyz nad 3% bude v prvnim vzorku? Je preci snad jedno, ktery vzorek je prvni a ktery druhy.
    To scitani procent je vazne caska specialita, to je desne.

    před 11 lety | reagoval [18] ondrej
  17. ondrej #17

    avatar

    #15 Jiří Rusňáku, Presne tak, cele to druhe pravidlo je nesmyslne.
    Meli by jen vybrat 2 vzorky, ktere nejsou disjunktni a procenta pak zprumerovat.

    před 11 lety
  18. ondrej #18

    avatar

    #16 blechovo, no tam slo o to, ze kdyz je v tom prvnim pod 3%, tak se ten druhy vubec nedela – asi kvuli lenosti ?

    před 11 lety
  19. Zopper #19

    avatar

    #13 Jiří Rusňáku, Ještě horší by byla Ackermannova funkce – to se už i pro ty prezidentské kandidáty dostáváme do čísel větších, než počet atomů v celém známém vesmíru…

    před 11 lety
  20. Jaroslav Mrkvička #20

    avatar

    #1 Lukasi Machu, Naprosto souhlasím. Skutečnost, že pro nutnost vyhodnocení druhého vzorku byla stanovena hranice 3%, svědčí o očekávání malé chybovosti. Skutečnost, že chybovost v peticích byla od 10% do 20 % a vyšší, svědčí o tom, že je něco špatně a průměrování není nejlepší způsob odhadu celkové chybovosti.

    Zákonem navržený způsob výpočtu počtu chybných podpisů vycházel z metodiky, kterou používala ve 2. světové válce armáda USA pro vyhodnocování zmetkovitosti při přejímkách velkého množství válečného materiálu. Důležitý byl počet zmetků a nikoliv dobrých výrobků a proto se chybovosti ve vzorcích sčítaly.

    Tentýž přístup by měl platit i pro odhad celkového počtu chybných podpisů, které je třeba odečíst od jejich celkového počtu. Průměrování chybovostí by navíc bylo na místě pouze za předpokladu téměř rovnoměrného rozložení chybných podpisů v celém souboru (nikdo z oponentů jej nevzal v potaz), což není pravda. Naprosto homogenní set by dokonce žádné průměrování nevyžadoval a stačil by jeden vzorek.

    Takže, autoři metodiky nejsou zase takoví dementi, za jaké je většina diskutérů považuje. Pouze se jim nepodařil překlad z angličtiny a při neznalosti problematiky vnesli do metodiky jen zmatek.

    před 11 lety | reagoval [36] Adam [45] jonáš
  21. Tomáš Kafka #21

    avatar

    #9 me2d09, Ještě jedna věc, které si všimnulo málo lidí:

    Zákon nezaručuje stejnou velikost vzorku pro různé kandidáty, střední hodnota by sice měla být stejná, ale rozptyl je v menším vzorku vyšší, a tak může kandidát, který podmínku nesplnil, ale v první losovačce měl štěstí na dobrý vzorek, neprávem postoupit.

    Oproti tomu identický kandidát s identickými podpisovými listy, jehož první vzorek bude mít náhodou přes 3 % chyb, pravděpodobně nepostoupí.

    A matematici z kohovolit.eu se ještě zamysleli nad rozdílností výsledků dvou vzorků Bobošíkové – a došli k závěru, že takto velký rozdíl při velikosti vzorku 8 500 z počtu cca 60k podpisů je při náhodném vzorkování možné dosáhnout v jednom případě z miliardy.

    Buď měla Bobošíková smůlu ekvivalentní výhře hlavní ceny v loterii, nebo se vybíraly vzorky tak dlouho, až to vyšlo dobře. Asi jako hlasování v EU. Anebo nebyly vybrané náhodně.

    V bombastickém podání blistů zde: https://www.blisty.cz/…podobna.html

    před 11 lety | reagoval [25] Dero [33] Pavel
  22. Michal #22

    avatar

    Třeba je to všechno jen geniální způsob, jak torpédovat přímou volbu prezidenta a její důvěryhodnost.
    Spoustě lidí stále ještě leží v žaludku. #konspirace

    před 11 lety
  23. Miloš Vysoký #23

    avatar

    Odborně se to jmenuje Přejímka dvojím výběrem a ministerstvo by to pak mělo O.K. jen asi málo kdo ví z čeho a jak to vzniklo a lid sčítá procenta a zbytečně se rozčiluje (akorát nevím jestli metodika pro výběr střeliva – výrobek se nedá testovat, že – bylo to nejlepší i pro kontrolu prezidentských kandidátů, i když…)

    před 11 lety | reagoval [32] Ondřej
  24. corri #24

    avatar

    Chudáci ti co by měli víc jak 50% špatně.

    By jim odečetli i to co nemají!

    před 11 lety
  25. Dero #25

    avatar

    #21 Tomáši Kafko, Matematici z KohoVolit.eu podle mě (a fakt se můžu plést) taky nasekali pár chyb – a to jak v počítání, tak v chápání psaného textu – zejména tak nějak opomněli, že nebylo náhodně vybíráno 8500 podpisů z X, nýbrž Y archů tak, aby počet podpisů na nich přesáhl 8500.

    Viz „V souladu se shora citovaným ustanovením byly z náhodně vybraných
    petičních archů použity validní záznamy a zařazeny do kontrolního vzorku, přičemž
    bylo postupně vybráno tolik petičních archů, aby součet počtu jejich validních
    záznamů převýšil 8 500. Po dosažení počtu minimálně 8 500 validních záznamů byl
    proces výběru ukončen. V kontrolním vzorku pak bylo ponecháno pouze přesně
    prvních 8 500 validních záznamů.“ z rozhodnutí o registraci kandidátní listiny některého z uchazečů.

    Je zřejmé, že podpisy na jednom archu nelze brát co do sledované veličiny (platné – neplatné) za nezávislé. Kvůli různým záškodnickým akcím či podvodům mohou být neplatné i celé archy podpisů, kdežto jiné mohou být téměř bez poskvrny. Kromě toho je počet archů řádově někde jinde než počet podpisů, takže i ten tupý (to nebudu tady rozebírat) výpočet najednou začne házet celkem rozumná čísla.

    před 11 lety
  26. Peggy #26

    avatar

    Průměrné IQ na MV je 160. První testovací vzorek měl 90 a druhý 70.

    před 11 lety
  27. správce registru #27

    avatar

    A to jste ještě neviděli výsledky z registrů osob ?. Tam je totiž vstupní povinné pole datum narození, jméno a pozor – MÍSTO NAROZENÍ. A to v těch formulářích vůbec nebylo. A bez něj, registr údaje NIKDY nevrací 8)))) . Takže jestli registr nenašel 40% lidí tak se nedivim 8). Kdo bydlí tam, kde se narodil? Snad jedině pražáci.

    před 11 lety
  28. správce registru #28

    avatar

    A ještě takový vtip:-)

    Víte jak se sjednocuje daň z přidané hodnoty?

    2007 19 % a 5 %

    plán do 5ti let na sjednocení DPH

    2013 sjednocení na 24 % ?

    před 11 lety
  29. AoJ #29

    avatar

    Statistika bohužel není zcela zřejmá a jednoznačně není vůbec racionální. Pro statistiky je obecná aritmetika příliš fádní, ehm nepřesná. Hoši koumaví se ale nevzdali a empiricky dali dohromady pravidla pro nás smrtelníky naprosto nelogická.

    Jedno z takových pravidel právě bylo použito na MV pro kontrolu podpisů. Tenhle výpočet byl dohodnut dříve než volba začala, resp. přišel už se samotným zákonem. To jestli to bylo správná volba, netuším. Ale podle toho jak to dopadlo, obyčejný aritmetický průměr by byl super.

    Jak už tady bylo zmíněno, nikdo asi nepředpokládal tak vysokou chybovost. Tento způsob statistického přejímání předpokládá chybovost v jednotkách % a jejich nepravidelné rozložení.

    Co MV ale pos***o, je způsob jakým takovéhle měření a data prezentovalo. Buď se měly snažit lépe vysvětlit samotný výpočet (na škole nám to demonstrovali na pískovně a kontrole velikosti zrn) nebo ho měli zabalit do ČSN norem a čísel, aby tomu naprosto nikdo nerozuměl a nevrtal se tom :)

    před 11 lety
  30. Lukas Mach #30

    avatar

    #7 Petře Staníčku, Centralni limitni veta (ktera lezi pod tim „pravidlem velkych cisel“) plati v zasade jenom, pokud jsou ty jednotlive nahodne promenne nezavisle! Takze prave v tom pripade, o kterem mluvim (kdy jsou mezi jednotlivymi podpisy nejake netrivialni vazby), ji proste nemuzete pouzit. To, co se stane, bude prave to, ze ty vase autobusy, o kterych tvrdite, ze budou predstavovat o(1) podil, budou mit nezanedbatelny vliv.

    před 11 lety | reagoval [36] Adam
  31. Pavel #31

    avatar

    Mě neni jasna jiná věc. Oni brali nahodne podpisy ze všech a potom psali „Vyškrtnuto“ to znamena, že kakndidat podpis škrtnul, ale oni ho počítali jako neplatný a to mu zhoršilo postavení. To je přece na hlavu ne ? Když něco škrtnu tak se nepočítá…
    Nebo se pletu ?

    před 11 lety
  32. Ondřej #32

    avatar

    #23 Miloši Vysoký, Podle https://www.scov.cz/statistika.pdf je „Přejímka dvojím výběrem“ něco hodně odlišného.

    před 11 lety
  33. Pavel #33

    #21 Tomáši Kafko, Jenže ono rozložení náhodného výběru je zkreslené tím, že se zpracovával vždy celý náhodně vybraný petiční list. Pokud tedy volba vyšla v jednom případě na standardně dobře vyplněný list a v druhém případě na lajdácky vyplněný list, apk k takovému rozdílu chybovostí dojde klidně i při zmiňovaných 50 tisících a nemusí se zpracovávat miliarda jak „neinformovaní experti“ tvrdí.

    před 11 lety | reagoval [36] Adam
  34. Pavel #34

    #9 me2d09, Pochopit se to moc nedá, ale je to tak.

    Zákon by kandidáta s 65000 podpisy vyhodnotil:

    • při chybovosti 3,1 % a 19,9 % jako úspěšného (odečte se 23 %: 65000 – 14950 = 50050)
    • při chybovosti 3,1 % a 2.9 % jako neúspěšného (odečte se velikost obou vzorků: 55000 – 17000 = 48000)

    Je to velmi absurdní, ale přesně podle znění paragrafu 6.

    před 11 lety
  35. David Grudl #35

    avatar

    #6 suchoschu, omlouvám se tobě i Vladimíru Dlouhému, článek jsem doplnil. Googlil jsem reakce kandidátů a tohle video jsem neviděl. Každopádně na brífinku mluví jako frajer, líbí!

    před 11 lety
  36. Adam #36

    avatar

    #30 Lukasi Machu,
    #20 Jaroslav Mrkvička
    #33 Pavel

    Tak já to zkusim zformulovat od zacatku a zkuste mi oznacit, kde delam chybu.
    Nahodne se vybiraly peticni archy a u nich se zjistovala chybovost v procentech. Zakladem je tedy rozlozeni chybovosti v jednotlivych arsich. Ty se vybiraji ze zakladniho souboru nahodne, tudiz pravdepodobnost vyberu jednotlivych archu je stejna a neni ovlivnena vyberem jineho archu. Nelze se bavit o zavislych velicinach, rozlozeni zakladniho souboru je pevne dane a vyber je prosty nahodny.
    Muzu se na to divat tak, ze procento chybovosti v jednotlivych arsich se prumerovalo. Zasadni nahodnou velicinou je tedy vazeny vyberovy prumer jednotlivych procent chybovosti, kde vahou je velikost jednotlivych archu. Ten ma dle centralni limitni vety pro dostatecne velky pocet vybranych archu asymptoticky normalni rozdeleni s patricnou stredni hodnotou a rozptylem.
    Bodovy odhad stredni hodnoty tohoto prumeru je stejny, jaky ziskame, kdyz jenom proste spocteme chybovost ze vsech listu najednou. Lisit se bude odhad rozptylu. Rozdeleni bude normalni.
    Takoveto vyberove odhady mame dva a chceme vedet, jaka je celkova stredni hodnota procenta chyb. Pocitame ji ze dvou odhadu vyberove statistiky, ktere kazdy maji normalni rozdeleni s odlisnou odhadnutou stredni hodnotou a rozptylem.
    Kde v sirem vesmiru se najde situace, ve ktere je SYSTEMATICKY lepsi pocitat tuto vyslednou stredni hodnotu scitanim a ne prumerovanim?

    před 11 lety | reagoval [37] Lukas Mach
  37. Lukas Mach #37

    avatar

    #36 Adame, Asi mi system sezral komentar, takze to napisu jeste jednou a strucne.

    Konkretne mas chybu v tomhle:

    Nelze se bavit o zavislych velicinach, rozlozeni zakladniho souboru je pevne dane a vyber je prosty nahodny.

    Jenze o zavislych promennych se bavit lze, protoze se tam vyskytuji. Vyber toho, na ktere nahodne promenne se podivam (tzn. na ktere podpisy) je sice uniformni nahodny, to ale neznamena, ze ty samotne promenne jsou nezavisle.

    Takze: dataset obsahuje n podpisu. 0.8*n je korektnich unikatnich. Pak 0.1*n podpisu je sice relativne dobrych, ale zapsanych ve dvou kopiich (budu je oznacovat jako prvni a druha kopie). Tyto podpisy tvori tech zbyvajicich 20% (0.1*n prvnich kopii a 0.1*n druhych kopii – kazdy tento podezrely podpis tam je dvakrat).

    Dejme tomu, ze jako chybny podpis povazujeme druhou kopii podpisu. Chybovost datasetu je tedy 10%. Rekneme, ze vezmeme vzorek o velikosti 5%. Jaka bude chybovost tohoto vzorku? Bude to 1% (tzn. 0.1 na druhou), protoze jako chybne bude vydetekovano 0.1 * 0.1 * 0.05 * n podpisu.

    Ad #7 Petr Staníček: Samozrejme to plati i pro velka n, dokonce pro cim vetsi n, tim vetsi je jistota, ze nahodny vyber vzorku skonci prave takto.

    Na zaver: Tenhle prispevek je ciste hypoteticky. Nevim jak probiha overovani chybnych podpisu (moc me to ani nezajima). V pripade, ze by overeni duplicitniho podpisu bylo casove narocne, by ale scitani mohlo byt dobrou heuristikou. Jestli se treba duplicita podpisu neoveruje nebo se overuje jen nejakym jednoduchym algoritmizovatelnym zpusobem, pak tento komentar neni relevantni. Rozhodne existuji pripady, kdy muze davat smysl pravdepodobnosti scitat. Dokonce se to v matematice dost casto dela (union bound).

    před 11 lety | reagoval [39] Jirka [40] Adam (ten prvni:-))
  38. Adam #38

    avatar

    Škoda, že u některého z kandidátů nezjistili chybovost u obou vzorků přes 50 procent. Pak bych rád viděl, kolik by byl uznaný počet hlasů.

    před 11 lety
  39. Jirka #39

    avatar

    #37 Lukasi Machu, Problém je, že v tom počítání duplikátů máte chybu. Pokud je dvojic 0,1*n a vzorek je 0,05*n, tak dvojic ve vzorku bude 0,052 *0,1n, tedy cca 5 promile ze vzorku. Což mimochodem ukazuje, že sčítání pravděpodobnost je i v tomto případě nesmysl (nemůže to být žádný dobrý upper bound odhad když skutečná hodnota je 10 % a sečtením chybovosti dvou vzorků se dostanu na 1 %). Muselo by se v takovém případě pracovat s podrobnější strukturou těch duplicit (je rozdíl, jestli se lidi podepsali 2krát nebo 50krát – v prvním případě je chybovost malého vzorku o hodně nižší, v druhém případě téměř stejná jako chybovost celého souboru).

    Že se podíly/pravděpodobnost/procenta někdy dají sčítat je normální – ale tady ne.

    před 11 lety
  40. Adam (ten prvni:-)) #40

    avatar

    #37 Lukasi Machu,
    Díky za priklad a osvetleni. To by ovsem predpokladalo, ze chyba v podpisech je pouze jejich duplicita (jestli se nepletu, tak chyba v podpisech byla primarne spatna adresa a neexistujici jmeno) a v tom pripade by skutecna chybovost byla dana druhou odmocninou z chybovosti ve vyberu, nikoliv souctem. Kazdopadne by pro kombinaci duplicita vs. spatna adresa slo vymyslet dle vyberovych dat kombinaci odhadu na zakladni soubor.
    Dam priklad: 2×1 % hlasu je duplicitnich, 8 % hlasu je chybnych v jinem smyslu (adresa). V prvnim vyberu pak budu mit napr., ze 9 % hlasu melo chybu v adrese a 0,015 % v duplicite, ve druhem vyberu pak budu mit, ze 7 % hlasu melo chybu v adrese a 0,005 v duplicite. Kdyz budu scitat, tak ziskam chybovost 9 + 7 + 0,015 + 0,005, tj. 16,02 %. Kdyz budu prumerovat, ziskam chybovost (9,005 + 7,015)/2, tj. 8,01 %.Kdyz budu pocitat spravne, tak ziskam (9+7)/2 + odmocnina (((0,015+0,005)/2)) tj. 9 %.
    Skutecna stredni hodnota by byli trochu odlisna, jedna se o vyber bez vraceni, ale pro zakladni pochopeni to snad postaci.
    Jinymi slovy ani v pripade s duplicitiami nelze tvrdit, ze je scitani SYSTEMATICKY spravny postup. Pouze nahodou muze dat priblizne spravny vysledek, to ovsem generator nahodnych cisel taky..
    Ostatne v tvem priklade bychom po scitani procent tvrdili, ze spatne jsou 2 % podpisu, coz by bylo hrube podceneni.
    Booleova nerovnost (union bound) rika, ze pravdepodobnost SJEDNOCENI jevu neni vetsi nez soucet jednotlivych pravdepodobnosti. Rovna se danemu souctu, pokud se jedna o neslucitelne jevy. Vychazi to ze samotne definice vypoctu pravdepodobnost sjednoceni. Jak se to projevuje zde, kdy se odhaduje stredni hodnota procenta spatnych podpisu?
    Pokud by se sledovaly dve ruzne chyby ve dvou vyberech, pak bych scitani procent chapal. Napr. bych nejprve zjistil, ze 5 % podpisu ma spatnou adresu a 3 % podpisu ma jinou chybu, tak celkove chybovost bude 5 + 3 = 8%, predpokladaje, ze ti, kterym chybi adresa nemaji zaroven onu jinou chybu (o tom je prave ta nerovnost).
    Kdy scitat procenta a kdy ne se uci na zakladni skole, jestli se nemylim.

    před 11 lety | reagoval [42] Jirka
  41. Xificurk #41

    avatar

    #9 me2d09, Jenže ono je potřeba číst ten odst. 6 v kontextu ostatních odstavců a především odst. 5, na který se explicitně odkazuje.

    (5) Ministerstvo vnitra ověří správnost údajů na peticích namátkově na náhodně vybraném vzorku údajů u 8500 občanů podepsaných na každé petici. Zjistí-li nesprávné údaje u méně než 3 % podepsaných občanů, nezapočítá Ministerstvo vnitra tyto občany do celkového počtu občanů podepsaných na petici.

    Je celkem zjevné, že i v odst. 6 se mají namysli jen podpisy, u kterých jsou uvedeny nesprávné údaje.

    Tím neříkám, že ten zákon je v napsán „dobře“. Nedostatky tam jsou a pokud někdo chce zpochybňovat jeho význam, tak má bohužel prostoru více než je zdrávo. Na druhou stranu ale myslím, že jeho zamýšlené vyznění, je celkem jasné… A to se týká i toho, že MVČR prostě udělalo botu v odčítání podpisů, protože prostě nevidím jakým myšlenkovým postupem se dá vysvětlit, že 23 tisíc odečtených podpisů ze 106 tisíc „procentuálně odpovídá chybovosti v obou kontrolních vzorcích“ (10,6% a 11,2%).

    před 11 lety
  42. Jirka #42

    avatar

    #40 Adame (tene prvni:-)),

    duplicita … a v tom pripade by skutecna chybovost byla dana druhou odmocninou z chybovosti ve vyberu, nikoliv souctem

    Nikoli, nebyla by to odmocnina, ale podíl zjištěných duplicit vzorku a velikosti vzorku v procentech celku. Spočítejte si to.

    před 11 lety
  43. David Grudl #43

    avatar

    Největší mazec by nastal, kdyby někomu v prvním vzorku našli ≥ 3 % neplatných podpisů a ve druhém méně než tři procenta. Pak by mu museli úředníci odečíst 17 000 podpisů ?

    §25 odst. (6)

    Zjistí-li Ministerstvo vnitra postupem podle odstavce 5 nesprávné údaje u 3 % nebo více než 3 % podepsaných občanů, provede kontrolu u dalšího vzorku stejného rozsahu (dále jen „druhý kontrolní vzorek“). Zjistí-li Ministerstvo vnitra, že druhý kontrolní vzorek vykazuje chybovost u méně než 3 % občanů podepsaných na petici, nezapočítá Ministerstvo vnitra občany z obou kontrolních vzorků do celkového počtu občanů podepsaných na petici.

    před 11 lety
  44. Jakub Vrána #44

    avatar

    Zdá se, že jsou tady v diskusi schopní statistici, tak se zeptám: Dokázal by někdo spočítat, kolik duplicitních podpisů bylo v celku? Tohle jsou známá fakta (na příkladu Bobošíkové):

    • 56191 zkoumaných podpisů
    • 81 duplikátů v prvním vzorku 8500 podpisů
    • 337 duplikátů v druhém vzorku 8500 podpisů se zohledněním podpisů v prvním vzorku (tedy 418 duplikátů v 17000 podpisech)
    • pokud je jeden podpis nalezen víckrát, započte se jednou (nevyřadí se všechny, jeden se vždy nechá)

    Tohle je omezující předpoklad, aby se to vůbec dalo spočítat:

    • každý podpis mohl být uveden jednou až dvacetkrát

    Z těchto údajů by se mělo dát dopočítat, kolik duplikátů bylo v celku a určit, kolik duplikátů měl průměrně jeden podpis.

    před 11 lety | reagoval [46] jonáš [50] Xificurk
  45. jonáš #45

    avatar

    #20 Jaroslave Mrkvičko, Jenže při vyhodnocení vadných nábojů netestujete, jestli tam ten samej kus neni přítomen dvakrát nebo ještě ve více exemplářích. Statistický rozbory příčin zjištěný chybovosti ve zveřejněných rozhodnutích zatim ukazujou, že duplicita může při kontrole všech podpisů zvednout o cca 5–8 procentních bodů vůči zákonem stanovenýmu vzorku (což je sice míň než provedený součet, ale furt to bude na vyřazení těch tří stačit s rezervou). Když už používáte statistiku, musíte taky vědět na co, ne to jen opsat odjinud a namlátit do excelu ?

    před 11 lety | reagoval [48] David Grudl [49] Jakub Vrána
  46. jonáš #46

    avatar

    #44 Jakube Vráno, Zkuste třeba tady https://paragraphos.pecina.cz/?… .. ty koeficienty typu (n-1)/n to trochu zatemňujou, stručně je to tak že procento odhalených duplicit roste lineárně s velikostí zkoumanýho vzorku (absolutní počet kvadraticky) čili pro 56 tis. je to cca 3,3× vyšší procento než u druhého vzorku (337/17000 čili 2%) nebo 6,6× vyšší procento než u prvního (81/8500 čili 0.95%) takže cca 6,5% duplicit v celym souboru.

    před 11 lety
  47. Lukáš Knotek #47

    avatar

    „…kdyby ověřili 10 vzorků a výsledky sečetli, zjistí, že Miloš Zeman má 110 % neplatných podpisů a zavřou ho za porušení přírodních zákonů.“ :)) jo přesně tomu jsme se doma taky smáli, skvěle napsáno!
    Jinak to teda sranda moc není samozřejmě, přesto, já se rád směju, i když se už zdá, že není čemu. Shodou okolností jsem právě dopsal článek na to samé téma a teď jsem vylovil z „Latríny“ tuhle skvělou glosu, která je ale spíš výjimkou v tom, co jsem jinak četl všude možně – nepochopím, jak se tak očividná chyba, za kterou bych dostal na základní škole pětku a nikdo by se se mnou nebavil, může nekonečně rozmazávat v novinách s tím, že se k tomu musí vyjádřit každý expert na všechno možné, aby to pak stejně jiný expert mohl popřit, protože je to přece v zákoně a je to „ta přísnější varianta.“
    Sakra, to jsem měl používat ve škole, když jsem zkazil test z matiky: „Ale já to mám dobře, jen jsem pro výpočet použil tu přísnější variantu!“

    před 11 lety
  48. David Grudl #48

    avatar

    #45 jonáši, Tohle je myslím důvod, proč Bobošíková chce jen opravit chybné sčítání a víc do toho nešťourat. I když možná duplicit je minimum, jako hlavní důvody neplatnosti uváděli přechodné bydliště a jiné státní občanství.

    před 11 lety
  49. Jakub Vrána #49

    avatar

    #45 jonáši, Díky moc. Zhruba stejné číslo mi vyšlo simulací, kterou jsem si na to naprogramoval. Aneb proč přemýšlet, když máme počítače…

    před 11 lety
  50. Xificurk #50

    avatar

    #44 Jakube Vráno, „337 duplikátů v druhém vzorku 8500 podpisů se zohledněním podpisů v prvním vzorku“ – tohle mimochodem ukazuje na absurditu toho vzorečku finálního vyřazení podpisů… Oni totiž zjevně netestovali dva nezávislé vzorky, ale rozšířili původní vzorek 8500 o dalších 8500 podpisů.

    před 11 lety
  51. Václav Eukleides matematik #51

    avatar

    Škoda,že neexistuje,tak jako ústav pro jazyk český něco jako mezinárodní ústav pro matemetiku.Mohli bychom se blýsknout a nechat patentovat nový matematický model s tzv.Henychovou konstantou.
    P.S.Bravo!Jen tak dál!A potom,že nemáme ve vedení státu vzdělané a kvalifikované osobnosti.

    před 11 lety
  52. satonik #52

    avatar

    Postup výpočtu je správný za předpokladu, že bude vycházet ze dvou na sobě nezávislých vzorků po 8 500 podpisech, tj. jednoho vzorku 17 000 podpisů.

    před 11 lety | reagoval [57] Jan Jurníček
  53. jm #53

    avatar

    Mimochodem, odhad duplicit u Bobo jsem dával sem… http://goo.gl/T0nEN

    S korektnějším výpočtem by IMHO měla smůlu, takže Henych měl nakonec vlastně svým způsobem pravdu :)

    před 11 lety
  54. Dr.Diesel #54

    Místo slov nechme ouřadovi jen čísla ve zjednodušené situaci, kde to sčítání neklapne:

    • 100 podpisů celkem
    • každý vzorek = polovina = 50 podpisů
    • každý vzorek 10% chybovost z 50 = 5 podpisů
    • v obou vzorcích je 10 chybných podpisů
    • což je 10% z celkových 100 a ne 20

    Složitější to samo začne být s překrýváním vzorků, jejich velikostí apod.

    před 11 lety
  55. Štěpán #55

    avatar

    …že se někdo někdy splete, to stane čas od času v každé firmě. Že se najde čas od času pitomec, který na své chybě trvá i když mu všichni polopaticky ukazují v čem je omyl, to je asi obor pro psychoanalytiky, ale i to se stává. Ale organizace, kde vysoce postavený funkcionář prezentuje své bludy na veřejnosti několik týdnů a nikdo ho neopraví ani nezastaví, to je snad možné jen ve státní správě. MV je nejspíš organizace, kde když se někdo rozumný objeví, tak si dává velký pozor, aby to na něm šéf nebo spolupracovníci nepoznali.

    před 11 lety
  56. Jan Jurníček #56

    avatar

    #1 Lukasi Machu, To máte sice pravdu, jenže zákon ukládá počet chyb v celém souboru podpisů počítat jako součin procentuální chybovosti vzorku (sestávajícího ze dvou dejme tomu disjunktních podvzorků) a velikosti souboru.

    A to předpokládá, že percemtuální chybovost dostatečně velkého náhodně vybraného vzorku je +/- stejná, jako velikost celého souboru. Což ovšem vylučuje sčítání percentuálních chybovostí.

    Zákonodárce prostě na multiplicity pozapomněl a myslel jen na skalární chybovost. Mimoto – výskyt myltiplicit se stejně sčítáním percentuálních chybovostí počítat nedá a úředník nemá co interpretací zákona opravovat nedopatření zákonodárce v neprospěch kandidáta.

    před 11 lety
  57. Jan Jurníček #57

    avatar

    #52 satoniku, V případě, že ten vzorek má 17 000 podpisů, tak při výpočtu percentuální chybovosti souhrnného vzorku se sčítá nejen počet chyb v obou vzorcích, ale taky počet podpisů. Na to Henych „pozapomněl“

    Čili ve jenovateli zlomku nebude 8500, ale 17000, což odpovídá aritmetickému průměru.

    před 11 lety
  58. František #58

    avatar

    Tož nevím, poroč se tolik o tom diskutuje. V každém normálně prosperujícím podniku by člověk, který udělal takovouto chybu jako pan Henych, byl na hodinu propuštěn a musel bvy nahradit způsobenou škodu. Tento pán však zajisté dostane za provedenou práci ještě odměnu. Spíše bychom se měli zabývat tím, jak je možné, že tento člověk tam ještě pracuje, bere vysoký plat a naší republice dále škodí..

    před 11 lety
  59. Jirka K #59

    avatar

    Účast v 1. kole prezidentských voleb byla opravdu nezvykle vysoká. Dozvěděli jsme se od odborníků, že dosáhla skoro 106 % !

    Po pátečním uzavření volebních místností byla průměrná účast kolem 44% a nakonec sobotní výsledek účasti byl necelých 62%.
    Jak nám potvrdil p. Henych, z toho je tedy jasný výsledek 106%

    Nyní se můžeme tešit na 2. kolo. A podle odhadů odborníků se ho opět zůčastní většina lidí a tak můžeme možná očekávat celkově nevídaný atak 200% hranice účasti ve volbách. Bude to naprosto ve světě ojedinělý výsledek.
    Aspoň v něčem budeme ve světě zase vyjímeční… ?

    před 11 lety

Tento článek byl uzavřen. Už není možné k němu přidávat komentáře.