Menu Zavřít

Kuchařka dolování dat

12. 3. 2002
Autor: Euro.cz

Olivia Parr Rud: Data Mining. Praktický průvodce dolováním dat.

bitcoin_skoleni

Olivia Parr Rudová psala své dílo o „dolování dat pro efektivní prodej, cílený marketing a podporu zákazníků“ jako kuchařku. V anglickém originále se tak titul skutečně jmenuje a autorka kuchařskými přirovnáními v žádném případě nešetří. Podívejme se tedy, jaké požitky kniha našim chuťovým pohárkům slibuje.
Mně osobně nejvíce chutnalo koření. Autorka požádala několik ostřílených manažerů a analytiků, aby do knihy napsali něco ze svých zkušeností a poznatků. Jejich příspěvky poznáte podle toho, že se na tmavším pozadí hůře čtou, ale většinou se vyplatí namáhat si oči. Témata vsuvek sahají od teoretické úvahy K. Leahyho až po zcela praktické rady.
Trochu do rozpaků čtenáře naopak přivede to, že autorka učí jen jedné „kuchařské technice“, logistické regresi. Je to asi tak, jako kdybyste si koupili kuchařku, kde by všechny recepty používaly jen a pouze smažení, zatímco ostatní možnosti – dušení, vaření, nakládání i podávání za syrova – by autor odbyl poznámkou, že podle jeho zkušeností se při přípravě oběda vystačí s pánvičkou a trochou omastku. Na druhou stranu uznávám, že v kuchařce pro začátečníky je třeba šetřit technickými složitostmi, aby se adepti neodradili a na vařečku nezanevřeli. Až se jednou naučíte pořádně smažit, přechod na dušení vám nepřipadne tak obtížný.
A „smažit“ data umí Parr Rudová velmi dobře. Některé její lahůdky, třeba modelování pravděpodobnosti odchodu zákazníka nebo modelování odezvy na reklamní kampaň, jsou připraveny vskutku chutně, a možná přinesou i vám spousty peněz, pokud se do jejich výroby pustíte. Udržíte si své nejziskovější zákazníky a lacino získáte nové. Kniha se pečlivě věnuje obchodní podstatě data miningu, neváhá stále znovu připomínat, že konečným měřítkem všeho snažení je dolar, nikoli statistická krása, a vede čtenáře k pochopení marketingové podstaty pojmu CRM.
Pokud je ovšem kniha určena začátečníkům, měla autorka použít příjemnější způsob prezentace algoritmů a výstupů. Grafy kreslené jakoby psacím strojem a spletité programy (kde navíc vinou sazečovou nelze pořádně rozlišit tučné a obyčejné písmo) budou pro nováčka těžko stravitelné. A koneckonců i pro zkušeného analytika, zhýčkaného interaktivní grafikou SPSS a vizuálním programovacím rozhraním Clementine, je to návrat o léta zpět. Bylo-li už třeba takové počítačové „sjetiny“ prezentovat, mohly zůstat na přiloženém CD a do knihy mohly přijít úpravné výstupy a programy přepsané do lidsky srozumitelného kódu.
I mistru kuchaři ruka ujede. Chci adepty vaření na tomto místě varovat před autorčinou občasnou lehkovážností, s níž sype do jídla pochybné přísady. Zejména před názorem, že na údaje v databázi lze před analýzou zkusmo aplikovat libovolné funkce. Například bezmyšlenkovitá transformace nezávisle proměnných tangentou, která se v knize neustále opakuje, může být při troše smůly velmi nebezpečná – tangens může v některých případech nabýt velkých hodnot, a tím veškeré regresní modely dokonale „rozházet“.
Další obtíží vaření s touto kuchařkou je, že některé doporučované přísady se u nás nedají sehnat. V USA například nemají české zákony na ochranu osobních údajů, a tak tam lze koupit databáze, v nichž se o kdekterém spoluobčanovi dozvíte téměř vše počínaje rasou a konče zůstatky na účtech. Proto jsou zdejší dataminingové hostiny méně opulentní, třebaže i v Česku zbývají hory nevytěžených dat. Možná by bývalo stálo za to tyto rozdíly popsat v nějakém dodatku věnovaném českému trhu.
A konečně cítím potřebu zmínit české kuchtíky, jejichž vinou některé chody kuchařky pozbyly na poživatelnosti. Hlavní problém spočívá v nedokonalém překladu. Například anglický termín sampling, který statistikové do češtiny standardně tlumočí slovem výběr, publikace soustavně překládá matoucím slovem vzorkování. Poradí-li vám tedy, abyste vytvořili „n-tý náhodný vzorek“, máte ve skutečnosti z databáze náhodně vybrat jednu n-tinu záznamů. Nejen zde, ale i na řadě dalších míst knihy je zkrátka cítit, že kuchtíci buď přípravu předkládaného chodu pořádně nepochopili, nebo ho neumějí naservírovat. Jeden klad jim ovšem ponechávám, a to návrh hovořit o těch, kteří provozují těžbu dat, jako o datových hornících. Jsem horník, a kdo je víc!
Jan Spousta,
spolupracovník redakce
(jspousta@scac.cz)

Olivia Parr Rud: Data Mining. Praktický průvodce dolováním dat pro efektivní prodej, cílený marketing a podporu zákazníků (CRM). Computer Press, Praha 2001. x stran, doporučená cena 849 Kč.

  • Našli jste v článku chybu?