Rokasgrāmata ir pieejama jebkuram interesentam. Iesākumā tā izskaidro izmantotos terminus un koncepcijas. Ja tu sastopies ar terminu vai konceptu, kas prasa sīkāku izskaidrojumu, dod mums ziņu.
Rokasgrāmata tevi iepazīstinās ar datos balstīta projekta pamatstadijām, jeb etapiem.
Datu projekta etapi
Lai gan dati ir dažādi, gandrīz katrs projekts izies savstarpēji saistītām stadijām. Pamatetapi ir datu ievākšana, izgūšana, tīrīšana, pārveidošana, integrēšana, analīze un prezentācija. Mazākos un vieglākos projektos kāda no šīm stadijām var arī izpalikt.
Ievads datu projekta gaitā
- Datu ievākšana var tikt īstenota, izmantojot jau gatavus datu avotus, vai ievācot patstāvīgi ar aptauju un novērojumu palīdzību.
- Izgūšanas stadijā dati tiek pārvērsti no sākotnējā formāta (.xls, PDF, parastiem teksta dokumentiem), formātā, kas der tālākai apstrādei un analīzei. Tas bieži nozīmē augšupielādēt datus datu bāžu sistēmā, piemēram, MySQL or PostgreSQL.
- Datu tīrīšana un pārveidošana bieži nozīmē pārvērst bojātus vai nesaprotamus datu ierakstus vienotā, apstrādājamā datu kopā. Tāpat tu vari apvienot divas dažādas datu kopas vienā, izdzēst identiskās vērtības (dublikātus) vai citādi “normalizēt” datus. Strādājot ar datiem, tu pamanīsi, ka bieži vien datu kopās ir neatbilstības – nosaukumi tiek izmantoti nekonsekventi, vērtības būs minētas nepareizi formatētos skaitļos, bet daži faili var nebūt izmantojami vispār to bojājumu dēļ. Vispār, datu apstrāde, pielāgošana un tīrīšana var aizņemt lielāko daļu tava laika un spēku.
- Datu analīze atbild uz konkrētiem jautājumiem, ko turpmāk mēs rokasgrāmatā neaplūkosim. Mēs pieņemam, ka tu jau zini, ko vēlies uzzināt, piemēram, izmantojot ekonomiskos modeļus. Tas, kam mēs pievēršam uzmanību grāmatā ir automatizēta, plaša apjoma analīze. Mēs dalīsimies ar padomiem kā iegūt un izmantot datus ar automātisku rīku palīdzību, piemēram, lai veiktu tīkla analīzi vai izstrādātu risinājumu datu apskatam lietotnes veidā.
- Datu prezentācija ir aktuāla vienīgi brīdī, kad dati ir apkopoti attiecīgai mērķauditorijai lai sasniegu attiecīgu mērķi.
Brīdī, kad tu sastādīsi savu datu projekta gaitu, ir svarīgi, lai katrs solis ir rūpīgi dokumentēts un pēc iespējas automatizēts.
Mēs arī apkoposim labas datu projektu prakses vadlīnijas, kas var neiekļauties vienā konkrētā etapā, bet ir svarīgas īstenojot ikvienu datu projektu.
Turpmāk rokasgrāmata būs angļu valodā. Ja vēlies palīdzēt to iztulkot latviešu valodā, atraksti – info@datuskola.lv
Table of Contents
- Courses
- Recipes
- How to find data
- Walkthrough: Downloading Data from the World Bank
- Liberating HTML Data Tables
- Scraping websites using the Scraper extension for Chrome
- A short introduction to HTML
- Scraping – Beyond the Basics
- Scraping multiple Pages using the Scraper Extension and Refine
- Extracting Data from PDFs using Tabula
- Cleaning up Data Scraped from the Web
- Sorting Data with Spreadsheets
- Filtering Data
- Spreadsheet Formulae
- Geocoding Data in a Google Docs Spreadsheet
- Using a spreadsheet to clean up a dataset
- Cleaning Data with Refine
- Creating Line Charts
- Walkthrough: Scatterplot
- Creating a Choropleth map
- Walkthrough: Presenting our information as a webpage
- Appendix
Last updated on Sep 02, 2013.
Dan Ofer
Any chance of making this downloadable?
Elena Tanca
Hi, is it possible to download the hankbook? Thanks.
Elena Tanca
*handbook, sorry
SchoolofData
Hi there,
Right now we have the “handbook” online only – you could get a copy in re-structured text from github though. Don’t know whether this is what you wanted.
Also: We’ll be changing the way courses work substantially in the next weeks. This will make the handbook obsolete.
Tom Morris
If anyone else is wondering exactly where on Github since there’s no link anywhere, it’s at: https://github.com/okfn/datawrangling