Small data

Bedrijven en mensen scheppen op over de ‘big data’ die ze hebben, om stoer te doen. Maar de meeste ‘data’ zijn helemaal niet zo ‘big.’ Twitter verwerkt 8 terabytes per dag. Dat klinkt veel als je een klein bedrijf bent dat consumenten-inzichten probeert te persen uit tweets. Maar hoeveel van al die terabytes bevat informatie? Twitteraars verzenden 500 miljoen tweets per dag, gemiddeld 60 letters. Dat is 30 gigabyte aan tekst. Minder dan 0,5% van 8 terabytes. Ander voorbeeld: alle tekst op Wikipedia – alle – past op één USB. Alle muziek in de wereld zou passen op een diskdrive van €538. ‘Big data isn’t big, good data is even smaller,’ concludeert auteur. Maar je kunt met kleinere datasets ook best goede analyses maken. Door transfer learning. Robot wordt getraind op grote datasets en past de geleerde methodieken toe op kleinere.