SluitenHelpPrint
Switch to English
Cursus: B-B2DSB18
B-B2DSB18
Data science en biologie
Cursus informatie
CursuscodeB-B2DSB18
Studiepunten (EC)7,5
Cursusdoelen
Leerdoelen
Tijdens deze cursus leer je methoden uit de data science toe te passen op biologische data. Na afloop van de cursus:
        • ken je de basis van computerbestanden (onderscheid tekst- en binaire bestanden), bestandssystemen en besturingssystemen en kun je overweg met de command-line-interface;
        • ken je de concepten van scripttalen (variabelen, datastructuren, iteraties, expressies, functies) en kun je scripts schrijven in Python en bash om biologische datasets te analyseren;
        • kun je verschillende manieren van data-analyse en –visualisatie toepassen en kun je beredeneren welke methode voor een bepaalde dataset en vraag de voorkeur heeft;
        • ken je de basis van machine learning, kun je verschillende vormen hiervan toepassen en kun je beoordelen hoe goed een machine-learningmodel is;
        • kun je figuren maken die geschikt zijn voor wetenschappelijke publicaties;
        • kun je aan de hand van een biologische vraag een eigen computationele pipeline van opeenvolgende analyses opstellen met bijbehorende scripts en deze vraag beantwoorden met behulp van de uitgevoerde analyses;
        • kun je uitgevoerde computationele analyses helder en volledig documenteren, zodat de resultaten volledig reproduceerbaar zijn.                                                                  
Vaardigheden
Programmeren, data-analyse, datavisualisatie, systematische benadering van problemen, creativiteit en probleemoplossend vermogen, uitvoeren onderzoekscyclus, schriftelijke rapportage in het Engels, geven en ontvangen van feedback, samenwerken.
 
Inhoud
Ingangseisen
De cursussen Kwantitatieve biologie en Genomica (voorheen Systeembiologie of vergelijkbare kennis. Voor MLS-studenten zijn Kwantitatieve biologie en Functionele biologie de ingangseis, of de voormalige cursus Systeembiologie.  

Studiepad
De cursus is een kerncursus in het studiepad Theoretische biologie en bioinformatica en is een goede voorbereiding op het masterprogramma Bioinformatics and Biocomplexity. In deze cursus doe je kennis en vaardigheden op omtrent ‘big data’-analyse, die zeer waardevol zijn voor alle studiepaden en zullen worden gebruikt in niveau-3-cursussen. De cursus wordt aanbevolen voor de studiepaden Celbiologie, Microbiologie, Plantenbiologie en Ontwikkelingsbiologie
 
Inhoud
Deze tijd wordt gekenmerkt door enorme hoeveelheden beschikbare data. Deze big data geldt zeker ook voor de biologie, nu er door high-throughput DNA-sequencingmethoden enorm veel data wordt gegenereerd van genomen, metagenomen, transcriptomen, epigenomen, en variaties hierop. Ook in andere biologische disciplines zijn grote databestanden niet langer zeldzaam. Denk daarbij bijvoorbeeld aan de soorten en interacties in een ecosysteem, automatisch verkregen microscopieafbeeldingen en de data over ons online gedrag. Uit onderzoek blijkt dat circa 90% van de biologen werkt of binnenkort gaat werken met grote datasets. Om met deze hoeveelheid data om te gaan zijn methoden uit de data science essentieel. In deze cursus leer je de theorie en vaardigheden om nieuwe biologische inzichten te verkrijgen uit grote databestanden.
Allereerst is een andere manier noodzakelijk om met grote databestanden om te gaan, namelijk met behulp van de command-line-interface. Deze interface zul je ook vaak moeten gebruiken voor het uitvoeren van computerprogramma’s op je databestanden. Bovendien is het onmogelijk geworden om handmatig alle bestanden te analyseren en zul je zelf scripts moeten schrijven om de gewenste informatie uit tekstbestanden te verkrijgen. In het eerste jaar heb je al kennis gemaakt met programmeren en deze vaardigheden zullen sterk worden uitgebreid in deze cursus. In dit eerste deel van de cursus leer je om te gaan met de Unix-terminal en leer je hoe je scripts schrijft in Python.
Het tweede deel staat in het teken van het analyseren van numerieke data. De focus zal liggen op hoe je in een enorme tabel met getallen de onderliggende structuren kunt ontdekken en deze helder weet te visualiseren.  Je leert daarbij meerdere methoden van visualisatie en unsupervised machine learning toe te passen op grote datasets, waaronder heatmaps, clustering en principale-componentenanalyse. Daarnaast zal supervised machine learning aan bod komen: hoe kun je op basis van bestaande data voorspellingen doen voor nieuwe datapunten?
Gedurende de cursus werk je aan een groepsproject waarbij je aan de hand van een grote dataset een biologisch vraagstuk aanpakt door zelf een eigen computationele pipeline van opeenvolgende analyses op te zetten met bijbehorende scripts.

Werkvormen
De stof wordt uitgelegd in interactieve online clips. Deze dienen als voorbereiding op de werkcolleges, waarin je de stof toepast met computeropdrachten. De clips en opdrachten worden nabesproken tijdens responsiecolleges. In enkele computerpractica krijg je in een groepje een uitdagende opdracht, waarvoor je meerdere concepten uit eerdere weken moet combineren. Daarnaast zullen jonge wetenschappers tijdens gastcolleges vertellen hoe zij data science gebruiken in hun onderzoek. Tot slot doorloop je de onderzoekscyclus met een groepsproject.

Toetsing
Twee tentamens (elk 30%), projectverslag (30%), reviewerverslag (5%) en reactie op de reviews (5%). De precieze weging kan nog veranderen en wordt bekendgemaakt bij aanvang van de cursus. Beide tentamens moeten los met minimaal een 5,0 en samen gemiddeld met ten minste een 5,5 worden afgerond om de cursus te halen. De inspanningsverplichting bestaat uit het bijwonen van de gastcolleges en het actief deelnemen aan de practica.

Studiemateriaal
  • Boek: Practical computing for biologists, Steven Haddock en Casey Dunn, 2011, Sinauer Associates, Inc. (aanbevolen)
  • Boek: Fundamentals of data visualization, Claus O. Wilke, 2019, O’Reilly Media, Inc. (online beschikbaar op https://clauswilke.com/dataviz/index.html)
  • Boek: Python Data Science Handbook, Jake VanderPlas, 2016, O’Reilly Media, Inc. (online beschikbaar op https://jakevdp.github.io/PythonDataScienceHandbook/)
Overig studiemateriaal zal online worden aangeboden.
SluitenHelpPrint
Switch to English