In de propedues heb je kennis gemaakt met database systemen. Daarmee kunnen grote hoeveelheden data efficient opgeslagen en bevraagd worden.
In dit vak bouwen we hierop voort, waarbij twee belangrijke kwesties aan de orde komen:
De eerste vraag is hoe je omgaat met grote hoeveelheden data die niet de nauwkeurige recordstructuur hebben zoals in databases. De hoeveelheid ongestructureerde data (lees vooral: tekst) in de wereld is een veelvoud van de hoeveelheid gestructureerde data. Het zoeken in teksten vereist een heel andere aanpak, vooral omdat het aantal resultaten zeer groot kan zijn, waardoor ranking op basis van relevantie essentieel wordt. Deze tak van sport duiden we aan me Information Retrieval (IR). Hoewel deze discipline al vrij lang bestaat, is de relevantie in de laatste jaren toegenomen door de behoefte aan zoekmachines op het web.
We zullen kennis maken met basisbegrippen uit de IR: precision, recall, boolean search, indexering en posting lists, term weighting, vector-space-model en relevance feedback. Verder zullen we in detail kijken naar het PageRank-algoritme van Google.
Bij dit gedeelte hoort een practicumopgave waarbij we technieken uit de IR zullen toepassen bij het verwerken van queries op relationele databases, met als probleem dat het aantal resultaten of te groot, of te klein is.
De tweede vraag is hoe we interessante patronen en modellen uit deze data kunnen extraheren. Dit is het vakgebied van de data mining/machine learning. Ook hier zullen we het accent leggen op de analyse van ongestructureerde data (lees wederom: tekst), zoals het gebruik van data mining voor documentclassificatie en - clustering, alsmede voor het ranken van documenten op basis van hun relevantie voor een bepaalde query. Het begrip "document" moet je hier ruim opvatten: het kan bijvoorbeeld ook over webpagina's, e-mail berichten (spam of geen spam?), postings naar een nieuwsgroep of zelfs tweets gaan.
Technieken die hierbij aan de orde komen zijn o.a.: naive Bayes classificatie, nearest neighbour, support vector machines, hierarchisch clusteren en partitioneringsmethoden zoals k-means clustering.
Bij dit gedeelte hoort een practicumopgave waarbij we de in het college behandelde data-analyse technieken zullen toepassen op problemen zoals hierboven aangeduid. Hierbij zullen we gebruik maken van het data-analyse systeem R.
Werkvorm
Hoorcolleges en practica.
Literatuur
Onder voorbehoud: Christopher D. Manning, Prabhakar Raghavan en Hinrich Schuetze, "Introduction to Information Retrieval" Cambridge University Press, 2008. Het boek is online gratis verkrijgbaar.
Verder bestaat de verplichte literatuur uit nader bekend te maken artikelen en de slides van de hoorcolleges.
|