Patroonherkenning
21 jan – 25 jan 2013, Amsterdam
Doel
Na het volgen van deze cursus zou een student een overzicht moeten hebben van basispatroonherkenningstechnieken en in staat moeten zijn om te herkennen welke methode het meest toepasbaar is op classificatieproblemen die hij/zij tegenkomt in bioinformaticatoepassingen.
Docenten
dr. ir. Dick de Ridder, dr. ir. P.D. Moerland, dr. L.F.A. Wessels
Studielast
De studielast van deze cursus is 3 EC. Deelnemers ontvangen een certificaat na het succesvol afronden van deze cursus.
Beschrijving
Veel problemen in de bioinformatica vereisen classificatie: voorspelling van de klasse waartoe een bepaald object (d.w.z. een gen, eiwit, cel, patiënt, ?) behoort. Dit vraagt om algoritmen die het meest waarschijnlijke label (discrete output) aan een object kunnen toewijzen, gegeven een of meer metingen op dat object. Voor de meeste interessante problemen is de onderliggende fysica te complex om zo’n algoritme expliciet te formuleren. In dergelijke gevallen wordt een machine learning-aanpak gebruikt: er wordt een algoritme geconstrueerd met parameters die zijn afgestemd op een beschikbare dataset met trainingsvoorbeelden. Het algoritme moet de labels voor deze voorbeelden zo goed mogelijk voorspellen, maar toch generaliseren, d.w.z. goed presteren op objecten die nog niet eerder zijn gezien. Enkele voorbeelden van classificatieproblemen in de bioinformatica zijn genvinding (sequentie in, genaanwezigheid uit), diagnostiek (microarray-gegevens in, diagnose uit), gegevensintegratie (metingen in, waarschijnlijkheid van interactie uit), enz.
In deze cursus introduceren we basistechnieken uit de vakgebieden patroonherkenning en machine learning om dergelijke problemen op te lossen. We introduceren de patroonherkenningspijplijn: meten, kenmerkextractie en -selectie, classificatie en evaluatie. De eerste twee dagen introduceren we het basisclassificatieprobleem en een aantal klassieke benaderingen om het op te lossen. Vervolgens worden methoden voor het selecteren of extraheren van informatieve kenmerken uit een grote set metingen geïntroduceerd. Dit wordt gevolgd door een introductie tot een aantal niet-begeleide technieken, waarmee natuurlijke groeperingen of probabilistische beschrijvingen van (niet-gelabelde) gegevens kunnen worden gevonden. De cursus wordt afgesloten met een korte introductie tot een aantal ingewikkelde classificatoren, kunstmatige neurale netwerken en ondersteunende vectormachines, en een overzicht van benaderingen om het generalisatieprobleem op te lossen. Voor een groot aantal van de besproken methoden zullen we ons wenden tot recente bioinformatica-literatuur voor voorbeelden.
Doelgroep
De cursus is bedoeld voor PhD-studenten met een achtergrond in bioinformatica, computerwetenschappen of een gerelateerd vakgebied; er wordt een praktische kennis van basisstatistiek en lineaire algebra verondersteld.
Voorbereidingsmateriaal over statistiek en lineaire algebra wordt vóór de cursus uitgedeeld, om te bestuderen door studenten die de vereiste achtergrond missen.
Meer informatie en registratie
De kosten zijn inclusief:
Cursusmateriaal: Hand-outs en een handleiding voor de laboratoriumcursus worden aan het begin van de cursus uitgedeeld. Software die nodig is voor de laboratoriumcursus (MATLAB-toolboxen) wordt online beschikbaar gesteld.
Catering: Koffie, thee en frisdranken en lunch worden verzorgd.
Deze cursus wordt voortgezet in de BioSB-onderzoeksschool. Voor actuele informatie en de laatste editie van de cursus, bezoek de BioSB-website: biosb.nl/education/course-portfolio-2/