Informatietheoretische methodes voor het onderscheiden van directe versus indirecte correlaties in grootschalige genexpressiedata

Probleemstelling

Grootschalige genexpressiedata zijn verzamelingen van experimenten die de expressie meten van alle genen in een bepaald organisme onder een groot aantal verschillende condities. Wanneer het expressieprofiel van 2 genen een grote mate van overlap vertoont, betekent dit dat de genen waarschijnlijk betrokken zijn in gelijkaardige biologische functies. De studie van zogenaamde correlatienetwerken gebaseerd op expressiedata laat daarom toe een globaal beeld te krijgen over de werking van een organisme en de manier waarop verschillende biologische processen met elkaar verbonden zijn. Een van de fundamentele problemen bij het reconstrueren van correlatienetwerken is de grote hoeveelheid van indirecte correlaties. Deze correlaties ontstaan bijvoorbeeld wanneer twee genen onder controle staan van dezelfde factoren zonder dat er evenwel een rechtstreekse fysische interactie tussen hen bestaat. Recent is gebleken dat technieken uit de informatietheorie goede resultaten kunnen geven voor het onderscheiden van directe versus indirecte correlaties.

Doelstelling

In een informatietheoretische benadering van genexpressiedata wordt de expressie van een gen gemodelleerd als een random veranderlijke en wordt het expressieprofiel van dat gen gebruikt om de waarschijnlijkheidsverdeling voor die random veranderlijke te schatten. Deze waarschijnlijkheidsverdelingen worden vervolgens gebruikt om grootheden zoals entropie, gezamenlijke entropie, gezamenlijke informatie, e.d. te berekenen tussen paren of triplets van genen. Een recent algoritme [1] maakt gebruik van de "data processing inequality" voor de gezamenlijke informatie tussen paren van genen om indirecte correlaties op te sporen. Hierbij wordt een correlatienetwerk geconstrueerd dat een lokale boomstructuur heeft: uit ieder triplet van mogelijke correlaties wordt de zwakste schakel verwijderd. Hoewel gebleken is dat dit algoritme inderdaad succesvol is in het verwijderen van indirecte correlaties, zullen door de veronderstelling van een lokale boomstructuur duidelijk ook directe correlaties verwijderd worden. Het doel van deze thesis is het onderzoeken van alternatieve informatietheoretische eigenschappen voor het onderscheiden van directe versus indirecte correlaties die meer complexe en dus ook meer realistische netwerkstructuren toelaten. We zijn met name geinteresseerd in mogelijke toepassingen van de "sterke subadditiviteit" van entropie, een minder gekende, maar zeer sterke eigenschap voor de gezamenlijke entropie voor triplets van random veranderlijken, die echter nog nooit eerder werd toegepast op de studie van correlatienetwerken.

Contactpersonen

Referentiemateriaal

http://www.biomedcentral.com/1471-2105/7/S1/S7










Contact:
VIB / UGent
Bioinformatics & Evolutionary Genomics
Technologiepark 927
B-9052 Gent
BELGIUM
+32 (0) 9 33 13807 (phone)
+32 (0) 9 33 13809 (fax)

Don't hesitate to contact the in case of problems with the website!

You are visiting an outdated page of the BEG/Van de Peer Lab site.

Not all pages have been ported, so these archived pages are still available.

Redirect to the new website?