Bio-informatica

Bio-informatica is de wetenschap die tot doel heeft de biologische kennis te verrijken door kennis uit de informatica toe te passen op biologische data. De bio-informatica wordt gezien als een van de deelgebieden van medische informatiekunde, in de Engelstalige vakliteratuur Biomedical Informatics genoemd.[1]

Kaart van het menselijk X-chromosoom (van de NCBI-website). De samenstelling van het menselijk genoom is een van de grootste prestaties van de bio-informatica.

De term bio-informatica werd in Nederland voor het eerst gebruikt door Paulien Hogeweg en Ben Hesper.[2][3]

Achtergrond

In een experimenteel laboratorium worden data gegenereerd door het uitvoeren van een experimenteel onderzoek. De moleculaire bioloog tracht zijn vragen te beantwoorden met zijn in het laboratorium gegenereerde data. De bio-informaticus doet hetzelfde maar met gegevens die hij zelf niet heeft gegenereerd, maar wel heeft gekregen van een moleculaire bioloog. Door zijn vakkennis van zowel biologie als informatiekunde is de bio-informaticus beter gepositioneerd voor dit onderzoek dan de moleculair bioloog.

De biologische gegevens waarover sprake is, zijn onder andere:

ruwe genomen van modelorganismen
variatiegegevens (single nucleotide polymorphisms SNP's) van genen
expressieprofielen (DNA- en Eiwit-microarrays)
merkers en transcriptomen (expressed sequence tags EST's en cDNA's)
proteomen: functionele (netwerken) en structurele gegevens (eiwit-kristallografie)
genoomvariaties in populaties (populatiebiologie)
publicaties

Kenmerkend voor bio-informatica is dat er relaties worden gelegd tussen de vele gegevens. Zo worden stukken vergelijkbaar DNA gezocht, eiwitten met vergelijkbare expressiepatronen, genetische afwijkingen die bovengemiddeld aanwezig zijn bij mensen met een bepaalde erfelijke ziekte, etcetera. Niet zelden worden hierbij evolutionaire inzichten en in het bijzonder fylogenetische bomen gebruikt, die de geschiedenis van de evolutie van genen en/of organismen proberen te reconstrueren.

Nederland kent een eigen bio-informatica-instituut ter bevordering van het onderzoek in Nederland, het Netherlands Bioinformatics Centre.[4]

Software

Sequentiesoftware

Alineëring van verschillende sequenties van het proteïne hemoglobine aan de hand van het programma ClustalW

Sequentiesoftware wordt ingeschakeld voor het onderzoek van bijvoorbeeld de functie en ligging van een onbekend stukje DNA. Dit gebeurt met behulp van het BLAST-algoritme. Dit algoritme knipt een onbekende sequentie in kleinere stukjes en gaat op zoek in een gen- of eiwitdatabank naar een zo lang mogelijk overeenkomstig stuk. Dit principe ligt aan de basis van verscheidene andere sequentietools, waarbij iedere tool een specifiek doel heeft:

Detecteren van nieuwe genen tussen junk-DNA en/of pseudogenen.
Opzoeken van homologieën in databanken.
'Vergelijken' van twee of meer sequenties.
Opbouwen/detecteren van de fylogenetische stamboom (evolutie) van organismen en genen (bijvoorbeeld genfamilies) ontstaan na genduplicatie zoals in hemoglobines.
Onbekende stukken sequentie (DNA, mRNA, eiwitsequentie) functioneel classificeren.

Tools

BLAST
Blat
FASTA
ClustalW
Artemis

Pathwayvisualisatiesoftware

Tools

GenMAPP
GeneGO MetaCore

Programmeertalen

De meeste programmeertalen zijn generiek toepasbaar. In de bio-informatica worden de volgende programmeertalen vaak gebruikt:

Perl, BioPerl
Python, BioPython
R
Ruby, BioRuby
Java, BioJava
PHP

Databanken

Tegenwoordig is er een grote hoeveelheid informatie over gen- en eiwitsequenties beschikbaar. Deze informatie groeide op een zeker moment exponentieel, waarom besloten is om alles op te slaan in specifieke databanken:

Gendatabanken

Deze databanken bevatten voornamelijk informatie over bekende en onbekende DNA- en mRNA-sequenties. Tot op heden bestaan er drie grote databanken, ontwikkeld op verschillende continenten:

Het Europese, door EBI ontwikkelde EMBL,
Het Amerikaanse, door NCBI begonnen GenBank
Het Japanse DDBJ.

Voordat een onderzoeker een nieuw gen kon publiceren, diende hij de gevonden gensequentie publiek te maken door die in één van bovenstaande databanken te deponeren. Door de grote explosie aan nieuwe informatie werd het gaandeweg zeer moeilijk om alle informatie te controleren. Dit heeft geleid tot 'vervuiling' van deze databanken (="database redundancy"): iedereen had de mogelijkheid om zijn eigen stukje sequentie toe te voegen. Echter, aan deze sequentie hing soms nog een stukje vectorieel cDNA (nodig voor amplificatie) of was de sequentiëring naar aan het einde van het gen van slechtere kwaliteit, waardoor de kwaliteit achteruitging.

De laatste jaren is veel aandacht besteed aan de compatibiliteit tussen deze databanken, waarbij de focus werd gelegd op het gebruik van databankreferenties. Dit betekent dat bij het zoeken van een gen in databank X er referenties zullen staan naar hetzelfde gen in de overige gendatabanken (indien bekend).

Eiwitdatabanken

Na de opkomst van DNA-sequentiëringtechnieken liep de eiwitsequentiëring niet ver achter. Ook hiervoor was een geschikte databank nodig. Deze publieke databank eiste wel dat alle informatie eerst werd gecontroleerd en geverifieerd door experts (="curators") voordat een nieuw eiwit kon worden toegevoegd en/of aangepast.

Ook hier werden twee initiatieven gestart:

Het Europese EBI hield zich bezig met de ontwikkeling van:

Swiss-Prot
- Bevat aminozuursequentie.
- Nieuwe informatie wordt eerst streng gecontroleerd door experts.
- Kwalitatief beste eiwitdatabank.
- Bevat alle mogelijke informatie, die bekend is over een specifiek eiwit.
- Ieder eiwit wordt gekoppeld aan zijn oorspronkelijke referenties naar de literatuur.
- Referenties naar vele andere databanken aanwezig.
- Oorspronkelijk ontwikkeld door een Zwitserse bio-informaticagroep ("Swiss")
TrEMBL - Translated EMBL:
- Alle DNA-sequenties aanwezig in EMBL worden 'vertaald' naar aminozuursequenties.
- TrEMBL bestaat dus voornamelijk uit hypothetische eiwitten.
SPTrEMBL - SwissProt Translated EMBL:
- Bevat eiwitten uit TrEMBL waar experimenteel werd aangetoond dat ze bestaan.
- Deze informatie zal door aangewezen experts grondig worden nagekeken voordat het in een volgende versie van Swiss-Prot wordt toegevoegd.

Het Amerikaanse NCBI ontwikkelde:

PDB - Protein Data Bank
- Bevat alle structurele informatie over een eiwit.
PIR - Protein Information Resource
- Zelfde doelen als Swiss-Prot.

Deze eiwitdatabanken groeiden uit tot een belangrijke informatiebron voor moleculaire biologen. Beide initiatieven zagen dit op tijd in en sloegen in 2003 de handen ineen. Het UniProt consortium werd gevormd en niet veel later ontstond hieruit Uni-Prot. Het doel van deze samenwerking was het optimaal aanbieden van een eiwitdatabank waarin alle bekende informatie over eiwitten gecombineerd werd tot een geheel aan annotaties en databankreferenties.

Met het begrip annotatie worden naast de kerngegevens (sequentie, referentie en taxonomische oorsprong) ook de overige gegevens verzameld:

Functie van het eiwit.
Post-translationele modificaties (glycosylering, fosforylering, acetylering, GPI-anker ... ).
Domeininformatie (Ca-bindend domein, ATP-bindend, Zn-vingers, homeobox, kringle ... ).
Secundaire / quaternaire structuur (homodimeer, heterotrimeer ... ).
Gelijkenissen met andere eiwitten.
Ziektebeelden gekoppeld aan een specifiek eiwit.
Varianten.

Interfaces

Hoewel veel databanken in essentie dezelfde informatie bevatten, zijn er toch verschillende interfaces ontwikkeld die de gebruiker in staat stellen om informatie uit zo veel mogelijk databanken te extraheren:

Entrez van NCBI.
EMBnet en SRS van EBI.

Bronnen, noten en/of referenties

(en) What is "Biomedical Informatics"?. AMIA. Geraadpleegd op 8 maart 2017.
Hogeweg, P. (1978). Simulating the growth of cellular forms. Simulation 31, 90-96
Hogeweg, P. & Hesper, B. (1978) Interactive instruction on population interactions. Comput Biol Med 8:319-27.
Netherlands Bioinformatics Centre

Biologie

Biochemie & fysiologie:	Bioanorganische chemie · Biofysica · Celfysiologie · Elektrofysiologie · Endocrinologie · Glycobiologie · Immunologie · Immuunhistochemie · Klinische biologie · Moleculaire biologie · Neurobiologie · Neurofysiologie · Ontwikkelingsfysiologie · Plantenfysiologie · Radiobiologie · Spierfysiologie · Toxicologie
Genetica:	Cytogenetica · Epigenetica · Farmacogenetica · Gedragsgenetica · Genomica · Paleogenetica · Populatiegenetica · Synthetische biologie · Toxicogenomica
Morfologie & anatomie:	Celbiologie · Embryologie · Histologie · Morfologie · Ontwikkelingsbiologie · Plantenanatomie · Plantenmorfologie · Zoötomie
Ecologie & gedrag:	Aerobiologie · Astrobiologie · Epidemiologie · Ethologie · Fenologie · Hydrobiologie · Histologie · Limnologie · Mariene biologie · Montane ecologie · Parasitologie · Populatiebiologie · Syntaxonomie · Vegetatiekunde
Biogeografie:	Biogeologie · Eilandbiogeografie · Floristiek
Systematiek & evolutietheorie:	Bio-informatica · Chemotaxonomie · Cladistiek · Fylogenie · Paleontologie · Synthetische biologie · Systeembiologie · Taxonomie
Bijzondere biologie:	Bryologie · Entomologie · Fycologie · Herpetologie · Ichtyologie · Lichenologie · Malacologie · Mammalogie · Microbiologie · Mycologie · Ornithologie · Plantkunde · Pteridologie · Virologie · Zoölogie
Mens & milieu:	Biologische antropologie · Biologische psychologie · Biomedische wetenschappen · Biotechnologie · Epidemiologie · Medische biologie · Menselijke biologie · Milieubiologie · Psychobiologie

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] (en) What is "Biomedical Informatics"?. AMIA. Geraadpleegd op 8 maart 2017.

[2] Hogeweg, P. (1978). Simulating the growth of cellular forms. Simulation 31, 90-96

[3] Hogeweg, P. & Hesper, B. (1978) Interactive instruction on population interactions. Comput Biol Med 8:319-27.

[4] Netherlands Bioinformatics Centre