Nederlandse Bioinformatica Product Showcase
Op deze pagina vermeldt NBIC een selectie van software- en databaseprojecten waar u van op de hoogte moet zijn. Dit zijn projecten die door NBIC of in samenwerking met NBIC zijn gemaakt en waarvoor we iedereen uitnodigen om ze te gaan gebruiken. Er is een completere lijst met tools die u zou moeten bekijken als u op zoek bent naar iets specifieks.
LOVD
De Leiden Open Variation Database biedt een flexibele, gratis beschikbare tool voor gengerichte verzameling en weergave van DNA-variaties. LOVD 3.0, de nieuwste versie, biedt ook patiëntgerichte gegevensopslag en opslag van NGS-gegevens, zelfs van varianten buiten genen. LOVD is in al zijn versies op honderden locaties over de hele wereld geïnstalleerd. In veel gevallen worden de gegevens in zo’n installatie onderhouden en samengesteld door experts van over de hele wereld op het gebied van een specifieke genetische ziekte.
MRS
MRS, een zoekmachine voor biologische en medische databanken, wordt gebruikt om ruim een terabyte aan geïndexeerde tekst te doorzoeken in alle belangrijke bioinformaticabronnen. Hieronder vallen bijvoorbeeld: EMBL/TrEMBL, Genbank, SwissProt, Refseq, PDB/pdbfinder2, GO, Interpro en PubMed Central.
De MRS-software biedt de tools om flat-file databanken snel en betrouwbaar te downloaden, op te slaan, te indexeren en te bevragen. Gegevens die door MRS worden opgeslagen en geïndexeerd, nemen aanzienlijk minder ruimte in beslag op de schijf dan de ruwe gegevens, maar de ruwe gegevens worden niettemin in hun geheel opgenomen. De MRS-indexinformatie maakt deel uit van de opgeslagen gegevens. Openbare gegevens kunnen worden gecombineerd met privégegevens door eenvoudige concatenatie zonder enige rekenkundige overhead (Hekkelman M.L., Vriend G. Nucleic Acids Research 2005 33: W766-W769; doi:10.1093/nar/gki422).
Rite
Rite is een pilot job framework geschreven in Java, waarmee u taken kunt indienen bij verschillende computerbronnen (bijv. cluster, grid). Het bestaat uit een robuuste pilot job framework client en een server met een geïntegreerde MongoDB-database. Belangrijkste kenmerken van het systeem zijn:
Robuust pilotframework dat mislukte of getimede taken opnieuw zal proberen
Recepten die herbruikbare taken beschrijven via json-documenten of een java API
On the fly resolutie van bestanden via indirecte verbinding
Centrale opslag van console-uitvoer en status van taken
Opvragen van taakstatus en resultaten met de native querytaal van MongoDB of via de MongoDB-webservices.
Rite is een open source-project dat is uitgebracht onder de GNU Lesser General
Public License versie 3 en kan worden gedownload van de NBIC-trac
BreeDB
BreeDB is een relationele database die gericht is op het ondersteunen van veredeling voor kwantitatieve agronomische eigenschappen. De database kan worden verkend via een webinterface, die tools biedt om basisstatistische overzichten te presenteren, zoals boxplots, histogrammen, maar ook multivariate tools. Grafische genotyperingstools zijn beschikbaar om moleculaire merkergegevens en QTL-gegevens weer te geven in relatie tot genetische koppelingskaarten. Daarnaast kunnen foto’s van elke aanwinst worden getoond, samen met een gedetailleerd rapport van observaties die zijn gedaan op deze aanwinst.
BreeDB is ontworpen om gegevens op te slaan van zowel inteelt- als uitteeltgewassen en de analyse- en visualisatiemethoden passen zich automatisch aan het type populatie aan. Voor sommige functies van BreeDB is integratie met een database van derden vereist.
ConceptWiki
ConceptWiki is een universele open access-repository van bewerkbare concepten. De ConceptWiki bevat voor elk specifiek concept een Also Known As-tabel met identifiers, URI’s (van verschillende ontologieën en databases) en de bijbehorende taal-terminologische informatie. Aanvullende informatie is beschikbaar door te klikken op een link “Meer over dit concept”. De terminologie en identifiers zijn gratis te downloaden van de ConceptWiki en kunnen worden gebruikt als een thesaurus om concept-aanduidende tokens in tekst en databases te identificeren. ConceptWiki is een erkend kernelement in het Identiteitsbeheergedeelte van het Open PHACTS-project en wordt verder ontwikkeld met kernpartners zoals Uniprot/NextProt, Chemspider/RSC en NCBO. Een zeer belangrijk kenmerk van de ConceptWiki is de scheiding tussen Community en Authority. Authorities op bepaalde terminologiegebieden, waarvan er hierboven meerdere zijn genoemd, vullen de ConceptWiki met goedgekeurde terminologie en mappings, terwijl de community aanvullende symbolen kan toevoegen die worden gebruikt om naar dezelfde concepten te verwijzen. Gebruikers kunnen besluiten om de communitybijdragen op te nemen of uit te sluiten.
WikiPathways
WikiPathways is een open, collaboratief platform dat is toegewijd aan de curatie van biologische paden, dat deelname door de community mogelijk maakt. Deze aanpak verschuift ook het grootste deel van peer review, redactionele curatie en onderhoud naar de community. WikiPathways presenteert een nieuw model voor paddatabases dat lopende inspanningen, zoals KEGG, Reactome en Pathway Commons, verbetert en aanvult. Voortbouwend op de software die Wikipedia aanstuurt, werden een aangepaste grafische padbewerkingstool en geïntegreerde databases toegevoegd die belangrijke gen-, eiwit- en kleine-molecuulsystemen bestrijken.
BridgeDB
BridgeDB is een softwarepakket dat kan worden gebruikt om te vertalen tussen twee verschillende sets database-identifiers, of om referenties te zoeken op id of symbool. De BridgeDB-software bestaat uit twee delen. Het eerste deel is een (web)service die de daadwerkelijke vertaling uitvoert op basis van een mappingbestand, een database met identifiers of andere mappingwebservices. Het tweede deel is een (Java)bibliotheek die kan worden gebruikt om verschillende software (zoals Cytoscape) uit te breiden met een generieke vertaalmogelijkheid. BridgeDB wordt gebruikt voor de Identifier Mapping Service (IMS) in het Open PHACTS-project.
NBIC Galaxy Server
NBIC Galaxy is gebaseerd op het Galaxy-systeem dat is ontwikkeld door Penn State University. BioAssist-taskforces gebruiken deze server om hun workflows te bouwen en te publiceren. Deze server wordt onderhouden als een academische best effort en iedereen is welkom om deze te gebruiken.
We proberen deze machine zo stabiel mogelijk te houden, maar wees u ervan bewust dat we niet kunnen garanderen dat we uw datasets onbeperkt bewaren, dus zorg ervoor dat u back-ups van uw kostbare gegevens maakt. Elke geregistreerde gebruiker heeft recht op een schijfquotum van 10 GB, een anonieme gebruiker heeft 10 MB schijfquotum op het systeem.
Peregrine
Peregrine is een zeer snel softwarepakket dat wordt gebruikt om interessante termen met meerdere woorden in menselijke tekst te herkennen. Peregrine werd oorspronkelijk ontwikkeld door Martijn Schuemie bij de afdeling Medische Informatica van het Erasmus Universitair Medisch Centrum (EMC) in Rotterdam. Het pakket was het eerste project in 2009 dat werd opgepakt door het BioAssist Engineering-team van NBIC, dat samen met de EMC de open source-release heeft voorbereid door het programma gebruiksvriendelijk te maken en de code eenvoudiger uit te breiden en te onderhouden.
Peregrine is nu te vinden op https://trac.nbic.nl/data-mining/ en te downloaden onder een AGPL-licentie.
PDB-faciliteiten
Het CMBI biedt een reeks faciliteiten voor bio-informatica van eiwitstructuren die parallel lopen aan de PDB, de wereldwijde opslagplaats van macromoleculaire structuurinformatie. Elke database bevat, indien mogelijk, één item voor elk PDB-item. De componenten zijn: DSSP: de secundaire structuur van de eiwitten. PDBREPORT: de structuurkwaliteit en fouten. HSSP: een meervoudige sequentie-uitlijning voor alle eiwitten. PDBFINDER: eenvoudig te parseren samenvattingen van de inhoud van het PDB-bestand, aangevuld met essentiële informatie uit de andere systemen. PDB_REDO: verfijnde en vaak verbeterde kopieën van alle structuren die door röntgenstraling zijn opgelost. WHY_NOT: vat samen waarom bepaalde bestanden niet konden worden geproduceerd. Al deze databases worden wekelijks bijgewerkt. De datasets kunnen worden gebruikt voor de analyse van eigenschappen van eiwitstructuren in gebieden variërend van structurele genomica tot kankerbiologie en eiwitontwerp.
CLI-mate: Galaxy-toolgenerator
CLI-mate is een service om ontwikkelaars te helpen bij het maken van gebruiksvriendelijke interfaces voor een opdrachtregeltool.
In de agile ontwikkelomgeving van bioinformatica worden veel opdrachtregeltools snel gemaakt om gaten tussen complexe informatieprocessen op te vullen. Een opdrachtregelinterface (CLI) is soms voldoende voor de taak, maar beperkt de acceptatie door een breder publiek. Daarom is het vaak nodig dat de ontwikkelaar een wrapper maakt die een gebruiksvriendelijkere interface biedt. De CLI-mate-interfacegenerator maakt dit eenvoudig: deze kan verschillende wrappers genereren: een daarvan is het programma omzetten in een Galaxy-tool.
CLI-mate is ontwikkeld op de afdeling Humane Genetica van het Leids Universitair Medisch Centrum (LUMC).
PMID2DOI
PMID2DOI is een service die de conversie verzorgt tussen twee typen identifiers voor wetenschappelijke publicaties: de PubMed Identifier (PMID), een uniek nummer dat is toegewezen aan PubMed-citaten van artikelen in wetenschappelijke tijdschriften, en de Digital Object Identifier (DOI™), die wordt gebruikt voor het identificeren van digitale content en wordt onderhouden door CrossRef. DOI™’s worden gebruikt om actuele informatie te verstrekken, inclusief waar de content (of informatie erover) op internet te vinden is. DOI™’s kunnen worden gebruikt als onderdeel van de herkomstinformatie voor elke nanopublicatie. Pmid2doi biedt SOAP- en REST-webservices die beschikbaar zijn voor deze conversie. Daarnaast kan een SPARQL-eindpunt worden gebruikt om het conversiesysteem te bevragen.
Taverna-Galaxy Tool Generator
Galaxy en Taverna zijn twee veelgebruikte tools voor het combineren van bioinformaticatools om een grotere analyse uit te voeren. Taverna is het meest geavanceerde workflowsysteem, terwijl Galaxy populair is onder genomics-onderzoekers en door veel bioinformatici wordt gebruikt om scripts beschikbaar te maken voor collega’s. Elk systeem heeft zijn eigen sterke punten. Daarom hebben we een generator gebouwd die een Galaxy-tool construeert vanuit een Taverna-workflow, zodat deze naadloos kan worden uitgevoerd in Galaxy.
De generator is beschikbaar om te downloaden en is onderdeel van http://myExperiment.org/, een communitywebsite voor computationele wetenschappers. Hier kunt u eenvoudig een workflow downloaden als Galaxy-tool en deze installeren op een Galaxy-server.
Generic Study Capture Framework
Het Generic Study Capture Framework (GSCF) [oorspronkelijk ontwikkeld onder de naam Nutritional Phenotype Database (DbNP)] helpt biologen bij het interpreteren van de resultaten van biologische studies die meerdere ‘omics’-technieken omvatten. Aanvankelijk was het gericht op middelgrote nutrigenomics-interventiestudies, maar het is in essentie veel generieker en wordt nu ook gebruikt voor het opslaan van studies uit verschillende biologische gebieden, zoals milieustudies van planten. GSCF kan worden gebruikt om gedetailleerde informatie over het ontwerp van uw studies op te slaan, om die studieontwerpen te koppelen aan werkelijke ‘omics’-gegevens en om de gemeten gegevens te interpreteren langs de assen van uw studieontwerp.
Zie: http://www.dbnp.org/
CitedIn
CitedIn is een webservice met API om citaten van wetenschappelijke publicaties te vinden in online openbare gegevens. CitedIn bevat literatuurcitaten uit een brede selectie van online bronnen, waaronder bibliografische databases (Pubmed, Google Scholar, etc.), biomedische databases (Uniprot, Kegg), Wiki’s (Wikipedia, Wikipathways, Brede Wiki), sociale netwerken (Connotea, CiteULike) of blogs (Nature Blogs, Google Blogs).
CitedIn is beschikbaar op http://www.citedin.org/
Warp2D
Warp2D is een tool met een nieuw algoritme voor tijdsafstemming van meerdere MS-spectra, voornamelijk in proteomics. Omdat het vrij lang kan duren om pairwise time alignment uit te voeren op een grote set spectra, hebben het BioAssist-programma van NBIC en de NPC een webservice gemaakt waarmee gebruikers warp2d kunnen uitvoeren op het life science-raster. Dit is de eerste tool die beschikbaar is gesteld met behulp van de DAF-software die in BioAssist wordt ontwikkeld.
De Warp2D-webservice is beschikbaar via de website van het Netherlands Bioinformatics for Proteomics Platform, NBPP.
CytoscapeRPC
CytoscapeRPC is een uitbreiding op Cytoscape waarmee uw eigen software het kan gebruiken als een grafische front-end voor uw datavisualisatie. CytoscapeRPC wordt gebruikt via een standaard XML-RPC-interface en kan daarom worden gebruikt vanuit bijna elke denkbare programmeertaal.
CytoscapeRPC is open source en draait op alle systemen die Cytoscape ondersteunen. Het pakket is te vinden op de NBIC-projectserver met beschrijvingen op de NBIC-wiki.
R/GPU
R/GPU is een pakket waarmee programmeurs een GPU (grafische processor in een computer) kunnen gebruiken om bioinformatica-analyses met R te versnellen. Het gedraagt zich als magie: zodra R/GPU is geïnstalleerd, gebruiken uw R-scripts het automatisch en bereiken ze veel hogere snelheden. Grote matrixvermenigvuldigingen kunnen bijvoorbeeld 50x sneller worden uitgevoerd.
R/GPU is beschikbaar als open source-project. Het is in bètaversie en is te vinden op de NBIC-projectontwikkelingssite.
MOLGENIS
MOLGENIS is een systeem dat een relatief eenvoudige beschrijving van het soort informatie dat u wilt opslaan, gebruikt en met één druk op de knop een compleet databasesysteem genereert met bijbehorende website waarmee u gegevens aan de database kunt toevoegen en deze kunt raadplegen.
MOLGENIS is open source-software geschreven in Java en is beschikbaar via een eigen website.
GPCRDB
GPCRDB is een informatiesysteem voor G-proteïne-gekoppelde receptoren (GPCR’s). Het verzamelt, combineert, valideert en verspreidt grote hoeveelheden heterogene data. De GPCRDB bevat experimentele data over sequenties, ligandbindingsconstanten, mutaties en oligomeren, evenals veel verschillende soorten computationeel afgeleide data zoals meervoudige sequentie-uitlijningen en homologiemodellen.
GPCRDB is een webbron die verschillende toegangsmethoden biedt. De auteurs staan open voor samenwerking aan de data.
StatQuant
StatQuant is een analysetoolbox voor kwantitatieve massaspectrometrie. Het biedt een set statistische tools om data te verwerken, filteren, vergelijken en weergeven van verschillende kwantitatieve proteomics-softwarepakketten zoals MSQuant. StatQuant biedt de onderzoeker post-processing-methoden om een beter vertrouwen te krijgen in de verkregen eiwitverhoudingen.
StatQuant draait op Windows, Mac en Linux en is beschikbaar als Open Source via de NBIC-projectrepository.