Matches in SemOpenAlex for { <https://semopenalex.org/work/W3127672287> ?p ?o ?g. }
Showing items 1 to 83 of
83
with 100 items per page.
- W3127672287 abstract "Data integration promises to be one of the main catalysts in enabling new insights to be drawn from the wealth of biological data already available publicly. However, the heterogene- ity of the existing data sources still poses significant challenges for achieving interoperability among biological databases. Furthermore, merely solving the technical challenges of data in- tegration, for example through the use of common data representation formats, leaves open the larger problem. Namely, the steep learning curve required for understanding the data models of each public source, as well as the technical language through which the sources can be queried and joined. As a consequence, most of the available biological data remain practically unexplored today.In this thesis, we address these problems jointly, by first introducing an ontology-based data integration solution in order to mitigate the data source heterogeneity problem. We illustrate through the concrete example of Bgee, a gene expression data source, how relational databases can be exposed as virtual Resource Description Framework (RDF) graphs, through relational-to-RDF mappings. This has the important advantage that the original data source can remain unmodified, while still becoming interoperable with external RDF sources.We complement our methods with applied case studies designed to guide domain experts in formulating expressive federated queries targeting the integrated data across the domains of evolutionary relationships and gene expression. More precisely, we introduce two com- parative analyses, first within the same domain (using orthology data from multiple, inter- operable, data sources) and second across domains, in order to study the relation between expression change and evolution rate following a duplication event.Finally, in order to bridge the semantic gap between users and data, we design and im- plement Bio-SODA, a question answering system over domain knowledge graphs, that does not require training data for translating user questions to SPARQL. Bio-SODA uses a novel ranking approach that combines syntactic and semantic similarity, while also incorporating node centrality metrics to rank candidate matches for a given user question. Our results in testing Bio-SODA across several real-world databases that span multiple domains (both within and outside bioinformatics) show that it can answer complex, multi-fact queries, be- yond the current state-of-the-art in the more well-studied open-domain question answering.--L’integration des donnees promet d’etre l’un des principaux catalyseurs permettant d’extraire des nouveaux apercus de la richesse des donnees biologiques deja disponibles publiquement. Cependant, l’heterogeneite des sources de donnees existantes pose encore des defis importants pour parvenir a l’interoperabilite des bases de donnees biologiques. De plus, en surmontant seulement les defis techniques de l’integration des donnees, par exemple grâce a l’utilisation de formats standard de representation de donnees, on laisse ouvert un probleme encore plus grand. A savoir, la courbe d’apprentissage abrupte necessaire pour comprendre la modeli- sation des donnees choisie par chaque source publique, ainsi que le langage technique par lequel les sources peuvent etre interroges et jointes. Par consequent, la plupart des donnees biologiques publiquement disponibles restent pratiquement inexplores aujourd’hui.Dans cette these, nous abordons l’ensemble des deux problemes, en introduisant d’abord une solution d’integration de donnees basee sur ontologies, afin d’attenuer le probleme d’hete- rogeneite des sources de donnees. Nous montrons, a travers l’exemple de Bgee, une base de donnees d’expression de genes, une approche permettant les bases de donnees relationnelles d’etre publies sous forme de graphes RDF (Resource Description Framework) virtuels, via des correspondances relationnel-vers-RDF (« relational-to-RDF mappings »). Cela presente l’important avantage que la source de donnees d’origine peut rester inchange, tout en de- venant interoperable avec les sources RDF externes.Nous completons nos methodes avec des etudes de cas appliquees, concues pour guider les experts du domaine dans la formulation de requetes federees expressives, ciblant les don- nees integrees dans les domaines des relations evolutionnaires et de l’expression des genes. Plus precisement, nous introduisons deux analyses comparatives, d’abord dans le meme do- maine (en utilisant des donnees d’orthologie provenant de plusieurs sources de donnees in- teroperables) et ensuite a travers des domaines interconnectes, afin d’etudier la relation entre le changement d’expression et le taux d’evolution suite a une duplication de gene.Enfin, afin de mitiger le decalage semantique entre les utilisateurs et les donnees, nous concevons et implementons Bio-SODA, un systeme de reponse aux questions sur des graphes de connaissances domaine-specifique, qui ne necessite pas de donnees de formation pour traduire les questions des utilisateurs vers SPARQL. Bio-SODA utilise une nouvelle ap- proche de classement qui combine la similarite syntactique et semantique, tout en incorporant des metriques de centralite des nœuds, pour classer les possibles candidats en reponse a une question utilisateur donnee. Nos resultats suite aux tests effectues en utilisant Bio-SODA sur plusieurs bases de donnees a travers plusieurs domaines (tantot lies a la bioinformatique qu’exterieurs) montrent que Bio-SODA reussit a repondre a des questions complexes, en- gendrant multiples entites, au-dela de l’etat actuel de la technique en matiere de systemes de reponses aux questions sur les donnees structures, en particulier graphes de connaissances." @default.
- W3127672287 created "2021-02-15" @default.
- W3127672287 creator A5032183252 @default.
- W3127672287 date "2020-10-26" @default.
- W3127672287 modified "2023-09-27" @default.
- W3127672287 title "Enabling Complex Semantic Queries to Bioinformatics Databases through Intuitive Search Over Data" @default.
- W3127672287 hasPublicationYear "2020" @default.
- W3127672287 type Work @default.
- W3127672287 sameAs 3127672287 @default.
- W3127672287 citedByCount "0" @default.
- W3127672287 crossrefType "journal-article" @default.
- W3127672287 hasAuthorship W3127672287A5032183252 @default.
- W3127672287 hasConcept C100463513 @default.
- W3127672287 hasConcept C111472728 @default.
- W3127672287 hasConcept C134306372 @default.
- W3127672287 hasConcept C136764020 @default.
- W3127672287 hasConcept C138885662 @default.
- W3127672287 hasConcept C147497476 @default.
- W3127672287 hasConcept C154945302 @default.
- W3127672287 hasConcept C20136886 @default.
- W3127672287 hasConcept C20901353 @default.
- W3127672287 hasConcept C2129575 @default.
- W3127672287 hasConcept C23123220 @default.
- W3127672287 hasConcept C2522767166 @default.
- W3127672287 hasConcept C25810664 @default.
- W3127672287 hasConcept C33923547 @default.
- W3127672287 hasConcept C36503486 @default.
- W3127672287 hasConcept C41008148 @default.
- W3127672287 hasConcept C5655090 @default.
- W3127672287 hasConcept C60644358 @default.
- W3127672287 hasConcept C69075417 @default.
- W3127672287 hasConcept C72634772 @default.
- W3127672287 hasConcept C77088390 @default.
- W3127672287 hasConcept C86803240 @default.
- W3127672287 hasConceptScore W3127672287C100463513 @default.
- W3127672287 hasConceptScore W3127672287C111472728 @default.
- W3127672287 hasConceptScore W3127672287C134306372 @default.
- W3127672287 hasConceptScore W3127672287C136764020 @default.
- W3127672287 hasConceptScore W3127672287C138885662 @default.
- W3127672287 hasConceptScore W3127672287C147497476 @default.
- W3127672287 hasConceptScore W3127672287C154945302 @default.
- W3127672287 hasConceptScore W3127672287C20136886 @default.
- W3127672287 hasConceptScore W3127672287C20901353 @default.
- W3127672287 hasConceptScore W3127672287C2129575 @default.
- W3127672287 hasConceptScore W3127672287C23123220 @default.
- W3127672287 hasConceptScore W3127672287C2522767166 @default.
- W3127672287 hasConceptScore W3127672287C25810664 @default.
- W3127672287 hasConceptScore W3127672287C33923547 @default.
- W3127672287 hasConceptScore W3127672287C36503486 @default.
- W3127672287 hasConceptScore W3127672287C41008148 @default.
- W3127672287 hasConceptScore W3127672287C5655090 @default.
- W3127672287 hasConceptScore W3127672287C60644358 @default.
- W3127672287 hasConceptScore W3127672287C69075417 @default.
- W3127672287 hasConceptScore W3127672287C72634772 @default.
- W3127672287 hasConceptScore W3127672287C77088390 @default.
- W3127672287 hasConceptScore W3127672287C86803240 @default.
- W3127672287 hasLocation W31276722871 @default.
- W3127672287 hasOpenAccess W3127672287 @default.
- W3127672287 hasPrimaryLocation W31276722871 @default.
- W3127672287 hasRelatedWork W106724427 @default.
- W3127672287 hasRelatedWork W12931430 @default.
- W3127672287 hasRelatedWork W1540925945 @default.
- W3127672287 hasRelatedWork W1759766770 @default.
- W3127672287 hasRelatedWork W19563718 @default.
- W3127672287 hasRelatedWork W2190371279 @default.
- W3127672287 hasRelatedWork W2223286428 @default.
- W3127672287 hasRelatedWork W2612987003 @default.
- W3127672287 hasRelatedWork W2786213716 @default.
- W3127672287 hasRelatedWork W2890513348 @default.
- W3127672287 hasRelatedWork W2952235855 @default.
- W3127672287 hasRelatedWork W3124486907 @default.
- W3127672287 hasRelatedWork W3126238593 @default.
- W3127672287 hasRelatedWork W3146292717 @default.
- W3127672287 hasRelatedWork W412072378 @default.
- W3127672287 hasRelatedWork W582716883 @default.
- W3127672287 hasRelatedWork W746411770 @default.
- W3127672287 hasRelatedWork W84545142 @default.
- W3127672287 hasRelatedWork W1503945245 @default.
- W3127672287 hasRelatedWork W2300979631 @default.
- W3127672287 isParatext "false" @default.
- W3127672287 isRetracted "false" @default.
- W3127672287 magId "3127672287" @default.
- W3127672287 workType "article" @default.