Matches in SemOpenAlex for { <https://semopenalex.org/work/W409012364> ?p ?o ?g. }
- W409012364 abstract "Les moteurs de recherche verticaux, qui se concentrent sur des segments specifiques du Web, deviennent aujourd'hui de plus en plus presents dans le paysage d'Internet. Les moteurs de recherche thematiques, notamment, peuvent obtenir de tres bonnes performances en limitant le corpus indexe a un theme connu. Les ambiguites de la langue sont alors d'autant plus controlables que le domaine est bien cible. De plus, la connaissance des objets et de leurs proprietes rend possible le developpement de techniques d'analyse specifiques afin d'extraire des informations pertinentes.Dans le cadre de cette these, nous nous interessons plus precisement a la procedure de collecte de documents thematiques a partir du Web pour alimenter un moteur de recherche thematique. La procedure de collecte peut etre realisee en s'appuyant sur un moteur de recherche generaliste existant (recherche orientee) ou en parcourant les hyperliens entre les pages Web (exploration orientee).Nous etudions tout d'abord la recherche orientee. Dans ce contexte, l'approche classique consiste a combiner des mot-cles du domaine d'interet, a les soumettre a un moteur de recherche et a telecharger les meilleurs resultats retournes par ce dernier.Apres avoir evalue empiriquement cette approche sur 340 themes issus de l'OpenDirectory, nous proposons de l'ameliorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requetes thematiques plus pertinentes pour le theme afin d'augmenter la precision de la collecte. Nous definissons une metrique fondee sur un graphe de cooccurrences et un algorithme de marche aleatoire, dans le but de predire la pertinence d'une requete thematique. En aval du moteur de recherche, nous proposons de filtrer les documents telecharges afin d'ameliorer la qualite du corpus produit. Pour ce faire, nous modelisons la procedure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche aleatoire biaise afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette these, nous nous focalisons sur l'exploration orientee du Web. Au coeur de tout robot d'exploration orientee se trouve une strategie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un theme, tout en minimisant le nombre de pages visitees qui ne sont pas en rapport avec le theme. En pratique, cette strategie definit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement independante du theme a partir de donnees existantes annotees automatiquement." @default.
- W409012364 created "2016-06-24" @default.
- W409012364 creator A5048937960 @default.
- W409012364 date "2013-06-05" @default.
- W409012364 modified "2023-09-23" @default.
- W409012364 title "Collecte orientée sur le Web pour la recherche d’information spécialisée" @default.
- W409012364 cites W116870935 @default.
- W409012364 cites W125867323 @default.
- W409012364 cites W136978531 @default.
- W409012364 cites W144619782 @default.
- W409012364 cites W1481372933 @default.
- W409012364 cites W1505715096 @default.
- W409012364 cites W1508511232 @default.
- W409012364 cites W1525595230 @default.
- W409012364 cites W1532325895 @default.
- W409012364 cites W1540318209 @default.
- W409012364 cites W1543096214 @default.
- W409012364 cites W1554728883 @default.
- W409012364 cites W15548 @default.
- W409012364 cites W1576461079 @default.
- W409012364 cites W1596709027 @default.
- W409012364 cites W160262995 @default.
- W409012364 cites W1605217017 @default.
- W409012364 cites W1679844312 @default.
- W409012364 cites W1854214752 @default.
- W409012364 cites W1965555277 @default.
- W409012364 cites W197270748 @default.
- W409012364 cites W1973435495 @default.
- W409012364 cites W1974709826 @default.
- W409012364 cites W1976624301 @default.
- W409012364 cites W1978394996 @default.
- W409012364 cites W1980318031 @default.
- W409012364 cites W1981086745 @default.
- W409012364 cites W1983345514 @default.
- W409012364 cites W1987365175 @default.
- W409012364 cites W1990589796 @default.
- W409012364 cites W1991382440 @default.
- W409012364 cites W200434350 @default.
- W409012364 cites W2007815473 @default.
- W409012364 cites W2009077327 @default.
- W409012364 cites W201047834 @default.
- W409012364 cites W2014516359 @default.
- W409012364 cites W2016122268 @default.
- W409012364 cites W2017224880 @default.
- W409012364 cites W2017726337 @default.
- W409012364 cites W2018928332 @default.
- W409012364 cites W2025440555 @default.
- W409012364 cites W2029137225 @default.
- W409012364 cites W2029341294 @default.
- W409012364 cites W2038378248 @default.
- W409012364 cites W2044743392 @default.
- W409012364 cites W2044815816 @default.
- W409012364 cites W2045998703 @default.
- W409012364 cites W2051834357 @default.
- W409012364 cites W2055518963 @default.
- W409012364 cites W2061834298 @default.
- W409012364 cites W2066055909 @default.
- W409012364 cites W2068905009 @default.
- W409012364 cites W2069870183 @default.
- W409012364 cites W2079168273 @default.
- W409012364 cites W2082762518 @default.
- W409012364 cites W2082920082 @default.
- W409012364 cites W2086446587 @default.
- W409012364 cites W2090146924 @default.
- W409012364 cites W2090193136 @default.
- W409012364 cites W2090279081 @default.
- W409012364 cites W2093347820 @default.
- W409012364 cites W2095478124 @default.
- W409012364 cites W2096041903 @default.
- W409012364 cites W2097385711 @default.
- W409012364 cites W2098162425 @default.
- W409012364 cites W2099126271 @default.
- W409012364 cites W2102942431 @default.
- W409012364 cites W2103018059 @default.
- W409012364 cites W2103931177 @default.
- W409012364 cites W2104332750 @default.
- W409012364 cites W2107434887 @default.
- W409012364 cites W2107549403 @default.
- W409012364 cites W2108712612 @default.
- W409012364 cites W2109664771 @default.
- W409012364 cites W2110896767 @default.
- W409012364 cites W2111875680 @default.
- W409012364 cites W2113184419 @default.
- W409012364 cites W2117510361 @default.
- W409012364 cites W2118020653 @default.
- W409012364 cites W2118585731 @default.
- W409012364 cites W2120101509 @default.
- W409012364 cites W2121017700 @default.
- W409012364 cites W2121672615 @default.
- W409012364 cites W2123659440 @default.
- W409012364 cites W2124168655 @default.
- W409012364 cites W2124673015 @default.
- W409012364 cites W2125969310 @default.
- W409012364 cites W2126085842 @default.
- W409012364 cites W2126399065 @default.
- W409012364 cites W2128384372 @default.
- W409012364 cites W2128915886 @default.
- W409012364 cites W2128941908 @default.
- W409012364 cites W2131904035 @default.
- W409012364 cites W2133576408 @default.