Astronomie

Je veux une base de données de comptage de galaxies, comment puis-je utiliser le skyserver SDSS pour récupérer des galaxies ?

Je veux une base de données de comptage de galaxies, comment puis-je utiliser le skyserver SDSS pour récupérer des galaxies ?

Je suis nouveau dans tout cela et j'essaie d'implémenter le comptage de galaxies. Pour la phase initiale J'ai besoin de données d'image brutes, c'est-à-dire d'images avec des galaxies et des étoiles ainsi que le nombre de galaxies présentes dans l'image.

Je suis tombé sur ceci qui semble avoir un moyen d'étiqueter les galaxies

http://skyserver.sdss.org/dr13/en/tools/chart/navi.aspx?ra=179.68929&dec=-0.45438&opt=

mais je n'arrive pas du tout à comprendre, j'ai utilisé cette page

http://skyserver.sdss.org/dr13/en/tools/chart/chartinfo.aspx

pour essayer de l'étiqueter, seules les galaxies sont vues mais je n'ai rien obtenu (mettre G dans la section opt, cela ne fait pas de différence).

Est-ce que quelqu'un sait comment faire fonctionner ce qui précède ou où je pourrais obtenir des images avec beaucoup de galaxies (n'importe quel nombre ferait l'affaire) avec un compte du nombre de galaxies dans l'image ?

J'ai trouvé https://data.galaxyzoo.org/ mais le traverser semble impossible


Vous pourriez trouver la base de données NED et Astrometry.net utiles. NED est la base de données extragalactique de la NASA. Vous pouvez rechercher par une position dans le ciel avec un rayon et cela vous donnera une liste d'objets connus dans ce champ.

Astrometry.net vous permet de télécharger des images et résoudra ce que vous regardez, vous donnant également une liste d'objets connus dans votre image.

J'aime utiliser CDS pour une recherche rapide sur les objets. Cela vous permettra de parcourir facilement les images de différentes enquêtes et de vous relier à d'autres sources sur cet objet ainsi qu'à des publications sur votre objet.


Une introduction à SQL

SQL est le Sstructuré Query Llangue, un moyen standard de demander des données à partir de bases de données, et est utilisé pour interroger le serveur d'archives de catalogues (CAS). Cette page fournit un bref aperçu de SQL. Des exemples de requêtes sont également disponibles, avec des commentaires, ainsi qu'une page de liens vers une documentation hors site plus détaillée.

Principes de base de la base de données

Lorsque vous effectuez des requêtes, vous devez d'abord décider quelle base de données vous utiliserez. Il existe deux bases de données principales dans le CAS, Target et Best. Dans le DR4, ces bases de données sont en fait nommées TARGDR4 et BESTDR4. La base de données Target contient toutes les mesures telles qu'elles ont été effectuées lorsque les objets ont été ciblés pour la spectroscopie. Best contient les meilleures données et les traitements les plus récents pour l'ensemble de la zone du ciel publiée. La zone de couverture est presque, mais pas exactement, la même. Par défaut, les requêtes sont effectuées sur la base de données Best. Pour utiliser une autre base de données, vous pouvez utiliser le .. syntaxe pour spécifier une table dans l'autre base de données, par exemple :

Pour plus de détails sur les différences entre Target et Best, veuillez consulter la page du modèle de données.

Chaque base de données contient un grand nombre de tableaux, dont certains contiennent des mesures photométriques (telles que PhotoObj), des mesures spectroscopiques (telles que SpecObj) ou des informations sur les conditions d'observation (Field) ou la géométrie du relevé (TileBoundary). Voir la page du modèle de données pour plus de détails.

En plus des tableaux, nous avons défini Vues, qui sont des sous-ensembles ou des combinaisons des données stockées dans les tables. Les vues sont interrogées de la même manière que les tables existent juste pour vous faciliter la vie. Par exemple, la vue Galaxie peut être utilisé pour obtenir des données photométriques sur des objets que nous classons comme galaxies, sans avoir à spécifier la classification dans votre requête.

Les interfaces Skyserver et CasJobs ont toutes deux un Navigateur de schéma. Il vous montre toutes les bases de données disponibles, les tables de chaque base de données et les quantités stockées dans chaque colonne des tables.

Enfin, nous avons créé une variété de les fonctions et procédures stockées qui vous permettent d'effectuer facilement certaines opérations courantes. Habituellement, leurs noms sont préfixés par F ou alors sp, comme dans fPhotoStatus ou alors spListeFibre. La liste complète des fonctions et des procédures de stockage se trouve dans le navigateur de schéma. Notez que certaines fonctions sont valeur scalaire, ce qui signifie qu'ils renvoient une seule valeur, tandis que d'autres (comme la valeur couramment utilisée dbo.fGetNearbyObjEq, sont table-valuée ils renvoient en fait une table de données, et non un seul nombre. Ceci est important lors de l'interprétation des données renvoyées et de l'exécution des jointures.

Veuillez noter la prudence concernant l'utilisation d'appels de fonction comme indiqué dans la section Optimisation des requêtes lorsque vous tentez des requêtes sur qui renvoient un grand nombre d'objets.

Principes de base des requêtes

Maintenant que nous avons une vue d'ensemble de la structure de la base de données, comment extrayons-nous réellement les données ? Vous devrez écrire une requête en utilisant SQL. La requête la plus basique se compose de trois parties :

  1. UNE SÉLECTIONNER clause, qui spécifie les paramètres que vous souhaitez récupérer
  2. UNE DE clause, qui spécifie les tables de base de données dont vous souhaitez extraire les données
  3. UNE clause, qui spécifie les limitations/prédicats que vous souhaitez placer sur les données extraites.

le La clause n'est pas nécessaire si vous souhaitez récupérer les paramètres de tous les objets d'une table spécifiée, mais ce sera généralement une quantité écrasante de données !

Notez que le langage de requête est insensible au fractionnement de la requête sur plusieurs lignes. C'est aussi ne pas sensible aux majuscules et minuscules. Pour rendre les requêtes plus lisibles, il est courant d'écrire les clauses de requête distinctes sur des lignes distinctes. le Exemples de requêtes sur la page CasJobs Query fournit une variété d'échantillons, classés par complexité. Par exemple, pour obtenir la liste des champs uniques qui ont été chargés dans la base de données, nous utilisons :

Vous pouvez simplement copier et coller cette requête (ou toute autre) dans la fenêtre de recherche SQL de SkyServer, et appuyez sur Soumettre, ou dans la fenêtre de requête CasJobs, et appuyez sur le bouton Soumettre.

Si nous voulons récupérer plusieurs paramètres de la base de données, nous les séparons par des virgules :

Bien entendu, les paramètres que vous demandez doivent être inclus dans la ou les tables que vous interrogez ! Maintenant, disons que nous voulons les magnitudes de toutes les galaxies brillantes. Nous devrons spécifier une plage de magnitude pour ce faire :

Ici, nous avons utilisé le clause pour fournir une plage d'amplitude. le et opérateur est utilisé pour exiger que plusieurs limites soient respectées. Cela nous amène à.

Opérateurs logiques et mathématiques simples

Non seulement pouvons-nous placer des limites sur des paramètres individuels, nous pouvons également placer des limites multiples à l'aide d'opérateurs logiques, ainsi que des limites sur les résultats d'opérations mathématiques sur plusieurs paramètres. Nous pouvons également récupérer des résultats qui sont des jointures logiques de plusieurs requêtes. Nous listons ici les opérateurs logiques, de comparaison et mathématiques.

Les opérateurs LOGIQUES sont ET,OU ALORS,NE PAS ils fonctionnent comme suit :

une b a ET b a ou B
VRAIVRAIVRAIVRAI
VRAIFAUXFAUXVRAI
VRAINULNULVRAI
FAUXFAUXFAUXFAUX
FAUXNULFAUXNUL
NULNULNULNUL

Lors de la comparaison des valeurs, vous utiliserez les opérateurs de COMPARAISON :

moins que > plus grand que <= inférieur ou égal à >= Plus grand ou égal à = égal <> ou != inégal

En plus des opérateurs de comparaison, les ENTRE construction est disponible.
une ENTRE X ET oui est équivalent à une >= X ET une <= oui

De même,
une PAS ENTRE X ET oui est équivalent à une oui

Enfin, les opérateurs MATHÉMATIQUES (à la fois numériques et au niveau du bit) sont :

1

NomLa descriptionExempleRésultat
+ Une addition2 + 35
- Soustraction2 - 3-1
* Multiplication2 * 36
/ Division 4 / 22
% Modulo (reste)5 % 41
PUISSANCE ExponentiationPUISSANCE (2.0,3.0)8.0
SQRT Racine carréeCARRÉ (25.0)5.0
abdos Valeur absolueABS (-5,0)5.0
& ET au niveau du bit91 & 15
01011011 & 00001111
11
00001011
| OU au niveau du bit32 | 3
00100000 | 00000011
35
00100011
^ XOR au niveau du bit17 # 5
00010001 # 00000101
20
00010100
-2
MOYENNE MoyenneAVG(ModèleMag_r)
MIN Le minimumMIN(ModèleMag_r)
MAXIMUM MaximumMAX(ModèleMag_r)

De plus, les fonctions mathématiques et trigonométriques habituelles sont disponibles en SQL, telles que COS, SIN, TAN, ACOS, etc.

Interrogation des indicateurs de bits

Plusieurs tables SDSS contiennent des indicateurs codés en bits pour indiquer divers types d'informations sur l'objet ou la quantité en question (par exemple, les tables PhotoTag et PhotoObjAll ont chacune le drapeaux champ, SpecObj a zAvertissement drapeaux, etc.). Cette section décrit comment vous pouvez tester les valeurs d'indicateur dans votre requête. Pour des exemples de requêtes illustrant l'utilisation d'indicateurs, consultez les exemples de requêtes Erreurs à l'aide d'indicateurs, Galaxies elliptiques avec ajustements de modèle, Échantillon limité de diamètre, Échantillon LRG et Photométrie propre avec indicateurs pour obtenir des exemples d'utilisation des indicateurs.

Vérification d'un seul drapeau

Pour renvoyer les lignes pour lesquelles l'indicateur est défini, la syntaxe de base de la contrainte est : (drapeau-colonne & masque de bits) > 0
et pour renvoyer les lignes pour lesquelles l'indicateur n'est pas défini : (drapeau-colonne & masque de bits) = 0
masque de bits est la valeur binaire dans laquelle le bit correspondant au drapeau est 1 et tous les autres bits sont 0. Vous pouvez utiliser les fonctions de drapeau fournies par le SkyServer (listées dans le navigateur de schéma) pour obtenir le masque de bits pour un drapeau donné, mais si vous êtes scannant une grande fraction d'une grande table comme PhotoObj, il vaut mieux ne pas faire d'appel de fonction pour chaque ligne, et dans ce cas, vous devez d'abord obtenir la valeur binaire réelle du masque de bits et la remplacer à la place. Ceci est décrit dans la sous-section Utilisation des fonctions dbo de votre requête de la section Optimisation des requêtes ci-dessous.

Par exemple, pour sélectionner des objets pour lesquels l'indicateur BLENDED est défini dans PhotoTag, vous utiliserez une requête telle que :

et pour sélectionner uniquement les objets pour lesquels le drapeau n'est PAS défini, utilisez

Vérification de plusieurs drapeaux

Pour sélectionner des objets pour lesquels tout de plusieurs drapeaux sont définis, générez le masque de bits combiné en ajoutant les masques de bits de drapeau individuels, puis comparez le résultat de l'opération AND du masque de bits combiné avec la colonne de drapeau avec le masque de bits combiné lui-même, par exemple,

Pour sélectionner des objets pour lesquels au moins un de plusieurs drapeaux est défini, il vous suffit de vérifier que l'opération AND du masque de bits combiné avec la colonne drapeau renvoie un résultat différent de zéro, par exemple,

Pour sélectionner des objets pour lesquels rien de plusieurs drapeaux est défini, le résultat de l'opération AND de la colonne drapeau avec le masque binaire combiné doit être 0, par exemple,

Photométrie propre

Le pipeline photo SDSS définit un certain nombre d'indicateurs qui indiquent la qualité de la photométrie pour un objet donné dans le catalogue. Si vous désirez des objets avec uniquement une photométrie propre pour la science, vous devez savoir que vous devez filtrer vous-même les objets indésirables dans votre requête. Cela ne se fait pas automatiquement pour vous (par exemple avec une vue de la table PhotoObjAll). La raison principale est que les contraintes de drapeau requises pour ce filtrage imposent souvent une pénalité de performances significative à votre requête, et peuvent même invoquer le bogue de recherche de signet.

Veuillez consulter l'exemple de requête Clean Photometry pour obtenir de l'aide sur l'utilisation des indicateurs de photométrie pour sélectionner uniquement les objets avec une photométrie propre.

Exclure les valeurs de données non valides

  • La valeur d'une quantité qui n'a pas été calculée est fixée à -9999.
  • La valeur d'une erreur qui n'a pas été calculée est définie sur -1000.

Jointures : interrogation avec plusieurs tables

Vous pouvez souhaiter obtenir des quantités à partir de plusieurs tables ou imposer des contraintes sur les quantités dans une table tout en obtenant des mesures à partir d'une autre. Par exemple, vous pouvez vouloir des magnitudes (de PhotoObj) de tous les objets identifiés par spectroscopie (SpecObj) comme des galaxies. Pour effectuer ces types de requêtes, vous devez utiliser un rejoindre. Vous pouvez joindre deux (ou plusieurs) tables dans les bases de données tant qu'elles ont une certaine quantité en commun (généralement un objet ou un ID de champ). Pour effectuer réellement la jointure, vous devez avoir une contrainte dans la clause WHERE de votre requête forçant la quantité commune à être égale dans les deux tables. Voici un exemple, obtenant les magnitudes g pour les étoiles dans les champs où l'ajustement PSF a bien fonctionné :

Remarquez comment nous définissons les abréviations pour les noms de table dans la clause FROM, ce n'est pas nécessaire mais permet de taper beaucoup moins. De plus, vous n'avez pas à demander le retour des quantités de toutes les tables. Toi doit spécifiez toutes les tables sur lesquelles vous placez des contraintes (y compris la jointure) dans la clause FROM, mais vous pouvez utiliser n'importe quel sous-ensemble de ces tables dans le SELECT. Si vous utilisez plus de deux tables, il n'est pas nécessaire qu'elles soient toutes jointes sur la même quantité. Par exemple, cette jointure à trois voies est parfaitement acceptable :

Les types de jointures indiqués ci-dessus sont appelés jointures internes. Dans les exemples ci-dessus, nous ne retournons que les objets qui correspondent entre les multiples tables. Si nous voulons inclure toutes les lignes de l'une des tables, qu'elles correspondent ou non à une autre table, nous devons effectuer une jointure externe. Un exemple consiste à obtenir des données photométriques pour tous les objets, tout en obtenant les données spectroscopiques pour les objets soumis à la spectroscopie.

Dans l'exemple ci-dessous, nous effectuons un jointure externe gauche, ce qui signifie que nous obtiendrons toutes les entrées (indépendamment de la correspondance) de la table sur le côté gauche de la jointure. Dans l'exemple ci-dessous, la jointure est activée P.objID = s.BestObjID par conséquent, nous obtiendrons tous les objets photométriques (P), avec les données de la spectroscopie si elles existent. S'il n'y a pas de données spectroscopiques pour un objet, nous obtiendrons toujours les mesures photométriques mais nous aurons des valeurs nulles pour la cpectroscopie correspondante.

Vous pouvez joindre plusieurs tables, tant que chaque paire que vous joignez a une quantité en commun, toutes les tables n'ont pas besoin d'être jointes sur la même quantité. Par example:

Notez comment le Field et PhotoObj sont joints sur le ID de champ, tandis que la jointure entre le champ et le segment utilise ID de segment.

Manipulation de la sortie de requête

SQL fournit un certain nombre de façons de réorganiser, de regrouper ou d'organiser autrement la sortie de vos requêtes. Certaines de ces options sont :

    compter: Dites-moi simplement combien d'objets seraient renvoyés par ma requête. Exemple:

Vous pouvez l'utiliser pour compter combien de chaque type d'objet est chargé en tant qu'objets photométriques principaux, par exemple :

Optimisation des requêtes

Il est facile de construire des requêtes très complexes dont l'exécution peut prendre beaucoup de temps. Lors de l'écriture de requêtes, on peut souvent les réécrire pour qu'elles s'exécutent plus rapidement. C'est ce qu'on appelle l'optimisation.

La première astuce d'optimisation, et la plus triviale, consiste à utiliser le minimum Tableau ou alors Vue pour votre requête. Par exemple, si vous ne vous souciez que des galaxies, utilisez le Galaxie view dans votre clause FROM, au lieu de PhotoObj. Nous avons également créé une version 'miniature' de PhotoObjAll, appelée PhotoTag. Cette miniature contient tous les objets de PhotoObjAll, mais seulement un sous-ensemble des quantités mesurées. L'utilisation de la table PhotoTag pour accélérer la requête n'a de sens que si vous ne voulez PAS de paramètres qui ne sont disponibles que dans le PhotoObjAll complet.

Il est extrêmement utile de réfléchir à la façon dont une base de données gère les requêtes, plutôt que d'essayer d'écrire une liste simple et séquentielle de contraintes. Toutes les requêtes syntaxiquement correctes ne seront PAS nécessairement efficaces, l'optimiseur de requêtes intégré n'est pas parfait ! Ainsi, écrire des requêtes telles qu'elles utilisent les astuces ci-dessous peut produire des améliorations de vitesse significatives.

Voici un exemple frappant de l'importance de l'optimisation :
Trouvez les positions et les magnitudes des objets photométriques qui ont été ciblés pour la spectroscopie en tant que QSO possibles.

Le premier réflexe d'un utilisateur serait d'obtenir les objets souhaités à partir de la table PhotoObj dans la base de données TARGDR4 (qui contient les informations, y compris les décisions de ciblage, pour les objets quand ils ont été ciblés (choisis) pour la spectroscopie). Ainsi, cette requête pourrait ressembler à :

C'est très simple - tout ce que vous faites est de vérifier si la cible principale signale (cible principale) sont définis pour les deux types de cibles QSO. Cette requête peut prendre des heures, car une analyse séquentielle de chaque objet de la base de données photométrique est requise !

Un changement rapide qui fait la différence est de simplifier la clause WHERE, de se débarrasser de la ou alors, en masquant tout sauf les bits 2,4, et en vérifiant si le résultat n'est pas nul. Cela modifie la clause WHERE en :

Cela aide un peu, mais pas beaucoup - nous numérisons toujours l'intégralité de la table PhotoObj. Nous pouvons grandement améliorer notre vie en réalisant que les développeurs de bases de données ont anticipé que les gens seraient intéressés par le ciblage des informations et ont créé un tableau plus petit. CibleInfo, cela contient seul les Cibleobjets ted, qui est un petit sous-ensemble de l'ensemble de la base de données photométrique ! En utilisant cette table, nous pouvons réécrire notre requête comme (nous avons également besoin d'une jointure avec la table cible) :

Notez comment la majeure partie de la clause WHERE est exécutée en utilisant le Informations sur la cible table, l'optimiseur SQL reconnaît immédiatement que cette table est beaucoup plus petite que PhotoObj et effectue cette partie de la recherche en premier. La requête s'exécute maintenant dans environ une minute ou deux. C'est deux ordres de grandeur d'amélioration par rapport à la méthode initiale !.

Enfin, on peut reconnaître que toutes les quantités d'intérêt sont également dans la table PhotoTag, qui contient tous les objets de PhotoObjAll, mais pas toutes les quantités mesurées. La requête sera :

Cela s'exécute en 18 secondes et renvoie les mêmes 32931 lignes. Un autre facteur de deux en vitesse! Notez que PhotoTag ne contient pas le je magnitude, et nous devons utiliser ModelMag_i à la place.

Une autre des manières les plus simples d'accélérer les requêtes est d'abord d'effectuer une requête en utilisant uniquement des quantités indexées, puis de sélectionner ces paramètres dans le sous-ensemble d'objets renvoyé. Une quantité indexée est une quantité pour laquelle une table de consultation a été effectivement calculée, de sorte que le logiciel de base de données n'a pas à effectuer une recherche séquentielle fastidieuse dans tous les objets de la table. Par exemple, les coordonnées du ciel cx,cy,cz sont indexées à l'aide d'un maillage triangulaire hiérarchique (HTM). Ainsi, vous pouvez accélérer une requête en la réécrivant de manière à ce qu'elle soit imbriquée. La requête interne saisit la ligne entière pour les objets d'intérêt en fonction des quantités indexées, tandis que la requête externe obtient ensuite les quantités spécifiques souhaitées.

L'utilisation de Views est pratique, mais .
  • Puisqu'une vue n'est qu'un sous-ensemble virtuel d'une table, chaque requête sur une vue est en fait une requête sur la table sous-jacente. Cela signifie, par exemple, lorsque vous effectuez une requête sur le Star vue de la table PhotoObjAll, la requête scanne toujours la table PhotoObjAll ou ses index. Il n'y a pas d'entrée physique persistante dans la base de données correspondant à la vue en étoile autre que sa définition. En d'autres termes, il n'y a aucun avantage en termes de performances à utiliser une vue, c'est seulement une commodité conceptuelle.
  • Les conseils de table sont ignorés si vous utilisez une vue au lieu du nom de la table dans la clause FROM. Les indices peuvent être inclus à l'aide de la syntaxe "AVEC (<hintname>[=<value>])". Par exemple, si vous dites "SELECT . FROM Galaxy WITH (nolock)", l'indice nolock est ignoré. Ceci est particulièrement important pour l'indice INDEX, que vous devrez utiliser pour éviter le problème de recherche de signet décrit ci-dessous.
  • Pour les vues de la table PhotoObjAll, comme décrit ci-dessous, il peut être préférable d'utiliser la table PhotoTag à la place si la requête couvre une grande partie de la table (des millions de lignes de résultats).
Utilisation des vues de la table PhotoObjAll vs PhotoTag
  • La table phototag plus fine est considérablement plus rapide à parcourir car plus de lignes peuvent être chargées dans le cache à la fois par rapport à la table photoobjall beaucoup plus large (rappelez-vous que les vues photoobjall restreignent le nombre de lignes sélectionnées dans la table mais pas les colonnes).
  • Si vous accédez à des colonnes non indexées dans votre clause WHERE, cela entraînera probablement une recherche de signet très inefficace en raison d'un bogue de l'optimiseur de serveur SQL. Dans ce cas, la solution de contournement vous obligera à désactiver l'utilisation des index et à effectuer une analyse complète de la table. C'est un indice à l'optimiseur qui est ignoré si vous utilisez une vue au lieu d'une table. En outre, la table phototag plus mince sera de toute façon beaucoup plus rapide à numériser que la table photoobjall.

Cette requête invoque le bogue de recherche de signet et prend plusieurs heures pour s'exécuter comme il est écrit ci-dessus, si le TOP 100 est supprimé. S'il est réécrit pour utiliser la table PhotoTag deux fois, au lieu de la vue Star et de la vue PhotoObj, alors il ne fait pas de recherche de signet et s'exécute en un peu plus de 2 heures sur DR2. Notez que les magnitudes abrégées u,g,r,i,z et les erreurs associées doivent être remplacées par les noms complets du modelMag puisque PhotoTag n'a pas les magnitudes abrégées.

Utilisation des fonctions dbo dans votre requête

Dans ce cas, il serait préférable de faire d'abord la pré-requête :

pour obtenir la valeur du masque de bits pour cet indicateur, puis réécrivez la requête ci-dessus comme :

Cela évitera l'appel de fonction inutilement répété pour chaque photobj de la table.

Performances et indices

Les performances ne sont généralement un problème que lorsque la table PhotoObjAll (et les vues associées) est impliquée dans une requête, soit directement, soit avec une jointure. Nous avons intégré certaines fonctionnalités pour améliorer les performances des requêtes sur cette table. Le premier et le plus efficace des améliorateurs de performances est l'index spatial Hierarchical Triangular Mesh (HTM) que nous avons développé à JHU et incorporé dans chacune des bases de données SDSS. Il s'agit d'un index multidimensionnel qui accélère les recherches par décomposition spatiale du ciel.

En plus du HTM, il existe plusieurs index construits dans la base de données sur les colonnes des différentes tables, y compris la clé primaire, la clé étrangère et d'autres index qui regroupent les colonnes fréquemment utilisées.
Cliquez ici pour afficher un tableau de tous les indices actuels définis sur les données.

PhotoTag est un sous-ensemble de 10 % de PhotoObjAll qui contient les 60 champs les plus « populaires ».

PhotoObj et PhotoTag sont tous deux indexés et ces indices sont chacun un sous-ensemble de 2% de PhotoObj.

Ce qui est bien avec les index, c'est qu'ils sont sélectionnés automatiquement pour vous et qu'ils s'exécutent 50 fois plus vite que la lecture de l'ensemble de la table PhotoObj et 5 fois plus vite que la lecture de la table PhotoTag.

La prochaine version du produit de base de données SQL Server nous permettra d'éliminer PhotoTag (ce sera un index sélectionné automatiquement). Mais pour l'instant, les connaisseurs devront l'utiliser s'ils le peuvent (si leur question est couverte par ces 10% des domaines les plus populaires).

Dans un monde idéal, vous n'auriez pas à connaître les indices. Malheureusement, nous ne vivons pas (encore) dans un monde idéal.

La stratégie de sélection de quelques objets (moins de 10 000) dans une certaine partie du ciel à l'aide de la fonction dbo.fGetObjFromRect() fonctionne très bien. Mais, lorsque le patch devient GRAND (plus de 10 000 objets), votre prédicat de limite ra-dec sera probablement plus efficace car il s'agira d'un balayage linéaire sur les données.

Les étoiles/Galaxy/PhotoPrimary/. Les vues bénéficient toutes des indices sur les tables de base. Vous devriez vous sentir libre de les utiliser.

Bogue de recherche de signet de l'optimiseur SQL

La table PhotoObjAll est de loin la plus grande table de la base de données, donc les requêtes sur cette table (et ses vues associées) sont les seules qui seront trop lentes dans certaines circonstances. Aux vitesses de disque actuelles (

400 Mo/s en pointe), cela devrait prendre environ 15 minutes pour faire une analyse séquentielle de l'ensemble de la table PhotoObjAll dans la base de données BESTDR1 (300+ Go), et environ 30 minutes pour BESTDR2..PhotoObjAll (700 Go), sur un serveur déchargé. Ainsi, même les requêtes qui analysent l'intégralité de la table photoobj devraient s'exécuter dans environ une demi-heure si elles ne demandent pas un très grand nombre de lignes (auquel cas il faut beaucoup de temps pour récupérer les résultats sur le réseau).

Parfois, les requêtes peuvent s'exécuter beaucoup plus lentement que la normale (5 à 10 fois plus lentes) si le serveur est chargé, vous devez donc toujours essayer une requête lente à plusieurs moments différents.

Si après avoir appliqué les conseils donnés ci-dessus et fait de votre mieux pour optimiser votre requête, vous constatez qu'il encore s'exécute très lentement (aucune sortie n'est renvoyée en plus d'une heure environ, ou votre requête expire), vous avez peut-être rencontré le redoutable bug de recherche de signet de l'optimiseur de requêtes SQL Server. Fondamentalement, cela signifie que l'optimiseur a choisi le mauvais plan pour exécuter la requête.

Bien qu'il n'existe aucun moyen fiable de prédire ce qui provoque l'invocation du bogue de signet, cela se produit généralement lorsqu'il existe plusieurs contraintes sur des quantités non indexées dans une table donnée. Par exemple, dans la requête

Si vous n'incluez qu'une des deux contraintes séparées par le "et", l'optimiseur choisira le bon plan, mais si vous incluez tous les deux, l'optimiseur fait une grosse gaffe et choisit de faire une recherche aléatoire de la table PhotoObj au lieu d'un balayage séquentiel. Il décide qu'il utilisera l'index de clé primaire photoobj et pour chaque entrée de l'index, il suivra le lien vers les données (le "signet") et trouvera les drapeaux et les champs rowv, colv de la page de données. Cela signifie un accès disque aléatoire pour chaque objet dans la table photoobj. Naturellement, ce sera atrocement lent car l'accès aléatoire est plusieurs fois plus lent que l'accès séquentiel dans les disques.

Si à la place l'optimiseur choisissait une analyse séquentielle de l'ensemble de la table photoobj, la requête pourrait être terminée en une demi-heure (en supposant que le serveur n'est pas mal chargé). Mais avec le plan choisi, cela prendra des heures voire des jours ! Si vous pensez que l'optimiseur choisit le mauvais plan, la solution consiste à forcer l'optimiseur à ignorer tous les indices définis sur cette table. Par exemple, vous réécririez la requête ci-dessus comme suit :

  1. Nous avons remplacé le PhotoObj vue avec le PhotoObjAll tableau. Ceci est nécessaire car les astuces comme index=0 ne fonctionnent que sur les tables et sont ignorées sur les vues. Cela signifie que nous devons inclure la contrainte de mode dans la clause WHERE pour restreindre notre recherche aux objets primaires et secondaires, ce qui a été fait automatiquement lorsque nous avons sélectionné la vue PhotoObj.
  2. Nous avons ajouté l'astuce "AVEC (index=0)" indiquant à l'optimiseur d'ignorer tous les index définis sur cette table (PhotoObjAll). Cela force un balayage séquentiel de la table et évite les nombreux accès aléatoires requis pour la recherche de signet d'index.
5 heures contre 5 minutes !

Voici un exemple qui illustre l'amélioration spectaculaire de la vitesse offerte par cette solution de contournement. Ce qui suit est une requête soumise par Jon Loveday du Centre d'astronomie de l'Université du Sussex au Royaume-Uni :

Cette requête prend cinq heures et demie pour s'exécuter sur la base de données DR2 et implique une recherche de signet sur un index phototag. Si vous insérez un indice (index=0) comme indiqué ci-dessous, il se termine en 5 minutes!


Je veux une base de données de comptage de galaxies, comment puis-je utiliser le skyserver SDSS pour récupérer des galaxies ? - Astronomie

SQL est le Sstructuré Query Llangue, un moyen standard de demander des données à partir de bases de données, et est utilisé pour interroger le serveur d'archives de catalogues (CAS). Cette page fournit un bref aperçu de SQL. Des exemples de requêtes sont également disponibles, avec des commentaires, ainsi qu'une page de liens vers une documentation hors site plus détaillée.

Principes de base de la base de données

Le CAS permet d'accéder aux données du catalogue SDSS-III qui sont stockées dans un système de gestion de base de données relationnelle (SGBD) pour l'intégrité des données et la vitesse d'accès. Les données sont organisées en tables dans une base de données relationnelle. Le SkyServer est le portail Web vers les bases de données CAS et vous permet de soumettre des requêtes SQL pour extraire les données dont vous avez besoin de ces bases de données. Cependant, vous n'avez généralement pas besoin de spécifier sur quelle base de données votre requête est exécutée, car le SkyServer est configuré par défaut pour soumettre vos requêtes à une base de données particulière. Ce site est configuré pour soumettre vos requêtes à la base de données BESTDR12, qui contient les meilleures données et les traitements les plus récents pour toute la zone du ciel publiée.

La base de données BESTDR12 contient un grand nombre de tableaux, dont certains contiennent des mesures photométriques (telles que PhotoObj), des mesures spectroscopiques (telles que SpecObj) ou des informations sur les conditions d'observation (Field) ou la géométrie de l'enquête (TileBoundary). Voir la page du modèle de données pour plus de détails.

En plus des tableaux, nous avons défini Vues, qui sont des sous-ensembles ou des combinaisons des données stockées dans les tables. Les vues sont interrogées de la même manière que les tables existent juste pour vous faciliter la vie. Par exemple, la vue Galaxie peut être utilisé pour obtenir des données photométriques sur des objets que nous classons comme galaxies, sans avoir à spécifier la classification dans votre requête.

Les interfaces Skyserver et CasJobs ont toutes deux un Navigateur de schéma. Il vous montre toutes les bases de données disponibles, les tables de chaque base de données et les quantités stockées dans chaque colonne des tables.

Enfin, nous avons créé une variété de les fonctions et procédures stockées qui vous permettent d'effectuer facilement certaines opérations courantes. Habituellement, leurs noms sont préfixés par F ou alors sp, comme dans fPhotoStatus ou alors spListeFibre. La liste complète des fonctions et des procédures de stockage se trouve dans le navigateur de schéma. Notez que certaines fonctions sont valeur scalaire, ce qui signifie qu'ils renvoient une seule valeur, tandis que d'autres (comme la valeur couramment utilisée dbo.fGetNearbyObjEq, sont table-valuée ils renvoient en fait une table de données, et non un seul nombre. Ceci est important lors de l'interprétation des données renvoyées et de l'exécution des jointures.

Veuillez noter la prudence concernant l'utilisation d'appels de fonction comme indiqué dans la section Optimisation des requêtes lorsque vous tentez des requêtes sur qui renvoient un grand nombre d'objets.

Principes de base des requêtes

Maintenant que nous avons une vue d'ensemble de la structure de la base de données, comment extrayons-nous réellement les données ? Vous devrez écrire une requête en utilisant SQL. La requête la plus basique se compose de trois parties :

  1. UNE SÉLECTIONNER clause, qui spécifie les paramètres que vous souhaitez récupérer
  2. UNE DE clause, qui spécifie les tables de base de données dont vous souhaitez extraire les données
  3. UNE clause, qui spécifie les limitations/prédicats que vous souhaitez placer sur les données extraites.

le La clause n'est pas nécessaire si vous souhaitez récupérer les paramètres de tous les objets d'une table spécifiée, mais ce sera généralement une quantité écrasante de données !

Notez que le langage de requête est insensible au fractionnement de la requête sur plusieurs lignes. C'est aussi ne pas sensible aux majuscules et minuscules. Pour rendre les requêtes plus lisibles, il est courant d'écrire les clauses de requête distinctes sur des lignes distinctes. le Exemples de requêtes sur la page CasJobs Query fournit une variété d'échantillons, classés par complexité. Par exemple, pour obtenir la liste des champs uniques qui ont été chargés dans la base de données, nous utilisons :

Vous pouvez simplement copier et coller cette requête (ou toute autre) dans la fenêtre de recherche SQL de SkyServer, et appuyez sur Soumettre, ou dans la fenêtre de requête CasJobs, et appuyez sur le bouton Soumettre.

Si nous voulons récupérer plusieurs paramètres de la base de données, nous les séparons par des virgules :

Bien entendu, les paramètres que vous demandez doivent être inclus dans la ou les tables que vous interrogez ! Maintenant, disons que nous voulons les magnitudes de toutes les galaxies brillantes. Nous devrons spécifier une plage de magnitude pour ce faire :

Ici, nous avons utilisé le clause pour fournir une plage d'amplitude. le et opérateur est utilisé pour exiger que plusieurs limites soient respectées. Cela nous amène à.

Opérateurs logiques et mathématiques simples

Non seulement pouvons-nous placer des limites sur des paramètres individuels, nous pouvons également placer des limites multiples à l'aide d'opérateurs logiques, ainsi que des limites sur les résultats d'opérations mathématiques sur plusieurs paramètres. Nous pouvons également récupérer des résultats qui sont des jointures logiques de plusieurs requêtes. Nous listons ici les opérateurs logiques, de comparaison et mathématiques.

Les opérateurs LOGIQUES sont ET,OU ALORS,NE PAS ils fonctionnent comme suit :

une b a ET b a ou B
VRAIVRAIVRAIVRAI
VRAIFAUXFAUXVRAI
VRAINULNULVRAI
FAUXFAUXFAUXFAUX
FAUXNULFAUXNUL
NULNULNULNUL

Lors de la comparaison des valeurs, vous utiliserez les opérateurs de COMPARAISON :

moins que > plus grand que <= inférieur ou égal à >= Plus grand ou égal à = égal <> ou != inégal

En plus des opérateurs de comparaison, les ENTRE construction est disponible.
une ENTRE X ET oui est équivalent à une >= X ET une <= oui

De même,
une PAS ENTRE X ET oui est équivalent à une oui

Enfin, les opérateurs MATHÉMATIQUES (à la fois numériques et au niveau du bit) sont :

1

NomLa descriptionExempleRésultat
+ Une addition2 + 35
- Soustraction2 - 3-1
* Multiplication2 * 36
/ Division 4 / 22
% Modulo (reste)5 % 41
PUISSANCE ExponentiationPUISSANCE (2.0,3.0)8.0
SQRT Racine carréeCARRÉ (25.0)5.0
abdos Valeur absolueABS (-5,0)5.0
& ET au niveau du bit91 & 15
01011011 & 00001111
11
00001011
| OU au niveau du bit32 | 3
00100000 | 00000011
35
00100011
^ XOR au niveau du bit17 # 5
00010001 # 00000101
20
00010100
-2
MOYENNE MoyenneAVG(ModèleMag_r)
MIN Le minimumMIN(ModèleMag_r)
MAXIMUM MaximumMAX(ModèleMag_r)
JOURNAL Un algorithme naturelLOG(petroMag_r)
LOG10 Logarithme en base 10LOG10(petroMag_r)
EXP Valeur exponentielle (e X )EXP (2.5)12.182494

De plus, les fonctions mathématiques et trigonométriques habituelles sont disponibles en SQL, telles que COS, SIN, TAN, ACOS, etc.

Interrogation des indicateurs de bits

Plusieurs tables SDSS contiennent des indicateurs codés en bits pour indiquer divers types d'informations sur l'objet ou la quantité en question (par exemple, la table PhotoObjAll et la vue PhotoTag ont chacune le drapeaux champ, SpecObj a zAvertissement drapeaux, etc.).

L'une des utilisations les plus importantes des indicateurs de bits est d'indiquer pourquoi un objet a été ciblé pour la spectroscopie. Une liste de drapeaux de cibles spectroscopiques est disponible sur la page Drapeaux de cibles spectroscopiques DR9.

Cette section décrit comment vous pouvez tester les valeurs d'indicateur dans votre requête. Pour des exemples de requêtes illustrant l'utilisation d'indicateurs, consultez les exemples de requêtes Erreurs à l'aide d'indicateurs, Galaxies elliptiques avec ajustements de modèle, Échantillon limité de diamètre, Échantillon LRG et Photométrie propre avec indicateurs pour obtenir des exemples d'utilisation des indicateurs.

Vérification d'un seul drapeau

Pour renvoyer les lignes pour lesquelles l'indicateur est défini, la syntaxe de base de la contrainte est : (drapeau-colonne & masque de bits) > 0
et pour renvoyer les lignes pour lesquelles l'indicateur n'est pas défini : (drapeau-colonne & masque de bits) = 0
masque de bits est la valeur binaire dans laquelle le bit correspondant au drapeau est 1 et tous les autres bits sont 0. Vous pouvez utiliser les fonctions de drapeau fournies par le SkyServer (listées dans le navigateur de schéma) pour obtenir le masque de bits pour un drapeau donné, mais si vous êtes scannant une grande fraction d'une grande table comme PhotoObj, il vaut mieux ne pas faire d'appel de fonction pour chaque ligne, et dans ce cas, vous devez d'abord obtenir la valeur binaire réelle du masque de bits et la remplacer à la place. Ceci est décrit dans la sous-section Utilisation des fonctions dbo de votre requête de la section Optimisation des requêtes ci-dessous.

Par exemple, pour sélectionner des objets pour lesquels l'indicateur BLENDED est défini dans PhotoTag, vous utiliserez une requête telle que :

et pour sélectionner uniquement les objets pour lesquels le drapeau n'est PAS défini, utilisez

Vérification de plusieurs drapeaux

Pour sélectionner des objets pour lesquels tout de plusieurs drapeaux sont définis, générez le masque de bits combiné en ajoutant les masques de bits de drapeau individuels, puis comparez le résultat de l'opération AND du masque de bits combiné avec la colonne de drapeau avec le masque de bits combiné lui-même, par exemple,

Pour sélectionner des objets pour lesquels au moins un de plusieurs drapeaux est défini, il vous suffit de vérifier que l'opération AND du masque de bits combiné avec la colonne drapeau renvoie un résultat différent de zéro, par exemple,

Pour sélectionner des objets pour lesquels rien de plusieurs drapeaux est défini, le résultat de l'opération AND de la colonne drapeau avec le masque binaire combiné doit être 0, par exemple,

Photométrie propre

Veuillez consulter l'exemple de requête Clean Photometry pour obtenir de l'aide sur l'utilisation des indicateurs de photométrie pour sélectionner uniquement les objets avec une photométrie propre.

Exclure les valeurs de données non valides

  • La valeur d'une quantité qui n'a pas été calculée est fixée à -9999.
  • La valeur d'une erreur qui n'a pas été calculée est définie sur -1000.

Modification de la précision de la sortie de la requête

Utilisez le STR(colonne,m,) Construction SQL (où m est le nombre total de chiffres et est le nombre de décimales) pour définir la précision de la colonne demandée par votre requête. Le SkyServer renvoie des valeurs avec une précision par défaut qui est définie pour chaque type de données, et cela peut ne pas être suffisant pour des colonnes comme ra, dec, etc. Voir les voisins sélectionnés en cours ou les exemples de requêtes Uniform Quasar Sample pour des exemples d'utilisation de STR .

Jointures : interrogation avec plusieurs tables

Vous pouvez souhaiter obtenir des quantités à partir de plusieurs tables ou imposer des contraintes sur les quantités dans une table tout en obtenant des mesures à partir d'une autre. Par exemple, vous pouvez vouloir des magnitudes (de PhotoObj) de tous les objets identifiés par spectroscopie (SpecObj) comme des galaxies. Pour effectuer ces types de requêtes, vous devez utiliser un rejoindre. Vous pouvez joindre deux (ou plusieurs) tables dans les bases de données tant qu'elles ont une certaine quantité en commun (généralement un objet ou un ID de champ). Pour effectuer réellement la jointure, vous devez avoir une sous-clause JOIN dans la clause FROM de votre requête qui spécifie que la quantité commune doit être égale dans les deux tables. Voici un exemple, obtenant les magnitudes g pour les étoiles dans les champs où l'ajustement PSF a bien fonctionné :

Remarquez comment nous définissons les abréviations pour les noms de table dans la clause FROM, ce n'est pas nécessaire mais permet de taper beaucoup moins. De plus, vous n'avez pas à demander le retour des quantités de toutes les tables. Toi doit spécifiez toutes les tables sur lesquelles vous placez des contraintes (y compris la jointure) dans la clause FROM, mais vous pouvez utiliser n'importe quel sous-ensemble de ces tables dans le SELECT. Si vous utilisez plus de deux tables, il n'est pas nécessaire qu'elles soient toutes jointes sur la même quantité. Par exemple, cette jointure à trois voies est parfaitement acceptable :

Les types de jointures indiqués ci-dessus sont appelés jointures internes. Dans les exemples ci-dessus, nous ne retournons que les objets qui correspondent entre les multiples tables. Si nous voulons inclure toutes les lignes de l'une des tables, qu'elles correspondent ou non à une autre table, nous devons effectuer une jointure externe. Un exemple consiste à obtenir des données photométriques pour tous les objets, tout en obtenant les données spectroscopiques pour les objets soumis à la spectroscopie.

Dans l'exemple ci-dessous, nous effectuons un jointure externe gauche, ce qui signifie que nous obtiendrons toutes les entrées (indépendamment de la correspondance) de la table sur le côté gauche de la jointure. Dans l'exemple ci-dessous, la jointure est activée P.objID = s.BestObjID par conséquent, nous obtiendrons tous les objets photométriques (P), avec les données de la spectroscopie si elles existent. S'il n'y a pas de données spectroscopiques pour un objet, nous obtiendrons toujours les mesures photométriques mais nous aurons des valeurs nulles pour la cpectroscopie correspondante.

Manipulation de la sortie de requête

SQL fournit un certain nombre de façons de réorganiser, de regrouper ou d'organiser autrement la sortie de vos requêtes.Certaines de ces options sont :

    compter: Dites-moi simplement combien d'objets seraient renvoyés par ma requête. Vous pouvez spécifier un nom de colonne comme argument de la fonction count ou simplement "*" pour signifier toutes les colonnes. Cela n'a pas vraiment d'importance (sauf si vous incluez un qualificateur DISTINCT, voir ci-dessous) car il comptera de toute façon toutes les lignes qui correspondent à votre requête. Exemple:

Ici, un COUNT renverrait des décomptes différents en fonction de la colonne que vous avez sélectionnée, par ex.

Vous pouvez l'utiliser pour compter combien de chaque type d'objet est chargé en tant qu'objets photométriques principaux, par exemple :

Optimisation des requêtes

Il est facile de construire des requêtes très complexes dont l'exécution peut prendre beaucoup de temps. Lors de l'écriture de requêtes, on peut souvent les réécrire pour qu'elles s'exécutent plus rapidement. C'est ce qu'on appelle l'optimisation.

La première astuce d'optimisation, et la plus triviale, consiste à utiliser le minimum Tableau ou alors Vue pour votre requête. Par exemple, si vous ne vous souciez que des galaxies, utilisez le Galaxie view dans votre clause FROM, au lieu de PhotoObj. Nous avons également créé une version « légère » de PhotoObjAll, appelée PhotoTag. Ce sous-ensemble vertical contient tous les objets de PhotoObjAll, mais seulement un sous-ensemble des quantités mesurées. L'utilisation de la vue PhotoTag pour accélérer la requête n'a de sens que si vous ne voulez PAS de paramètres qui ne sont disponibles que dans le PhotoObjAll complet.

Il est extrêmement utile de réfléchir à la façon dont une base de données gère les requêtes, plutôt que d'essayer d'écrire une liste simple et séquentielle de contraintes. Toutes les requêtes syntaxiquement correctes ne seront PAS nécessairement efficaces, l'optimiseur de requêtes intégré n'est pas parfait ! Ainsi, écrire des requêtes telles qu'elles utilisent les astuces ci-dessous peut produire des améliorations de vitesse significatives.

Utiliser des index dans votre requête

  1. Indices de clé primaire (PK) - on les appelle aussi groupé index car les données sont physiquement organisées (en cluster) sur le disque dans l'ordre croissant de cette clé. Chaque table a exactement un index clusterisé ou PK, construit sur sa clé de recherche primaire. Pour la plupart des tableaux de données photométriques, c'est le ID obj colonne, et pour la plupart des tableaux de données spectroscopiques, c'est la specObjID colonne.
  2. Indices de clé étrangère (FK) - ce sont des indices construits sur des colonnes qui définissent une relation avec d'autres tables, par ex. objID dans la table SpecObjAll est une clé étrangère sur la table PhotoObjAll. Avoir des index FK permet d'accélérer les requêtes qui incluent un JOIN entre la table SpecObjAll (et ses vues associées) et la table PhotoObjAll (et ses vues).
  3. Indices de couverture - il s'agit d'indices créés sur des (groupes de) colonnes fréquemment utilisées (ensemble). Ainsi, ils "couvrent" l'espace de recherche défini par ces colonnes. Ils peuvent être uniques ou non uniques (autoriser les doublons).

Si vous devez rechercher sur des colonnes non indexées en plus de celles indexées, vous pouvez toujours bénéficier en effectuant d'abord une requête en utilisant uniquement les quantités indexées, puis en sélectionnant ces paramètres dans le sous-ensemble d'objets renvoyé. Une quantité indexée est une quantité pour laquelle une table de consultation a été effectivement calculée, de sorte que le logiciel de base de données n'a pas à effectuer une recherche séquentielle fastidieuse dans tous les objets de la table. Par exemple, les coordonnées du ciel cx,cy,cz sont indexées à l'aide d'un maillage triangulaire hiérarchique (HTM). Ainsi, vous pouvez accélérer une requête en la réécrivant de manière à ce qu'elle soit imbriquée. La requête interne saisit la ligne entière pour les objets d'intérêt en fonction des quantités indexées, tandis que la requête externe obtient ensuite les quantités spécifiques souhaitées.

Utilisation des fonctions dbo dans votre requête

Dans ce cas, il serait préférable de faire d'abord la pré-requête :

pour obtenir la valeur du masque de bits pour cet indicateur, puis réécrivez la requête ci-dessus comme :

Cela évitera l'appel de fonction inutilement répété pour chaque photobj de la table.


Astrométrie

Une description détaillée de l'étalonnage astrométrique est donnée dans Pier et al. (2003) (AJ, ou astro-ph/0211375). Des parties de cette discussion sont résumées ici et sur la page de présentation de la qualité de l'astrométrie.

  1. Dans la mesure du possible, les étoiles détectées sur les r CCD sont directement mises en correspondance avec les étoiles du catalogue d'astrographes CCD de l'Observatoire naval des États-Unis (UCAC, Zacharias et al. 2000), un catalogue astrométrique (éventuellement) couvrant tout le ciel avec une précision de 70 mas à son limite catalogue de R = 16, et erreurs systématiques inférieures à 30 mas. Il y a environ 2 à 3 magnitudes de superposition entre l'UCAC et les étoiles non saturées sur les r CCD. Les CCD astrométriques ne sont pas utilisés. Pour DR1, les bandes 9-12, 82 et 86 utilisaient UCAC.
  2. Si un scan n'est pas couvert par la version actuelle de l'UCAC, alors il est réduit par rapport à Tycho-2 (Hog et al. 2000), un catalogue astrométrique tout ciel avec une précision médiane de 70 mas à sa limite de catalogue de VT = 11,5, et des erreurs systématiques inférieures à 1 mas. Toutes les étoiles Tycho-2 sont saturées sur les CCD r, mais il y a environ 3,5 magnitudes de chevauchement entre les étoiles insaturées brillantes sur les CCD astrométriques et l'extrémité faible de Tycho-2 (8 images utilise les étalonnages astrométriques pour faire correspondre les détections du même objet observés dans les quatre autres filtres. La précision de l'astrométrie relative entre les filtres peut ainsi avoir un impact significatif sur les Frames, en particulier la dissociation des objets superposés, la photométrie basée sur la même ouverture dans différents filtres, et la détection d'objets en mouvement. Afin de minimiser les erreurs de l'astrométrie relative entre les filtres, les CCD u, g, i et z sont calibrés par rapport aux r CCD.

Chaque balayage de dérive est traité séparément. Les six colonnes de caméra sont traitées en une seule réduction. En bref, les étoiles détectées sur les CCD r si calibrées contre UCAC, ou les étoiles détectées sur les CCD astrométriques transformées en coordonnées r si calibrées contre Tycho-2, sont appariées aux étoiles du catalogue. Les transformations des coordonnées de pixel r aux coordonnées célestes de la position moyenne du catalogue (CMP) sont dérivées à l'aide d'un ajustement des moindres carrés de la moyenne courante à un modèle de plan focal, en utilisant les six CCD r ensemble pour résoudre à la fois le suivi du télescope et la focale des CCD r des décalages de plans, des rotations et des échelles, combinés à des ajustements spline de lissage aux résidus intermédiaires. Ces transformations, comprenant les étalonnages des r CCD, sont ensuite appliquées aux étoiles détectées sur les r CCD, les convertissant en coordonnées CMP et créant un catalogue d'étalons astrométriques secondaires. Les étoiles détectées sur les CCD u, g, i et z sont ensuite mises en correspondance avec ce catalogue secondaire, et une procédure d'ajustement similaire (chaque CCD est ajusté séparément) est utilisée pour dériver les transformations des coordonnées des pixels pour les autres CCD photométriques en CMP céleste. coordonnées, comprenant les étalonnages des capteurs CCD u, g, i et z.


Exemple 4 : Photométrie connectée aux centres de plaques SDSS et SEGUE

Il est souvent souhaitable de sélectionner des étoiles dans une zone du ciel où toutes les étoiles n'ont pas de spectre. La photométrie ugriz à elle seule pour un échantillon profond d'étoiles est souvent suffisante pour faire une science significative de la structure galactique. De plus, il est souvent souhaitable de déterminer la « fonction de sélection » d'un ensemble de spectres déterminé avec un algorithme de sélection de cible éventuellement peu connu. Pour cette raison, on souhaite souvent sélectionner l'imagerie d'une zone du ciel où l'on a des spectres, y compris des objets pour lesquels aucun spectre n'existe dans la même partie du ciel.

Tous les spectres résident dans la base de données CAS specobjall, y compris les spectres d'empreinte de l'enquête principale SDSS et les spectres SEGUE (ainsi que d'autres spectres assortis).

En raison de la difficulté de traitement et d'interprétation de l'imagerie de champ stellaire très rouge à basse latitude et surpeuplée avec le pipeline photo SDSS standard (conçu pour la photométrie galactique dans des champs peu fréquentés), l'imagerie SEGUE pour DR7 a été un numéro de réexécution spécial (648)

Afin de faire correspondre un spectre SEGUE avec ses informations photométriques complètes (c'est-à-dire des champs au-delà de ceux de la table sppParams, ce qui est souvent mais pas toujours suffisant), il suffit de joindre la table DR7 sppParams avec la table specobjall avec la table photoobjall en utilisant le bestobjid dans la table specobjall à joindre à l'objid dans la table photoobjall, que la table sppParams et la table specobjall joignent sur specobjid.

Ainsi, pour faire correspondre un spectre SEGUE de la table specobjall avec ses informations photométriques correspondantes, il faut faire cette requête :

Pour rechercher des informations d'imagerie autour d'un (ra,dec) donné :

Cette requête renvoie un grand nombre (54 301) d'objets et vous devrez peut-être la « Soumettre » plutôt que de l'exécuter en tant que requête « rapide » (dans casjobs). Une fois que vous avez téléchargé la sortie, vous pouvez encore sous-sélectionner pour n'obtenir que des objets à moins de 1,49 degrés de (ra,dec) = (358,26,36,4) et vous pouvez ajouter des coupes sur la couleur ou la magnitude, par exemple, jeter des objets plus faibles que 20,5 , qui est la limite faible de l'échantillon spectroscopique. Ensuite, si vous examinez, par exemple, la complétude spectroscopique de l'échantillon sous-nain F, vous pouvez en outre sélectionner des objets avec (gr)_0 entre 0,1 et 0,4 et comparer la densité des objets photométriques en fonction de la magnitude avec l'échantillon spectroscopique de F étoiles sur les planches 1880 et 1881. De cette façon, on peut obtenir des informations photométriques pour toutes les planches SEGUE. Et dériver des fonctions de sélection empiriques basées sur la photométrie avec les mêmes coupes de couleur que la spectroscopie.


Les bases de données

Conception logique de base de données

Les données traitées sont stockées dans des bases de données. La conception logique de la base de données se compose d'objets photographiques et spectrographiques. Ils sont organisés en une paire de schémas en flocon de neige. Les vues de sous-ensembles et de nombreux indices donnent un accès pratique aux sous-ensembles conventionnels (tels que les étoiles et les galaxies). Des procédures et des indices sont définis pour rendre les recherches spatiales pratiques et rapides.

Le diagramme de base de données pour les bases de données SDSS DR1

Étant donné que le logiciel de traitement des données a subi des changements substantiels depuis le début de l'enquête, nous stockons deux versions différentes de nos images traitées. Dans un premier temps, nous stockons la version des données traitées figée au moment où les cibles pour les observations spectroscopiques ont été sélectionnées. Cette base de données est appelée TARGDR1, où DR1 désigne le numéro de version : Data Release 1.

Lorsque les données ont été traitées avec la meilleure version disponible du logiciel, ces objets sont stockés dans la base de données BESTDR1. Le schéma des deux bases de données est identique et de nombreux objets apparaissent dans les deux, mais en raison d'une meilleure gestion du bruit, le nombre d'objets dans BESTDR1 est un peu plus élevé.

Conception physique de la base de données

SkyServer a initialement adopté une approche simple de la conception de bases de données - et depuis que cela a fonctionné, nous nous sommes arrêtés là. La conception compte sur le moteur de stockage SQL et l'optimiseur de requêtes pour prendre toutes les décisions intelligentes concernant la disposition des données et l'accès aux données.

La quantité totale de données dans les deux bases de données est de 818 Go et le nombre total de lignes dépasse 3,4 milliards.

Les tables de données sont toutes créées dans plusieurs groupes de fichiers. Les fichiers de base de données sont répartis sur un seul volume RAID0. Chaque groupe de fichiers contient plusieurs fichiers de base de données limités à environ 50 Go chacun. Les fichiers journaux et la base de données temporaire sont également répartis sur ces disques. SQL Server répartit les tables sur tous ces fichiers et donc sur tous ces disques. Il détecte l'accès séquentiel, crée les threads de prélecture parallèles et utilise plusieurs processeurs pour analyser les données aussi rapidement que les disques peuvent les produire. Lors de la lecture ou de l'écriture, cela donne automatiquement la somme des bandes passantes du disque (plus de 400 Mbps en crête, 180 Mbps en général) sans aucune programmation utilisateur spéciale.

Au-delà de cette segmentation de groupe de fichiers, SkyServer utilise toutes les valeurs par défaut de SQL Server. Il n'y a pas de réglage particulier. C'est la marque de fabrique de SQL Server - le système vise à n'avoir "pas de boutons" afin que les performances prêtes à l'emploi soient assez bonnes. Le SkyServer est un témoignage de cet objectif.

SkyServer personnel

Un sous-ensemble de 1 % de la base de données SkyServer (environ 1,3 Go de base de données SQL Server) peut tenir (compressé) sur un CD ou être téléchargé sur le Web. Cela inclut le site Web et tous les objets photo et spectrographiques dans un carré de 6° du ciel. Ce SkyServer personnel s'adapte aux ordinateurs portables et de bureau. Il est utile pour expérimenter des requêtes, pour développer le site Web et pour faire des démonstrations. Essentiellement, n'importe quelle salle de classe peut avoir un mini-SkyServer par élève. Avec les améliorations de la technologie des disques, une grande partie des données publiques tiendra sur un seul disque d'ici 2005.


L'enquête sur le ciel numérique de Sloan. Du Big Data à la Big Database en passant par le Big Compute. Institut polytechnique Heidi Newberg Rensselaer

Q11 : Trouvez toutes les galaxies elliptiques avec des spectres qui ont une raie d'émission anormale.

Q12 : Créez un décompte quadrillé de galaxies avec u-g>1 et r<21.5 sur 60<declination<70, et 200<ascension droite<210, sur une grille de 2', et créez une carte de masques sur la même grille. Q13 : Créez un compte de galaxies pour chacun des triangles HTM

qui satisfont à une certaine coupe de couleur, comme 0.7u-0.5g-0.2i<1.25 && r<21.75, le produisent sous une forme adéquate pour la visualisation. Q14 : Trouver des étoiles avec plusieurs mesures et avoir une magnitude

variantes >0.1. Recherchez les étoiles qui ont un objet secondaire (observé à un moment différent) et comparez leurs magnitudes. Q15 : Fournissez une liste d'objets en mouvement correspondant à un astéroïde. Q16 : Trouvez tous les objets similaires aux couleurs d'un quasar à

Q17 : Trouvez des étoiles binaires dont au moins une a les couleurs d'une naine blanche.

Q18 : Trouvez tous les objets à moins de 30 secondes d'arc les uns des autres qui ont des couleurs très similaires : c'est là que les rapports de couleurs u-g, g-r, r-I sont inférieurs à 0,05 m.

Q19 : Trouvez des quasars avec une large raie d'absorption dans leur spectre et au moins une galaxie en moins de 10 secondes d'arc. Renvoyez à la fois les quasars et les galaxies.

Q20 : Pour chaque galaxie de l'ensemble de données BCG (galaxie de couleur la plus brillante), dans 160<right ascension<170, -25<declination<35 nombre de galaxies à moins de 30"de celle-ci qui ont une photoz à moins de 0,05 de cette galaxie.

Q1 : Trouvez toutes les galaxies sans pixels non saturés à moins de 1 ' d'un point donné de ra=75,327, déc=21,023

Q2 : Trouvez toutes les galaxies avec une luminosité de surface bleue comprise entre 23 et 25 mag par seconde d'arc carré, et -10<superlatitude galactique (sgb) <10, et une déclinaison inférieure à zéro.

Q3 : Trouvez toutes les galaxies plus brillantes que la magnitude 22, où l'extinction locale est de >0,75.

Q4 : Trouvez des galaxies avec une luminosité de surface isophote (SB) supérieure à 24 dans la bande rouge, avec une ellipticité >0,5, et avec le grand axe de l'ellipse ayant une déclinaison comprise entre 30" et 60" secondes d'arc.

Q5 : Trouver toutes les galaxies avec un profil de deVaucouleours (r chute d'intensité sur disque) et les couleurs photométriques cohérentes avec une galaxie elliptique. Le profil de Vaucouleours

Q6 : Trouvez les galaxies qui sont mélangées avec une étoile, affichez les magnitudes des galaxies déblayées.

Q7 : Fournissez une liste d'objets semblables à des étoiles qui sont rares à 1 %. Q8 : Trouvez tous les objets avec des spectres non classés.

Q9 : Trouvez des quasars avec une largeur de ligne >2000 km/s et 2,5<redshift<2,7.

Q10 : Trouvez des galaxies dont les spectres ont une largeur équivalente en Ha >40Å (Ha est la principale raie spectrale de l'hydrogène.)


Galaxy Color – Concevez et menez votre propre enquête

Prend en charge PE HS-ESS1-2 : Place de la Terre dans l'Univers
Prend en charge DCI ESS1.A : l'univers et ses étoiles, propriétés d'onde PS4.A, PS4.B : rayonnement électromagnétique
S'engage dans SEP 1 : Poser des questions, 3 : Planifier et mener des enquêtes, 4 : Analyser et interpréter des données, 5 : Utiliser les mathématiques et la pensée informatique, 6 : Construire des explications, 7 : S'engager dans l'argumentation à partir de preuves et CCC 1 : Modèles, 6 :La structure et la fonction
Le mouvement et la composition des étoiles et des galaxies fournissent des preuves de la théorie du Big Bang.

Vous êtes prêt à concevoir votre propre enquête lorsque vous avez fait une observation de la couleur de la galaxie par rapport à la forme. Votre expédition peut commencer par la simple question suivante : « Mon observation est-elle vraie ? » Par exemple, l'observation initiale que la plupart des galaxies de type Sb sont ___ (couleur) met en place une enquête pour trouver plus de galaxies de type Sb et compter combien correspondent votre observation.

Commençons. Commencez par le travail que vous avez effectué en ajoutant de la couleur au diagramme de Hubble et poursuivez les étapes décrites ci-dessous. Les instructions qui vous guident tout au long du processus d'investigation de la recherche apparaissent ci-dessous et les journaux des étudiants (liens ci-dessus) fournissent des conseils pour les appliquer à votre propre travail.

1 – Une bonne question

Vous avez déjà fait des observations sur les phénomènes de couleurs des galaxies et formulé quelques questions sur ce que vous avez observé. C'est ici que commencent les recherches scientifiques. Les bonnes questions conduisent à des enquêtes qui aident les scientifiques à développer des modèles, des explications et des théories, mais pour ce faire, les questions doivent pouvoir être répondues et être empiriques.

Répondant – Des questions auparavant sans réponse telles que “À quelle distance se trouve la galaxie la plus proche ?” deviennent des réponses grâce aux améliorations technologiques. Souvent, les grandes questions telles que « Qu'est-ce que la matière noire ? » sont-elles répondues par un ensemble de connaissances qui se développe au fil des décennies de questions ciblées. Votre question doit être suffisamment ciblée pour pouvoir être répondue avec les données et les outils disponibles.

Empirique – Les questions scientifiques qui mènent à des enquêtes et à des expériences peuvent être explorées à l'aide de preuves mesurables et reproductibles. Une théorie peut être logique et largement acceptée, mais tant qu'elle ne peut être étudiée à l'aide de mesures reproductibles, elle n'est pas empirique. Les mesures peuvent être aussi simples qu'un comptage ou nécessiter un équipement complexe tel qu'un spectrographe. Une mesure qui est calculée à l'aide d'autres mesures est valable tant que la méthode est convenue. Par exemple, une moyenne mathématique est un calcul bien établi et accepté.

2 – Connaissez votre sujet, Connaissez vos données

En règle générale, les chercheurs passent beaucoup de temps à se familiariser avec le sujet qu'ils étudient. L'objectif de la recherche de base est de connaître le sujet de fond en comble avant de concevoir les méthodes de l'expérience. Bien que nous raccourcissions ce processus dans Expedition – Galaxy Colors, nous devons réfléchir à ce que nous savons déjà sur notre sujet et identifier clairement les données nécessaires à notre enquête.

Tous les participants à cette expédition posent une question liée à la forme et à la couleur de la galaxie. Commencez par enregistrer ce que vous savez sur le concept de couleur en astronomie et sur les formes des galaxies. Votre instructeur peut vous demander de consulter des ressources externes. Il est important de discuter de cette étape avec d'autres pour découvrir les erreurs et rappeler les informations.

Ensuite, réfléchissez à la question que vous avez écrite et énumérez les données dont vous avez besoin pour répondre à cette question. Découvrez où se trouvent ces données. De plus, identifiez le type de données que vous collectez. Si vous prenez une mesure directement ou enregistrez une mesure qui a été enregistrée dans SkyServer, vous utilisez des données quantitatives. Si les données sont des descriptions d'une caractéristique pour laquelle il n'y a pas de mesure numérique, les données sont qualitatives .

3 – Écrire une hypothèse et identifier les variables

Vous devez avoir suffisamment confiance en vos connaissances de base et vos observations précédentes pour former une réponse possible à votre question de recherche.Si votre réponse est plausible et peut être testée à l'aide de données et de procédures pouvant être répétées par d'autres, alors vous avez une hypothèse.

Dans le cas de cette expédition, il est fort probable que vous écriviez une hypothèse qui prédit un lien entre deux variables, la forme et la couleur de la galaxie. Une variable est une caractéristique ou une caractéristique d'une expérience qui change. Traditionnellement, nous considérons une variable comme étant modifiée ou manipulée par le chercheur en tant que variable indépendante, et toute autre caractéristique mesurée afin d'évaluer une réponse en tant que variable dépendante.

Pour l'enquête de type que nous effectuons ici, il n'y a rien que l'astronome puisse faire pour changer les étoiles ou les galaxies qu'elle observe. Bien que la modélisation informatique puisse être utilisée pour simuler des phénomènes et mener des enquêtes qui identifient des variables indépendantes et dépendantes, ce n'est pas le cas lorsque l'on travaille avec des informations provenant d'une grande base de données. Nous sommes cependant en mesure de prédire une relation entre deux mesures. Nous appellerons collectivement ces caractéristiques des variables.

Votre projet d'hypothèse doit faire référence à toutes les variables que vous prévoyez de mesurer et de faire une prédiction. Votre hypothèse est susceptible de suivre l'un de ces exemples :

• Si la couleur de la galaxie est liée à la forme de la galaxie, alors ____(faites une prédiction)_____.

• Plus de ___(pourcentage ou mesure numérique)____ des galaxies classées comme___(Type de galaxie Hubble)___ sont ___(couleur)___.

• Plus une galaxie a de bras spiraux, _____(faites une prédiction)____.

4 – Décrivez vos procédures

N'oubliez pas que les bonnes enquêtes sont reproductibles. Non seulement vos mesures doivent être accessibles à d'autres scientifiques, mais les étapes que vous suivez pour acquérir et analyser vos données doivent être bien décrites. Dans cette section, rapportez :

• comment vous prévoyez de collecter des données

• comment allez-vous organiser et analyser les résultats (Allez-vous créer des graphiques ? Quelles statistiques ou calculs utiliserez-vous ?)

• les critères que vous utiliserez lorsque vous aurez terminé pour décider si votre hypothèse est appuyée par les données ou non

Le dernier point énuméré ci-dessus est peut-être le seul qui n'est pas évident. Il est essentiel que vous réfléchissiez AVANT de mener votre expérience ou votre enquête à la manière dont vous déciderez si les données appuient ou non l'hypothèse. Remarquez que nous n'utilisons pas les mots "vrai ou faux". Une hypothèse scientifique est une tentative d'explication que les découvertes expérimentales soutiennent ou non. Ce n'est que grâce à des enquêtes répétées au fil du temps que ces déclarations sont largement acceptées. Alors, réfléchissez aux procédures et aux statistiques que vous prévoyez d'utiliser et prenez une décision à l'avance sur les résultats qui soutiendraient votre hypothèse.

Si vous n'avez pas d'expérience avec les probabilités et les statistiques, vous n'aurez pas autant d'outils à votre disposition pour compléter cette dernière étape. Dans ce cas, vous pouvez créer une déclaration simple décrivant vos critères. Voici un exemple qui utilise des pourcentages :

Mon hypothèse est étayée par mes résultats si plus de __% des galaxies elliptiques sont ___(couleur)___ .

Remarque sur les tests de signification statistique

Vous pouvez décider que vous souhaitez appliquer des tests statistiques spécifiques à vos données qui vous permettent de signaler, de manière standardisée, le niveau de confiance que vous avez que vos données sont regroupées ou distribuées de manières particulières. Certains d'entre eux incluent l'analyse de la variance, le chi carré et les tests de corrélation. Si vous connaissez ces mesures ou si votre instructeur les exige dans le cadre de votre conception de recherche, vous devez documenter que vous collectez et traitez votre collecte de données de manière à vous permettre de terminer ces tests en toute confiance.

5 – Suivez votre plan, rassemblez vos données

Croyez-le ou non, le travail difficile est terminé. Si vous avez travaillé avec soin et minutie jusqu'à ce point, vous devriez être en mesure de donner suite à votre plan. Si vous travaillez avec d'autres sur des projets similaires, il peut être utile de demander à quelqu'un de vérifier votre travail tôt pour confirmer que tout se passe comme prévu. Il est important d'enregistrer clairement les données et de conserver des copies de sauvegarde. Bonne chance.

6 – Conclusions – Interpréter vos résultats

Passez en revue vos données, graphiques et notes. Les questions suivantes vous aideront à tirer des conclusions de vos résultats :

• Des modèles apparaissent-ils dans mes données ? Qu'est-ce qui semble être vrai lorsque je révise mon travail ?

• Mes deux variables semblent-elles liées ? Décrivez la relation du mieux que vous pouvez avec des mots ou des statistiques.

• Mon hypothèse est-elle appuyée par les données ?

C'est aussi le moment de signaler d'éventuelles surprises. Est-ce que quelque chose de nouveau s'est révélé? Enregistrez toutes les nouvelles questions qui ont surgi à la suite de votre enquête.

7- Débat

Cette étape est celle où vous vous arrêtez pour considérer l'enquête dans son ensemble. Pensez aux facteurs qui vous rendent moins confiant dans vos résultats, aux choses que vous feriez différemment la prochaine fois. De nouvelles questions sont peut-être devenues évidentes. Prenez le temps de considérer ces aspects maintenant.

• Y a-t-il quelque chose dans vos données ou procédures qui vous rend moins sûr de vos résultats ?

• Pouvez-vous voir des domaines de votre conception de recherche, de votre collecte de données ou de votre analyse que vous modifieriez la prochaine fois ?

• Quelles nouvelles questions se sont posées à la suite de votre travail ?

8 – Signaler, partager les résultats et recevoir des commentaires

La seule façon pour les autres d'apprendre de nouvelles informations et de nouvelles méthodes est de partager les résultats. C'est également l'un des moyens par lesquels les scientifiques reçoivent des commentaires et des idées d'autres personnes travaillant dans leur domaine d'étude, mais avec lesquelles ils n'ont peut-être pas de contacts fréquents. L'organiser et la présenter de manière à ce que d'autres puissent l'utiliser est le but de la communication scientifique. Le partage des résultats est une partie essentielle du processus de recherche.

Tout ce que vous avez fait et appris dans le cadre de votre enquête fait partie de votre rapport final. Bien qu'il existe de nombreuses façons informelles de partager les résultats, les scientifiques comptent principalement sur la publication de résultats formels dans des revues de recherche consacrées à leur domaine d'étude et sur des présentations lors de conférences scientifiques. Votre instructeur voudra peut-être que vous rapportiez vos résultats d'une manière qui reflète l'un de ces formats : l'article scientifique, une affiche ou une présentation orale. Quelle que soit la méthode choisie, elle devrait s'écouler sans heurts du travail que vous avez effectué.

Des ressources pour comprendre chacun de ces formats sont fournies ——-.


Volumes de données publiques

SciServer rend un certain nombre de jeux de données directement disponibles dans SciServer Compute sous la forme de Volumes de données publiques. Pour utiliser ces volumes de données dans vos activités de recherche ou d'enseignement, vous devrez les monter sur un conteneur virtuel au moment où vous créez ce conteneur. Consultez les instructions sur Comment créer un nouveau conteneur pour savoir comment monter un volume de données public.

Données spectroscopiques de relevé du ciel numérique de Sloan (spectres SDSS)

Si vous avez un compte SciServer, vous pouvez voir le contenu de ce volume de données dans votre tableau de bord en vous rendant sur le Des dossiers onglet, ou avec ce lien direct vers le volume de données SDSS Spectra (pour les utilisateurs connectés uniquement). Les données du catalogue des mêmes spectres sont également disponibles sur SciServer voir Données d'archives du catalogue Sloan Digital Sky Survey en dessous de Bases de données au dessous de.

Pour utiliser les données spectroscopiques SDSS dans votre travail dans SciServer Compute, créez un nouveau conteneur et cochez la case pour monter le Spectres SDSS sur votre conteneur.

À propos des données

Les observations proviennent du Baryon Oscillation Spectroscopic Survey (eBOSS) étendu du composant SDSS, qui a mesuré les spectres optiques (3600-10400 Ångstroms) pour des millions de galaxies et de quasars.

Les spectres individuels sont disponibles sous forme de fichiers FITS. Chaque fichier suit la structure du SDSS spec-lite format de fichier, contenant le spectre co-ajouté (HDU 1 COADD), la ligne spAll (HDU 2 SPALL) et la ligne spZline (HDU 3 SPZLINE) – mais pas les expositions individuelles (HDU 4+), qui ne sont disponibles que via l'équivalent plein spécification fichiers sur le serveur d'archives scientifiques.

Pour une description complète du format de fichier, consultez la documentation des fichiers de spécifications SDSS du modèle de données SDSS.

Les mêmes fichiers FITS sont également accessibles via le site Web du serveur d'archives scientifiques SDSS, ainsi que de nombreux fichiers connexes décrivant divers aspects du modèle de données spectroscopiques SDSS.

Structure du volume de données

Le niveau racine du volume de données contient le répertoire unique spec-lite, indiquant que le contenu est des fichiers SDSS spec-lite. Le niveau suivant organise les données par run2d, qui indique quelle version du pipeline spectroscopique SDSS a été exécutée pour traiter les spectres dans ce sous-dossier. Étant donné que différentes versions de pipeline ont été utilisées par différents sondages et programmes, le numéro d'analyse indique quand et pourquoi les spectres ont été collectés.

Les spectres les plus récents proviennent de SDSS Data Release 16 et ont une valeur run2d v5_13_0 la plupart des utilisateurs voudront cette version. La liste ci-dessous montre quelles valeurs run2d correspondent à quels ensembles de données.
Dans chaque répertoire run2d, les spectres sont organisés par la plaque SDSS utilisée pour la mesure. Chaque répertoire basé sur la plaque contient 640 ou 1 000 fichiers FITS, un pour chaque spectre collecté par la plaque.

Guide des nombres run2d

  • v5_13_0 contient tous les spectres optiques publiés dans le cadre de la version de données 16
  • v5_10_0 contient tous les spectres optiques publiés dans le cadre de la publication des données 14
  • 104 contient tous les spectres optiques collectés par le levé SDSS SEGUE-2 en 2008-2009, et quelques autres données spectroscopiques préliminaires collectées au cours de la même période, publiées pour la première fois dans DR7
  • 103 contient tous les spectres optiques collectés par les études de cluster de l'enquête SDSS SEGUE-1 en 2004-2008 (partie de DR7)
  • 26 contient tous les autres spectres optiques de SEGUE-1 et du SDSS Legacy Survey original, observé de 2000 à 2008 et publié dans DR7

La requête suivante fournit des données récapitulatives sur chacune de ces exécutions, y compris l'enquête SDSS et le programme responsable des données :

Astrophysique des hautes énergies (HEASARC)


Le volume de données HEASARC contient une copie de toutes les données publiques hébergées au High-Energy Astrophysics Science Archive Research Center (HEASARC). Pour plus d'informations sur les différentes missions disponibles et sur la façon d'utiliser des ensembles de données spécifiques, veuillez consulter le site Web HEASARC et/ou contacter notre service d'assistance à partir du lien Commentaires de ce site en bas.

Le volume de données HEASARC comprend également une zone logicielle pour divers éléments supplémentaires tels que des livres de cuisine interactifs en cours de développement. Certaines instructions de démarrage peuvent être trouvées sur la page de documentation HEASARC SciServer. L'environnement logiciel permettant d'analyser ces données se trouve dans l'image de calcul appelée HEASARCv6.28 .

Simulations cosmologiques d'Indra


Indra est une suite de simulations cosmologiques à grand volume de N corps. Chacune des 384 simulations est calculée avec les mêmes paramètres cosmologiques et différentes phases initiales, fournissant d'excellentes statistiques sur les caractéristiques à grande échelle de la distribution de la matière noire.

Les volumes indépendants contiennent 1024 3 particules de matière noire dans une boîte d'une longueur de 1 Gpc/h, et sont tous accessibles via les conteneurs SciServer Compute à tous les utilisateurs qui rejoignent le domaine scientifique de la cosmologie. Une description complète de la suite de simulations Indra peut être trouvée dans un article de Falck et al (2021).

Les volumes de données Indra contiennent, pour chaque simulation :

  • 64 instantanés des positions et des vitesses des particules
  • 64 instantanés des catalogues de halo FOF et SUBFIND
  • 505 pas de temps des champs de densité de l'espace de Fourier à grille grossière

Les données Indra sont accessibles avec le package python indra-tools pré-installé sur l'image de calcul des simulations numériques. Le référentiel git indra-tools contient des exemples de cahiers montrant comment lire les données binaires, interroger les tables de la base de données halo, calculer les champs de densité, etc.

L'utilisation de l'ensemble de données Indra est ouverte et accessible à tous. Nous demandons que les publications scientifiques qui utilisent Indra citent le document de publication de données de Falck et al (2021).

Serveur d'archives de données Sloan Digital Sky Survey (SDSS DAS)

Ce volume contient toutes les données brutes et traitées basées sur des fichiers de Data Release 7 (DR7) du Sloan Digital Sky Survey (SDSS). Les produits d'imagerie et de données spectroscopiques bruts et traités en pipeline sont disponibles ici (principalement) au format FITS binaire.

Les données du volume SDSS-DAS sont accessibles via SciServer Compute à l'aide des outils python d'accès aux fichiers standard. Une copie de ces données est également accessible via le site Web SDSS DAS, et la version catalogue de ces données est disponible sur le SDSS DR7 SkyServer.

Spectres de l'unité de terrain intégrée (IFU) SDSS MaNGA

Recomptage2

Recount2 fournit des données d'expression traitées et résumées pour plus de 70 000 échantillons d'ARN-seq humains provenant du projet Sequence Read Archive (SRA), The Cancer Genome Atlas (TCGA) et The Genotype-Tissue Expression (GTEx) (https://doi.org /10.1038/nbt.3838).

Le package Bioconductor associé fournit une API pratique pour interroger, télécharger et analyser les données. Chaque étude traitée comprend des données de méta- et de phénotype, les niveaux d'expression des gènes et leurs exons et jonctions d'épissage sous-jacents, et l'annotation génomique correspondante. En prenant en charge plusieurs étapes de prétraitement et en combinant de nombreux ensembles de données en un seul site Web facilement accessible, nous facilitons considérablement la recherche et l'analyse des données RNA-seq.

Bases de données de turbulence Johns Hopkins

Modèles de circulation océanique Johns Hopkins

SciServer héberge la sortie de modèles numériques de modèles de circulation générale océanique (GCM) haute résolution mis en place et gérés par le groupe de recherche du professeur Thomas WN Haine (Université Johns Hopkins - Département des sciences de la Terre et des planètes). Ces modèles permettent aux utilisateurs de tracer le l'évolution physique des courants océaniques à travers les ordres de grandeur dans l'espace et le temps, et d'analyser rapidement les aspects importants des événements du modèle en conjonction avec les données d'observation.

L'objectif du cas utilisateur SciServer Ocean Modeling est de créer un environnement de partage collaboratif où les utilisateurs peuvent accéder et traiter des ensembles de données haute résolution. L'analyse de ces grands ensembles de données est souvent limitée par des ressources de calcul limitées, nous avons donc développé OceanSpy, un package python qui facilite l'extraction d'informations à partir des champs de sortie du modèle. Les utilisateurs de SciServer peuvent soit télécharger des sous-ensembles de données sur leurs propres machines, soit exécuter nos outils en ligne et stocker des fichiers de post-traitement sur nos serveurs.

Ensembles de données disponibles

Les références

  • Almansi, M., T.W. Haine, R.S. Pickart, M.G. Magaldi, R. Gelderloos et D. Mastropole, 2017 : Variabilité à haute fréquence dans la circulation et l'hydrographie du débordement du détroit du Danemark à partir d'un modèle numérique à haute résolution. J. Phys. Oceanogr., 47, 2999-3013, https://doi.org/10.1175/JPO-D-17-0129.1.
  • Marcello G. Magaldi, Thomas WN Haine, Simulations hydrostatiques et non hydrostatiques d'eaux denses en cascade sur un plateau : le cas de l'Est du Groenland, Deep Sea Research Part I : Oceanographic Research Papers, Volume 96, 2015, Pages 89-104, ISSN 0967 -0637, https://doi.org/10.1016/j.dsr.2014.10.008.

NOUVEAU : Données associées SDSS

Le nouveau Données associées au SDSS Le volume de données permet d'accéder facilement à des ensembles de données utiles du Sloan Digital Sky Survey qui ne font pas partie des versions de données officielles du SDSS (dont la dernière est maintenant Data Release 16).

Actuellement, ce volume de données comprend le seul ensemble de données décrit ci-dessous. Nous continuerons d'ajouter de nouveaux ensembles de données, y compris les futurs catalogues à valeur ajoutée SDSS.

HI-MaNGA : observations de suivi HI des galaxies cibles de MaNGA

L'ensemble de données HI-MaNGA consiste en des observations de suivi des galaxies MaNGA dans la longueur d'onde HI (21 cm), à l'aide du télescope Green Bank. Les observations ont été conçues pour répondre à des questions scientifiques liées à l'évolution stellaire et à l'accrétion de gaz dans divers types de galaxies. L'ensemble de données final inclura la plupart des galaxies du catalogue MaNGA avec z < 0.05.

Pour plus d'informations sur le jeu de données HI-MaNGA, consultez sa page de description sur le site Web du SDSS.


Question 10

La capacité d'un type spectral stellaire à maintenir la vie dépend des conditions qui sont caractéristiques du type. Les éléments communs, les gaz et les composés présents dans un certain spectre déterminent s'il peut réellement soutenir la vie ou non. Un type spectral qui soutient la vie est suffisamment lumineux et a des températures suffisamment douces pour soutenir la vie et les processus vitaux. Les spectraux sont classés de O, B, A, F, G, K à M.O est le spectral le plus chaud et M est le plus cool. Le spectre chaud ne peut certainement pas supporter la vie en raison des températures. G est suffisamment lumineux et a une plage de température appropriée qui peut soutenir la vie. Bien que F et K aient été dits soutenir la vie dans des études récentes, la crédibilité de cette étude reste à affirmer spectrale qui est illuminée par le soleil est la seule spectrale qui a été confirmée pour soutenir la vie. La terre tombe sous ce spectre et c'est la confirmation qu'elle supporte réellement la vie. Il y a un équilibre de gaz, de composés et d'énergie dans le spectre G et c'est en fait ce qui soutient la vie et la croissance.