Thursday, 19 January 2017

Système D'Échange Hadoop

Im s'amuser en apprenant sur Hadoop et les différents projets autour de lui et ont actuellement 2 stratégies différentes Im pensant pour construire un système pour stocker une grande collection de données de tique de marché, Im commençant juste avec HadoopHDSF et HBase mais espérant quelqu'un peut m'aider Plante une graine de système que je n'aurai plus à utiliser plus tard ces technologies. Ci-dessous est un aperçu de mon système et les exigences avec certains cas d'utilisation de la requête et de l'utilisation des données et enfin ma pensée actuelle sur la meilleure approche de la petite documentation que j'ai lu. Il s'agit d'une question ouverte et j'aimerais volontiers une réponse qui est perspicace et d'accepter le meilleur, n'hésitez pas à commenter sur l'un ou tous les points ci-dessous. - Duncan Krebs Configuration requise - Pouvoir tirer parti de la banque de données pour les tests historiques des systèmes, la cartographie des données historiques et l'exploration de données futures. Une fois stocké, les données seront toujours en lecture seule, un accès rapide aux données est souhaité mais pas un must-have lors des tests de retour. Static Schema - Très simple, je veux capturer 3 types de messages du flux: Horodatage, y compris la date, le jour, le temps Citation incluant le symbole, timestamp, ask, askSize, bid, bidSize, volume. (Environ 40 colonnes de données) Commerce y compris Symbole, timestamp, prix, taille, échange. (Environ 20 colonnes de données) Cas d'utilisation des données insérer - soit à partir d'un flux de données en direct du marché ou de la recherche via courtier API Données Query Use Cases - ci-dessous montre comment je voudrais légalement interroger mes données. Obtenez-moi tous les métiers pour GOOG, FB BEFORE 912014 ET APRÈS 512014 Obtenez-moi le nombre de métiers pour ces 50 symboles pour chaque jour au cours des 90 derniers jours. Le Saint Graal - Can MapReduce peut être utilisé pour des cas d'utilisation comme ci-dessous. Générer des métadonnées à partir des données brutes du marché via des agents distribués. Par exemple, Écrivez un travail qui calculera le volume de transactions moyen sur un intervalle d'une minute pour tous les stocks et toutes les sessions stockées dans la base de données. Créer le travail d'avoir un agent pour chaque stockession que je dis ce stock et la session, il doit calculer cette valeur pour. (Est-ce ce que MapReduce peut faire.) Sur le classpath des agents puis-je ajouter mon propre code utilitaire de sorte que le cas d'utilisation ci-dessus, par exemple, pourrait publier sa valeur dans un central repo ou serveur de messagerie Puis-je déployer un agent comme un ensemble OSGI Créer différents types d'agents pour différents types de mesures et de scores qui sont exécutés tous les matins avant la négociation avant le marché Trading à haute fréquence Im est également intéressé si quelqu'un peut partager une certaine expérience en utilisant Hadoop dans le contexte des systèmes de négociation haute fréquence. Juste entrer dans cette technologie mon sens initial est Hadoop peut être grande pour le stockage et le traitement de grands volumes de données tick historique, si quelqu'un utilise pour le commerce en temps réel Id être intéressé à en apprendre davantage - Duncan Krebs Basé sur ma compréhension de vos besoins , Hadoop serait vraiment une bonne solution pour stocker vos données et exécuter vos requêtes sur elle en utilisant Hive. Stockage: Vous pouvez stocker les données dans Hadoop dans une structure de répertoire comme: Dans le dossier heures, les données spécifiques à cette heure du jour peuvent résider. Un avantage de l'utilisation de cette structure est que vous pouvez créer des tables externes dans Hive sur ces données avec vos partitions sur les années, les mois, les jours et les heures. Quelque chose comme ceci: Venir à la partie des requêtes, une fois que vous avez les données stockées dans le format mentionné ci-dessus, vous pouvez facilement exécuter des requêtes simples. Get me all Trades for GOOG, FB BEFORE 912014 ET APRÈS 512014 Vous pouvez exécuter ces requêtes d'agrégation une fois par jour et utiliser la sortie pour obtenir les métriques avant la pré-commercialisation commerce. Depuis Hive en interne gère mapreduce ces requêtes ne sera pas très rapide. Afin d'obtenir des résultats plus rapides, vous pouvez utiliser certains des projets en mémoire comme Impala ou Spark. J'ai moi-même utilisé Impala pour exécuter des requêtes sur mes tables de ruche et j'ai vu une amélioration majeure dans le temps d'exécution de mes requêtes (environ 40x). Aussi, vous n'auriez pas besoin de faire des changements à la structure des données. Données Insérer Cas d'utilisation. Vous pouvez utiliser des outils comme Flume ou Kafka pour insérer des données en temps réel sur Hadoop (et donc sur les tables de ruche). Flume est linéairement évolutif et peut également aider dans le traitement des événements à la volée lors du transfert. Globalement, une combinaison de plusieurs grandes technologies de données peut fournir une solution vraiment décent pour le problème que vous avez proposé et cette solution serait échelle à des quantités énormes de données. Plate-forme basée sur Hadoop TickSmith, avec sa plate-forme TickVault basée sur la technologie hadoop, est un leader en Applications Big Data pour l'écosystème Brokerage et les services financiers. La plate-forme est utilisée pour la centralisation et la distribution des données, la surveillance du marché, la gestion des risques, la découverte de stratégies et l'analyse. Il est idéal pour les groupes de négociation et de risque, les régulateurs, les bourses et les fournisseurs de données qui doivent accumuler, transformer, analyser et diffuser de plus grandes échelles de données financières provenant de sources multiples. Fonctions clés Optimisé pour la gestion des données historiques et des devis, des nouvelles et des événements Traitement, analyse, transformation et normalisation puissants Fournit facilement des données et des rapports internes et externes grâce aux API, aux interfaces WEB et aux tableaux de bord Travailler avec des téraoctets et des petabytes de données, , Devrait être facile La plate-forme, basée sur la technologie hadoop, a été conçue pour accélérer le développement interne de projet et la gestion des données en fournissant des API et l'intégration avec les outils d'affaires existants utilisés tels que Matlab, R, Excel, etc Un portail web unifié fournit des données faciles L'accès et la distribution. Tous les accès sont sécurisés par des modules d'autorisation permettant des autorisations à grain fin. La plate-forme gère les données structurées et non structurées, y compris les données d'échange de tics d'amplitude, les données de référence, les messages FIX, les données de back-office, le contenu multimédia financier, les PDF, les séries chronologiques, les déclarations et plus encore. Fournie en tant que solution complète, la plateforme peut être ajoutée aux clusters Hadoop existants. Il est également disponible en tant que service et livré comme un appareil qui comprend tout le matériel. TickVault sur Amazon Web Service Étude de cas expliquant comment la Banque Nationale du Canada a déployé avec succès la plateforme TickVault dans AWS pour analyser des centaines de téraoctets de données commerciales et de devis. Lire l'étude de cas complète QuotNous avons des capacités d'analyse post-négociation plus rapides et meilleures en utilisant TickVault et AWS. Par conséquent, nous pouvons améliorer et optimiser nos opérations de négociation et générer plus de revenus pour la Banque Nationale du Canada. quot Pascal Bergeron, directeur de Algorithmic Trading Industry Solutions Dernières nouvelles 19 décembre 2016 Commentaires fermés sur TickVault Financial Plateforme de gestion de données majeure Compatible avec Thomson Reuters Tick Historique Montréal, le 20 décembre 2016 - TickSmiths La plate-forme TickVault est désormais compatible avec Thomson Reuters Tick History, offrant à la communauté buy side une solution interne pour gérer ces données dans son intégralité grâce à une seule interface. . 6 décembre 2016 Commentaires fermés le 9 décembre 2016 Webinaire MiFiD II avec Cloudera et TickSmith MiFiD II Webinar de conformité à la Meilleure Exécution Inscrivez-vous ici La réglementation MiFiD II à l'horizon signifie que les organisations financières devront respecter les exigences avant le 3 janvier 2018. Cette date peut Semblent être un long. 19 octobre 2016 Commentaires fermés sur CME Group collabore avec TickSmith pour fournir un accès facile aux données historiques TickVault rationalise la distribution de 450 Téraoctets de données historiques de CME DataMine CHICAGO et MONTREAL, le 19 octobre 2016 CME Group, leader mondial et le plus diversifié Marché des dérivés, et TickSmith, un leader dans Big. 11 juillet 2016 Commentaires sur TickSmith ajoute un module d'inventaire de fichiers à sa plateforme de gestion de données primée Une nouvelle fonctionnalité simplifie la gestion et la distribution de millions de fichiers pour les institutions financières, y compris les hedge funds, les banques, les courtiers et les bourses. MONTRÉAL, le 11 juillet 2016 La plateforme TickSmiths TickVault a été améliorée avec File Inventory,. Inside Story Accumuler et travailler avec des échelles croissantes Les données financières, en particulier l'historique des transactions et des devises, se sont révélées problématiques pour notre groupe dérivés actions mondiales. Les technologies traditionnelles et les bases de données relationnelles ne pouvaient pas suivre. Les demandes de données historiques sur le marché ont augmenté à mesure que notre part de marché a augmenté. La plate-forme TickSmiths offrira aux clients l'accès à nos données commerciales historiques ainsi qu'à un puissant ensemble de rapports et d'analyses. Avec le lancement de notre plate-forme de courtage Web améliorée, nous avons souhaité améliorer la visualisation des données, la cartographie intra-journée et les vues de portefeuille. Tandis que ce processus semble assez simple, il nécessite de grandes quantités de données qui doit être normalisé et ajusté, TickSmith a contribué à rationaliser cette opération et nous a permis d'ajouter plus de fonctionnalité à notre plate-forme. Ouber 10, 2009 MapReduce est certainement gagner en traction, Pas du tout sous la forme de Hadoop. Au lendemain de Hadoop World. Jeff Hammerbacher de Cloudera m'a marché rapidement à travers 25 clients qu'il a tirés des dossiers de Cloudera8217s. Les faits et les mesures ont largement varié, bien sûr: certains sont dans la production lourde avec Hadoop et étroitement avec Cloudera. D'autres sont des utilisateurs actifs de Hadoop mais sont très secrètes. Pourtant, d'autres se sont inscrits à la formation initiale de Hadoop la semaine dernière. Certains ont des clusters Hadoop dans les milliers de nœuds. Beaucoup ont Hadoop clusters dans la gamme 50-100 noeud. D'autres ne sont que le prototypage de l'utilisation de Hadoop. Et on semble être 8220OEMing8221 un petit groupe de Hadoop dans chaque pièce d'équipement vendue. De nombreuses données d'exportation de Hadoop à un SGBD relationnel beaucoup d'autres laissent juste dans HDFS (Hadoop Distributed File System), par ex. Avec Hive comme le langage de requête, ou dans exactement un cas Jaql. Certains sont des noms de famille, dans les entreprises Web ou autrement. D'autres semblent assez obscurs. Les industries incluent les services financiers, les télécommunications (Asie seulement, et tout à fait nouvelles), la bioinformatique (et d'autres recherches), l'intelligence, et beaucoup de médias web et / ou publicitaires. Les domaines d'application mentionnés 8212 et ces chevauchements dans certains cas 8212 incluent: Analyse logarithmique ou analyse de flux de divers types Analyses de marketing Apprentissage de machines ou extraction de données sophistiquée Traitement d'images Traitement de messages XML Traçage et traitement de texte Web Archivage général, Pour la conformité Nous sommes allés sur cette liste si rapidement que nous didn8217t entrer dans beaucoup de détails sur un seul utilisateur. Mais un exemple qui a été mis en évidence était celui d'une entreprise de publicité qui avait un pipeline de 8220 agrégations8221 composé de 70-80 emplois MapReduce. J'ai également parlé hier avec Omer Trajman de Vertica, qui m'a surpris en indiquant un nombre élevé à un seul chiffre de clients Vertica8217s étaient en production avec Hadoop 8212, c'est-à-dire plus de 10 des clients de production Vertica8217s. (Vertica a récemment fait sa 100e vente, et bien sûr pas tous ces acheteurs sont en production encore.) VerticaHadoop utilisation semble avoir commencé dans Vertica8217s services financiers bastion 8212 spécifiquement dans le commerce financier 8212 avec web analytics et similaires à venir par la suite. Basé sur les efforts actuels de prototypage, Omer s'attend à ce que la bio-informatique soit le troisième marché de production de VerticaHadoop, avec les télécommunications en quatrième position. Sans surprise, le modèle général d'utilisation de VerticaHadoop semble être: Faire quelque chose aux données dans Hadoop Décharger dans Vertica pour être interrogé Ce que j'ai trouvé surprenant est que les données sont souvent réduites par cette analyse, mais plutôt explosé dans la taille. Par exemple. Un stock complet de données de trading hypothécaire pourrait être de quelques téraoctets de taille, mais le post-traitement basé sur Hadoop peut augmenter de 1 ou 2 ordres de grandeur. (Analogies à l'importance et à l'ampleur de 8220 données cuit 8221 dans le traitement des données scientifiques viennent à l'esprit.) Et enfin, j'ai parlé à Aster il ya quelques jours au sujet de l'utilisation de son connecteur nClusterHadoop. Aster a caractérisé AsterHadoop utilisateurs8217 Hadoop utilisation comme étant de la variété batchETL, qui est le cas d'utilisation classique que l'on concède à Hadoop même si l'on croit que MapReduce devrait normalement être fait droit dans le SGBD. Abonnez-vous à notre alimentation complète 9 réponses à 8220How 30 entreprises utilisent Hadoop8221 Vlad le 11 octobre 2009 3:34 am J'ai fait quelques calculs basés sur les données publiquement disponibles sur Internet. Le célèbre Yahoo Terasort enregistre 8211 triant 1 To de données (en fait 10 milliards 100 octets d'enregistrement) sur un cluster de serveurs Hadoop 3400 en 60 secondes. Je vais omettre les détails de calcul, mais le CPU moyen. L'utilisation des disques IO et des IO de réseau pendant l'exécution était: 1, 5-6 et 30 respectivement. Ce ne sont pas des nombres exacts bien sûr, mais les estimations basées sur l'algorithme de tri utilisé, la configuration de cluster8217s, la puissance des processeurs de serveur, le débit maximal de NIC (1 Go) et la capacité de 4 disques SATA. Ainsi, le goulot d'étranglement est définitivement réseau (je pense que ce n'est pas seulement pour le tri mais pour beaucoup d'autres problèmes). Mais il semble que soit cluster Yahoo est sous-optimale du point de vue du débit max soutenu ou Hadoop ne peut pas saturer 1Gb lien. OK, imaginons que nous n'utilisons pas de matériel de base, mais des serveurs et des configurations de réseau plus optimisés. Que diriez-vous 2 ports NIC 10Gb par serveur et 128 8211 ports 10GB commutateur. Juste un. En augmentant le débit du réseau de 30 Mo à 2 Go (2 ports NIC 10 Go par serveur), nous pouvons réduire le nombre de serveurs dans un cluster par facteur de 70 (50 serveurs) et conserver la même durée de 60 secondes. Est-il possible de trier 2 Go par seconde (20 millions d'enregistrements de 100 octets) sur un serveur. Bien sûr que ça l'est. Le cluster Yahoo coûte environ 7 millions. Je peux construire mon cluster pour moins de 1 million et nous ne parlons pas de consommation d'énergie et d'autres coûts associés. MapReduce et matériel de la marchandise won8217t économiser de l'argent. N'achetez pas bon marché. Curt, savez-vous combien de ces V clients sont 8220 dans le cloud8221 (c'est-à-dire: they8217re fonctionnant sur V AMI dans EC2) et combien de ceux-ci sont dans ce 10 ou si vous mentionnez Vlad le 11 Octobre 2009 10:40 pmMapReduce est Fortement encouragé, pour une raison quelconque, par Yahoo et Facebook mais pas par Google. Google (et Microsoft) ont développé déjà la prochaine génération 8220Hadoops8221 (Pregel et Dryad) mais ils ne sont toujours pas disponibles pour le grand public et non open-sourced. Même les informations sur Pregel sont limitées. Pour moi, la situation rappelle l'Union soviétique à la fin des années 1980. N'étant pas en mesure de créer ses propres supercalculateurs, les Soviétiques ont essayé d'inverser les ingénieurs américains (Cray etc). Vous pouvez reproduire ce qui a déjà été fait, mais vous êtes toujours derrière. UPD. Dryad peut être téléchargé à partir du site MS mais seulement pour la recherche académique. RC le 12 octobre 2009 3:46 am Le dradis est bien meilleur que Hadoop Si oui, quelles sont les améliorations Vlad le 12 octobre 2009 3:53 pmRC De Dryad whitepaper: 8220La différence fondamentale entre les deux systèmes (Dryad et MapReduce) est que Une application Dryad peut spécifier un DAG de communication arbitraire plutôt que d'exiger une séquence de mapdistributesortreduce opérations. En particulier, les sommets de graphe peuvent consommer plusieurs entrées et générer des sorties multiples, de types différents. Pour de nombreuses applications, cela simplifie la cartographie de l'algorithme à la mise en œuvre, nous permet de construire sur une plus grande bibliothèque de sous-routines de base, et avec la capacité d'exploiter les canaux TCP et la mémoire partagée pour les bords de données. Dans le même temps, notre mise en œuvre est assez générale pour supporter toutes les fonctionnalités décrites dans le papier MapReduce.8221 Andrew S le 19 octobre 2009 7:54 pmVlad, la différence est que les Soviétiques didn8217t ont open source derrière eux. Un modèle plus courant dans l'histoire récente a été: 1. Une solution logicielle propriétaire sort 2. Une bonne solution open source avec des capacités similaires sort plus tard. 3. La solution open source gagne de grands porteurs, des développeurs de premier plan, des sociétés technologiques de pointe, des universitaires de premier plan 4. La solution open source éclipse la solution propriétaire en raison de la disponibilité et de la documentation faciles 5. La solution propriétaire s'éteint parce qu'elle devient rentable de passer à open Source. Hadoop est quelque part en (3) et partiellement en (4). 8230 Rien de tout cela n'est en contradiction avec les enquêtes précédentes sur les cas d'utilisation de Hadoop. 8230 8230 être le directeur général de Bank of Americas pour de grandes données et analyses. Il ya un an déjà, Vertica a indiqué que près de 10 pour cent de ses clients étaient en production avec Hadoop une tendance lancée par ses clients des services financiers. Sur le 8230 Rechercher dans nos blogs et livres blancs Monash blogs de recherche SGBD 2 couvre la gestion de base de données, l'analyse et les technologies connexes. Text Technologies couvre l'exploration de texte, la recherche et les logiciels sociaux. Strategic Messaging analyse la stratégie de marketing et de messagerie. Le rapport Monash examine les questions de technologie et de politique publique. Software Memories retrace l'histoire de l'industrie du logiciel. Conseils aux utilisateurs Construction d'une liste restreinte Affiner votre plan stratégique Nous pouvons vous aider. Avis aux vendeurs Nous disons aux vendeurs ce qui se passe - et, plus important encore, ce qu'ils devraient faire à ce sujet. Monash Points saillants de la recherche


No comments:

Post a Comment