Tower Research Capital Logo

Tower Research Capital

Ingénieur – Calcul de haute performance (CHP), stockage, unité de traitement graphique (UTG) / HPC/Storage/GPU Engineer

🌎

Montreal

1 month ago
👀 36 views
📥 0 clicked apply

Job Description

Hybrid

Ingénieur(e) des systèmes/en calcul de haute performance (CHP) Tower Research Capital LLC, une société de négociation à haute fréquence pour compte propre fondée en 1998, est à la recherche d’un(e) administrateur(trice) de système Linux qui se joindra à notre équipe d’ingénierie de fiabilité des serveurs. L’équipe d’ingénierie de fiabilité des serveurs est responsable de fournir des processus et des outils novateurs pour l’exploitation des plateformes Linux de négociation à haute fréquence et de l’environnement de calcul de haute performance (CHP) de Tower. Vous devrez également proposer et encourager l’adoption des pratiques d’infrastructure en tant que code (IaC) pour rendre nos solutions de stockage évolutives et gérables, et développer nos besoins croissants en matière de processeur graphique, en équilibrant les ressources locales et infonuagiques.

Responsabilités

  • Appuyer, maintenir et améliorer l’infrastructure Linux de négociation de l’entreprise
  • Soutenir, entretenir et améliorer l’infrastructure de calcul de haute performance de la firme à des fins de recherche
  • Fournir du soutien pour les environnements Linux et de CHP en particulier, notamment pour ce qui suit :
  • Intervention d’urgence
  • Exécution des changements, des mises à jour et des projets de déploiement prévus au sein de l’infrastructure de serveur Linux
  • Gestion des systèmes de CHP pour soutenir les opérations de négociation et le
  • programmeur de travaux Condor
  • Profilage et dépannage avancés des problèmes de performance, particulièrement dans l’environnement des serveurs Linux
  • Contribuer au développement et au perfectionnement des outils et des systèmes pour automatiser l’approvisionnement, la configuration et la surveillance de milliers de serveurs Linux
  • Gérer les services de base essentiels tels que DHCP, LDAP, DNS et NFS pour les centres de données sur place et hébergés, ainsi que les nuages publics
  • Participer à une rotation de travail de garde et à des quarts occasionnels de fin de semaine
  • Participer à des communications directes quotidiennes avec les équipes de négociation et l’équipe centrale d’ingénierie
  • Rester à jour des dernières technologies et pratiques exemplaires en matière de calcul de haute performance, de stockage et d’unité de traitement graphique.

Compétences

  • Expérience en maintenance, exploitation et administration d’un environnement Linux suffisamment avancé
  • Utilisation quotidienne et contribution au développement d’outils d’automatisation et de surveillance
  • Compréhension approfondie des concepts et des fonctionnements internes du système d’exploitation Linux
  • Connaissance pratique du matériel et des composants du serveur sur Intel
  • Bonne connaissance de Python, connaissance approfondie de Bash pour les tâches de scripts et d’automatisation dans un environnement Linux
  • Compréhension du réseautage côté serveur et des protocoles réseau typiques de Linux● Participation à des projets libres ou personnels, un atout
  • Compréhension de la gestion de la configuration, du contrôle des sources, de CI/CD et du déploiement automatisé de Linux
  • Solides compétences en communication et capacité à travailler efficacement en équipe.

Compétences souhaitées

  • Expérience avec les outils de conteneurisation et d’orchestration (p. ex., Docker, Kubernetes).
  • Connaissance des plateformes infonuagiques et des environnements infonuagiques hybrides.
  • Connaissance des systèmes de fichiers parallèles (p. ex., GPFS), des systèmes de traitement par lots (p. ex., Slurm, Grid Engine, Condor) et des interconnexions réseau haute performance.
  • Expérience avec les solutions de stockage VAST et Weka, un atout.
  • Solide compréhension de l’infrastructure des marchés et des systèmes à faible latence.
  • Excellentes compétences en résolution de problèmes et capacité à travailler dans un environnement dynamique où les activités se déroulent à un rythme rapide.
  • Compétences en gestion d’environnements hybrides infonuagiques et locaux.
  • Expérience dans la proposition et la mise en œuvre complète de pratiques d’infrastructure en tant que code (IaC).

Avantages

Le bureau de Tower est situé au centre-ville de Montréal et est facilement accessible par le transport en commun. Il est vrai que nous travaillons dur, mais le milieu de travail sans cubicule de Tower, son personnel en jeans et ses cuisines bien approvisionnées reflètent fidèlement l’importance que place l’entreprise sur la qualité de vie.

Parmi les avantages :

  • Salaire concurrentiel et primes discrétionnaires
  • Cinq semaines de vacances payées par année
  • Dîner et collations au quotidien
  • Remboursement des frais de santé et de bien-être
  • Événements et ateliers gratuits

Tower Research Capital est un employeur qui souscrit au principe de l’égalité d’accès à l’emploi.

***

Tower Research Capital LLC, a high-frequency proprietary trading firm founded in 1998, seeks a Linux System Administrator to join our Server Reliability Engineering team. The Server Reliability Engineering organization is responsible for providing innovative processes and tools for the operation of Tower's high-frequency Linux-based trading platforms and High Performance Computing Environment (HPC). You will also be expected to propose and drive the adoption of Infrastructure as Code (IaC) practices to make our storage solutions scalable and manageable, and develop our growing needs with GPU, balancing on-premises and cloud-based resources.

Responsibilities

  • Supporting, maintaining, and enhancing the firm's trading Linux infrastructure
  • Supporting, maintaining, and enhancing the firm's HPC infrastructure for research
  • Providing support specifically for the Linux and HPC environments including:
    • Emergency response
    • Execution of planned changes, updates, and deployment projects within the Linux server infrastructure
    • Manage HPC systems to support trading operations and Condor Job scheduler
    • Advanced profiling and troubleshooting of performance issues specifically within the Linux servers environment
    • Contributing to the development and refinement of tools and systems to automate provisioning, configuration, and monitoring of thousands of Linux servers
    • Management of essential core services such as DHCP, LDAP, DNS, and NFS for on-prem and hosted data centers as well as public clouds
    • Participating in an on-call rotation and occasional weekend shifts
    • Engaging in daily direct communication with trading teams and core engineering
    • Stay up-to-date with the latest technologies and best practices in HPC, storage, and GPU computing.

Qualifications

  • Experience in maintenance, operation, and administration of a sufficiently advanced Linux environment
  • Daily use of and contribution to developing automation and monitoring tools
  • Comprehensive understanding of Linux OS concepts and internals
  • Working knowledge of Intel-based hardware and server components
  • Good knowledge of Python, expert knowledge of Bash for scripting and automation tasks in a Linux environment
  • Understanding of Linux server-side networking and typical network protocols
  • Participation in open source or personal projects is a plus
  • Understanding of Linux configuration management, source control, CI/CD, and automated deployment
  • Strong communication skills and the ability to work effectively in a team.

Preferred Qualifications

  • Experience with containerization and orchestration tools (e.g., Docker, Kubernetes).
  • Familiarity with cloud computing platforms and hybrid cloud environments.
  • Knowledge of parallel file systems (e.g., GPFS), batch systems (e.g., Slurm, Grid Engine, Condor), and high-performance network interconnects.
  • Experience with VAST and Weka storage solutions is highly desirable.
  • Solid understanding of trading infrastructure and low-latency systems.
  • Excellent problem-solving skills and the ability to work in a fast-paced, dynamic environment.
  • Skills in managing hybrid cloud/on-premises environments.
  • Experience proposing and implementing Infrastructure as Code (IaC) practices from the ground up.

Benefits

Tower’s office is located in Downtown Montreal and is easily accessible by public transportation. While we work hard, Tower’s cubicle-free workplace, jeans-clad workforce, and well-stocked kitchens reflect the premium the firm places on quality of life. Benefits include:

  • Competitive salary and discretionary bonuses
  • 5 weeks of paid vacation per year
  • Lunch and snacks on a daily basis
  • Reimbursement for health and wellness expenses
  • Free events and workshops

Tower Research Capital is an equal opportunity employer.

 

More Jobs at Tower Research Capital