-
Notifications
You must be signed in to change notification settings - Fork 75
Description
公司/团队介绍
公司是⼀家总部位于新加坡的创新型软件开发公司,专注于为全球市场提供⾼质
量的软件解决⽅案,我们致⼒于推动技术创新,帮助企业在快速发展的数字世界中
获得竞争优势。
薪资福利待遇
5w+ RMB(USDT)
地点
- 工作地点:泰国,日本,菲律宾,斯里兰卡
- 联系方式:tg @free_water_free
工作性质
- 是否全职:是
- 是否远程:否
- 时区要求:(GMT+8优先,可覆盖核心工作时间,可适应国际分布式团队协作)
岗位要求、职责
1、【DevOps/SRE 工程师】
具备大型企业 DevSecOps 平台从0到1的搭建与落地经验者优先。有高并发业务系统的网关与集群管理经验者优先。有零售、金融行业背景或大型企业客户经验者优先。
【岗位职责】
- 设计、构建和维护高效稳定的 CI/CD 流水线,推动 DevSecOps 文化和工具链落地,提升研发和发布效能。
- 负责监控体系(APM、日志、链路追踪等)的搭建与优化,提升系统可观测性,降低平均故障恢复时间。
- 管理和优化大规模 Kubernetes 集群及云原生网关,保障高并发业务场景下的系统稳定性和高可用性。
- 主导云基础设施成本优化,通过资源调度、架构升级等手段实现降本增效。
- 负责自动化运维平台的设计与开发,实现巡检、安装、部署等操作的自动化。
- 协调跨团队(开发、运维、供应商)合作,推动项目从0到1落地,并在客户现场完成部署与集成。
【技术要求】
1· CI/CD 工具:Jenkins、Ansible、Nexus、SonarQube
2· 容器与编排:Kubernetes、Docker、Helm
3· 云平台:阿里云、私有云(VMware ESXi/vCenter)
4· 监控与网关:APM工具、Prometheus/Grafana、云原生网关(如Nginx Ingress、Istio)
5· 编程语言:Java(Spring Boot/Cloud)、Shell、Python
6· 数据库与中间件:MySQL、Nexus、GitFlow
7· 自动化运维:Ansible、HP OO、IPMI 协议
2、【运维经理】
有GPU集群运维、智算中心建设、多云/混合云管理经验者优先。有高性能存储集群的搭建、性能测试与调优经验者优先。有自动化运维体系建设:包括系统自动部署、设备自动化维护、自愈系统经验者优先。
【主要职责】
1、设计、实施和维护高可用、可扩展的Kubernetes多集群平台,为全公司提供容器化服务。
2、管理和优化大型分布式存储系统,满足AI、大数据等高IOPS场景需求。
3、构建和完善端到端的CI/CD流水线,实现应用的自动化构建、测试、安全扫描和部署。
4、负责整个基础设施的监控、日志和告警体系,确保平台服务的SLA和快速故障定位能力。
5、通过基础设施即代码实现服务器、网络和应用配置的自动化管理与交付。
6、持续进行性能调优、成本优化(和技术创新,研究并引入前沿技术(如Serverless、ServiceMesh、算力方案等)。
7、负责数据库、中间件的高可用架构设计、运维和故障处理。
【任职要求】
1、 精通Kubernetes的各个方面,包括集群部署、网络、存储、安全、监控和故障排除。
2、丰富的自动化经验,精通Shell和Python编程,熟练使用Ansible和Terraform。
3、具有构建和维护CI/CD系统的实战经验。
4、具有至少一种大型分布式存储系统的部署、调优和运维经验。
5、深入理解监控和日志技术栈,如Prometheus, Grafana, ELK。
6、熟悉Linux操作系统、网络、虚拟化和硬件基础设施。
3、【运维开发工程师(SRE方向)】
熟悉CN2/BGP网络线路优化、视频流推送经验者优先。有大规模AP/WLAN网络维护经验者优先。· 有运维开发经验者优先(Python/Go编写工具)。云计算/CDN/WLAN/视频流/智慧城市/互联网基础设施背景者优先。
【关键职责】
- 系统架构与运维
· 部署和维护Linux环境下的服务(Nginx、HAProxy、LVS、Keepalived、DNS、MySQL、Redis等)。
· 设计并优化高可用集群(负载均衡、反向代理、数据库主从复制、CDN部署)。
· 管理云平台资源,协调第三方服务商。 - 自动化与效率提升
· 使用Ansible/SaltStack实现配置管理和自动化部署。
· 编写Shell脚本实现一键部署和服务管理。
· 基于GitLab/Jenkins搭建CI/CD流水线,支持开发团队高效交付。 - 监控与安全
· 搭建和维护监控系统。
· 实施系统安全防护。
· 日志分析和故障排查,保障系统7×24小时稳定运行。 - 团队协作与管理
· 编写运维SOP和培训文档,指导值班团队处理常规任务。
· 协调部门资源,管理项目部署。
· 负责AP/WLAN网络维护。
【技术栈要求】 - 操作系统与脚本:精通Linux系统及常用命令,熟练编写Shell脚本(sed/awk/grep)。
- 服务与中间件:熟悉NFS、VSFTP、DNS、LNMP架构、Tomcat、Redis/Memcached。
- 负载与高可用:掌握HAProxy、LVS、Keepalived、Nginx反向代理与负载均衡。
- 数据库:熟悉MySQL操作(增删改查、备份恢复、性能调优)。
- 自动化工具:熟练使用Ansible/SaltStack实现自动化运维。
- 监控与日志:有Prometheus、ELK、Open-Falcon、Graylog实战经验。
- 云与安全:熟悉公有云(AWS/Azure/阿里云等),具备iptables安全防护能力。
- 容器化:基本掌握Docker及Dockerfile编写。
4、【运维总监】
有RedHat系统工程师、HCSE/HCNE、MCSE、CISSP、ITIL、云厂商认证者优先。有大规模云平台规划、容器化改造、多云迁移经验者优先。有网上银行安全建设、金融级监控、合规审计经验者优先。
【技术栈要求】
- 中间件与负载均衡:精通LVS、Nginx、HAProxy,具备Nginx+Lua二次开发经验。
- 网络与CDN:熟悉智能DNS、CDN技术,具备路由器/交换机/防火墙规划实施能力。
- 容器与云原生:精通Docker、Kubernetes,具备生产环境容器化架构设计和迁移经验。
- 自动化运维工具:熟练使用SaltStack/Ansible,具备二次开发能力;熟悉Jenkins Pipeline设计。
- 开发与脚本能力:掌握Python、C#、VBS、PowerShell,有自动化运维平台开发经验(Django+Bootstrap)。
- 监控与安全:精通Zabbix、ELK;熟悉安全防护体系(WAF/IPS/IDS/DLP),具备CISSP级安全实践。
- 微软技术栈:熟悉AD、Exchange、组策略、SCCM等企业级微软解决方案。
【经验要求】 - 云平台与成本优化:有云资源优化经验(如年节约成本超千万),主导过跨云迁移(如阿里云→华为云)。
- 运维体系建设:独立设计CMDB、账单系统、统一监控平台、工单系统,实现资源生命周期管理。
- CI/CD与发布体系:设计灰度发布平台(蓝绿/滚动发布),将发布效率从分钟级提升至秒级。
- 安全与合规:有金融行业信息安全经验,主导通过ISO27001、等保三级认证,落地DLP防泄露方案。
- 团队与流程管理:具备运维团队组建、ITIL流程推广、跨部门协作推动能力。
5、【K8S运维工程师】
· 金融科技、大型互联网或正在进行深度云原生转型的传统企业者优先。· 有ArgoCD或其他GitOps工具的实际项目经验者优先。· 有大型平台(支撑100+节点/50+微服务以上)的搭建和运维经验者优先。
【岗位职责】
1、平台设计与维护: 负责生产级高可用Kubernetes多集群的规划、部署、升级、故障排查和性能调优。
2、CI/CD流程建设: 维护和优化基于Jenkins/GitLab/ArgoCD的CI/CD流水线,实现自动化构建、测试、安全扫描和灰度发布,提升交付效率和质量。
3、可观测性体系建设: 维护和深化监控告警体系与日志系统,确保对基础设施、K8s集群及业务应用的全面可观测,快速定位并解决故障。
4、安全与合规: 实施并维护RBAC、NetworkPolicy、Harbor镜像扫描、安全审计等安全策略,确保平台符合等保三级等安全合规要求。
5、自动化与效率提升: 编写Ansible Playbook、Shell脚本等,自动化日常运维任务,实现环境的快速交付和标准化管理。
6、中间件与数据库运维: 负责Nginx、Redis、MySQL、Elasticsearch等中间件的部署、维护、容量规划和性能优化。
【任职要求】
1、精通Kubernetes核心概念及网络、存储、安全原理。
2、熟练使用Helm进行应用包管理,具备编写和维护Chart的能力。
3、具有丰富的CI/CD工具链实践经验,熟悉自动化构建和发布流程。
4、具备强大的监控排查能力,熟练使用Prometheus、Grafana构建监控大盘和告警规则。
5、熟练使用Ansible等自动化配置管理工具,精通Shell脚本编程。
6、熟悉Linux操作系统的运维和性能优化。
6、【运维工程师】
· 拥有高并发、高可用Web项目的运维经验,有直播行业经验者优先。· 有自建CDN、自建直播流服务器、防封解决方案等特殊项目经验者优先。· 有完整搭建和维护ELK日志系统经验者优先。
【主要职责】
- 系统架构与运维(70%)
· 负责Linux服务器的规模化部署、性能调优、安全加固及日常巡检。
· 构建、维护和优化LNMP/LAMP架构,确保Web服务的高可用性。
· 使用KVM、Docker等虚拟化与容器技术部署和管理应用环境。
· 设计并实施基于Prometheus的全方位监控体系,覆盖Web服务、数据库、负载均衡、存储等,并处理告警。
· 负责MySQL数据库的日常维护、SQL语句优化及数据备份恢复策略。
· 通过Shell/Python脚本自动化日常任务,如日志分析、数据备份、证书管理等。 - 云平台与网络管理 (20%)
· 管理多家云服务商的资源,包括ECS服务器购买、配置、CDN加速、域名解析与管理。
· 自建并维护CDN和直播流服务,优化全球访问体验。
· 负责网络规划、节点部署及基本网络故障排查。
· 负责SSL证书的自动化申请、部署和更新。 - Devops与协作 (10%)
· 配合前技术团队完成代码和系统交接,并实现持续集成/持续部署(CI/CD)流程。
· 搭建并维护ELK日志集中分析系统,为开发提供日志查询支持。
· 与开发、运营及第三方外包(如支付、AG真人接口)团队紧密协作,处理线上故障,优化系统性能。
· 响应并快速处理各类线上运维紧急事件。
【必备技能】
1· 精通 Linux操作系统,具备深度的系统性能优化与安全加固能力。
2· 精通 Nginx、PHP等Web服务的配置、调优和高可用方案。
3· 熟练 使用KVM、Docker等虚拟化与容器技术。
4· 熟练 搭建和配置Prometheus监控系统,并能编写自定义监控项。
5· 熟练 进行MySQL数据库管理、SQL优化及日常维护。
6· 精通 Shell脚本编程,有使用Python/Go进行自动化开发的能力者优先。
7· 熟悉 主流云平台(AWS/阿里云/腾讯云)的产品和服务操作。
8· 具备 基本的网络知识,能进行网络规划和故障排查。
7、【DevOps 工程师 】
· 有从零开始构建和维护等保二级/三级合规系统的经验者优先。 · 有全栈开发经验,有自动化运维工具二次开发经验者优先。 · 熟悉 ITIL、PMP 等项目管理或服务管理流程者优先。
【主要职责】
- 云原生平台与CI/CD体系建设: 负责基于Kubernetes的容器化平台的建设、运维和优化,设计并落地高可用、高性能的CI/CD自动化流水线(Jenkins/GitLab CI),管理Harbor、Nexus等组件,提升交付效率和质量。
- 公有云与基础架构管理: 负责管理阿里云、腾讯云等公有云资源,包括VPC、安全组、ECS、中间件等,进行合理的规划、成本控制和性能优化。
- 监控与应急响应: 构建并维护基于Prometheus、Grafana、ELK等工具的立体化监控、日志和告警体系,制定并执行应急预案和熔断降级策略,保障关键服务SLA不低于99.95%。
- 安全与合规: 参与制定和实施网络安全策略、数据备份与灾难恢复方案,主导或协助完成等保三级等安全合规性建设。
- 自动化与工具开发: 使用Python、Vue等技术,设计开发自动化运维工具和平台,减少人工干预,实现运维工作的自动化、智能化。
【必备技能】:
1、精通Linux操作系统,能熟练处理系统性能、故障问题。
2、精通Kubernetes、Docker等容器化技术,有丰富的集群管理和运维经验。
3、精通Jenkins、GitLabCI等CI/CD工具的搭建和流水线编排。
4、熟练掌握Python/Shell编程语言,有自动化脚本开发能力。
5、熟悉MySQL、Redis等数据库的运维和调优。
6、熟悉Prometheus、Grafana、Zabbix、ELK等至少一种监控日志方案。
7、熟悉阿里云、腾讯云等公有云产品的使用和运维。
8、【运维开发工程师】
有从零开始构建运维体系或自动化平台的经验者优先。熟悉网络安全、堡垒机、AD域控、VMware虚拟化等技术者优先。熟悉Ansible、SaltStack等自动化配置管理工具者优先。
【主要职责】
- 云原生与DevOps体系建设: 负责设计、实施和优化基于Kubernetes的容器化平台和CI/CD流水线(Jenkins/GitLab),提升产品交付效率和质量。
- 自动化运维平台开发: 主导或核心参与内部自动化运维平台的前后端设计、开发与迭代(技术栈:Django/DRF/Vue),实现基础设施即代码(IaC)和运维流程自动化。
- 高可用与监控体系保障: 构建并维护全方位的监控、日志、告警系统(如Prometheus/Grafana/ELK),确保系统SLA;制定并执行灾备、应急响应和安全策略,满足等保三级等合规要求。
- 混合云/公有云管理: 管理腾讯云、阿里云等云资源,包括网络、计算、存储及中间件服务的规划、运维和成本优化。
【必备技能】
1· 精通 Python 和 Shell 编程,具备扎实的编码能力。
2· 熟练掌握 Django/DRF 后端框架和 Vue 前端框架,具备全栈开发经验。
3· 深入理解 MySQL、Redis 等数据库的原理和使用,能进行性能优化。
4· 具有丰富的 Kubernetes、Docker 容器化实践经验,熟悉微服务治理。
5· 精通 Jenkins, GitLab 等工具,能独立设计并落地CI/CD流水线。
6· 深入理解Linux操作系统,具备强大的问题排查和性能调优能力。
9、【容器平台工程师】
· 有主导云迁移(如百度云、阿里云、AWS)或容器化改造项目经验。 · 有设计或管理CI/CD流水线的经验。 · 熟悉主流云平台(阿里云/腾讯云/AWS)的服务。
【主要职责】
1、容器平台设计与运维: 负责大规模、多环境Kubernetes集群的规划、部署、日常运维、性能调优和故障排查。
2、平台可观测性: 构建和完善基于Prometheus等工具的监控、告警、日志体系,保障平台和业务的SLA,具备处理海量监控数据(百万级指标)的经验。
3、平台安全与合规: 落实集群安全策略,包括认证授权、网络策略、安全扫描、漏洞管理和定期安全演练,确保平台符合安全规范。
4、CI/CD与DevOps: 管理和优化基于Kubernetes的CI/CD流水线,提升开发团队的交付效率和应用部署体验。
5、云架构与灾备: 参与云原生架构设计、云平台迁移及灾备方案的设计与实施,保障业务连续性。
6、自动化与工具开发: 使用Python/Shell等脚本语言编写自动化工具,实现运维工作的自动化、标准化。
【任职要求】
1、精通Kubernetes和Docker的原理与运维,具备大规模生产环境集群的实战经验。
2、深入理解Kubernetes网络模型,熟练使用Flannel、Calico等至少一种CNI插件。
3、熟练使用Prometheus构建监控体系,有Zabbix等传统监控工具优化经验者优先。
4、精通Linux操作系统,具备强大的系统调优和故障排查能力。
5、熟练掌握Python或Shell脚本编程,有自动化开发经验。
6、具备MySQL、Redis等数据库的运维和性能优化经验。
10、【云架构&运维】
· 3年以上大型企业IT基础设施架构设计、运维或云迁移相关经验者优先。· 拥有主导至少2个以上大型业务系统(如电商、CRM、金融平台等)上云或容器化迁移的成功项目经验者优先。· 具备从零开始设计或彻底优化现有基础设施架构的经验者优先。
【主要职责】
- 云与基础设施架构设计:
· 负责集团混合云(公有云如Azure/Aliyun/AWS、私有云/IDC)的整体架构规划、设计及持续优化。
· 主导IAAS/PAAS层技术选型与方案落地,包括计算、网络、存储、安全及中间件服务。
· 制定并推行基础设施的容量规划、成本管控和高可用性/灾备策略。 - 容器化与云原生技术实践:
· 主导Kubernetes容器云平台的搭建、运维、调优和生命周期管理。
· 推动微服务架构的容器化编排、CI/CD流水线建设、自动化发布与灰度发布体系。
· 负责容器云平台的安全加固、性能监控、弹性伸缩和DR演练。 - 运维体系与SRE:
· 构建和优化基于Prometheus/Grafana、Zabbix、ELK/SLS的现代化可观测性体系,实现精细化监控、日志分析和APM应用性能管理。
· 推行SRE理念,通过自动化工具和流程降低系统故障率,提升服务SLA。
· 建立和标准化运维SOP,确保系统运维的规范性和高效性。 - 技术领导与项目管理:
· 主导关键基础设施项目,如大规模系统上云/迁移、核心业务系统容器化改造等。
· 为开发团队提供基础设施方面的技术咨询和最佳实践指导,推动DevOps文化落地。
· 具备带队经验,能够协调内外部团队,管理项目进度,确保高质量交付。
【任职要求】
1、云计算平台: 精通至少两家主流公有云(Azure、阿里云为佳,AWS亦可),熟悉其核心服务。
2、容器与编排: 精通Docker和Kubernetes,有生产环境集群管理和故障排查经验。
3、运维与监控: 熟练掌握Zabbix, Prometheus, Grafana, ELK等监控日志工具。有APM工具使用经验。
4、自动化与DevOps: 精通至少一种CI/CD工具。熟悉Ansible、Helm、Istio等技术。
5、网络与安全: 深入理解云网络、VPN、负载均衡、防火墙及Web应用安全。
6、数据库与存储: 熟悉主流数据库的运维管理、备份恢复和高可用方案。
11、【云原生运维】
· 3 年以上基础设施运维/DevOps 经验,有智算中心、AI 或大规模集群项目背景者优先。 · 具备从零搭建运维体系的成功案例者优先(自建 K8s 存储、成本优化、灾备设计)
【岗位职责】
- 智算中心基础设施搭建与运维:
· 负责智算中心建设方案的调研与实施,包括机房规划、GPU 资源管理、存储方案(如 Ceph/BeeGFS)选型。
· 自建和维护 Kubernetes 集群,确保高可用性和性能优化。 - 自动化与 CI/CD 流水线:
· 设计和优化 CI/CD 流程(使用 Tekton/ArgoCD/Jenkins),实现前后端自动构建与发布。
· 开发自动化脚本提升部署效率,如设备初始化、数据集恢复。 - 监控、日志与可视化:
· 搭建和维护监控告警系统及日志系统,实现运维可视化。 - 存储与灾备管理:
· 负责分布式存储集群(Ceph/MinIO)的搭建、性能测试与调优。
· 设计多云灾备方案,确保业务连续性。
【任职要求】
1、精通 Shell/Python 编程,有自动化脚本开发经验。
2、熟练使用 Ansible、Terraform 等自动化工具,以及 CI/CD 工具链。
3、丰富的容器经验,包括集群搭建、维护和弹性伸缩设计。
4、熟悉监控日志系统(Prometheus/ELK)和高可用工具(Nginx/KeepAlived)。
12、【SRE运维】
· 有从零开始搭建和维护大型运维平台或基础设施的经验者优先。 · 具备金融、电商或其他高并发、高可用性要求行业的项目背景者优先。 · 持有CKA、CKAD、阿里云ACP、AWS SAA等相关认证者优先。
【主要职责】
- 云平台与基础设施管理: 负责公司多云(腾讯云为主,阿里云/AWS为辅)策略的规划、实施和日常运维,优化资源成本与架构。
- 容器化与云原生平台建设: 负责Kubernetes集群的搭建、优化、日常维护和故障处理,推动服务容器化改造和落地。
- CI/CD体系建设: 主导CI/CD流程的设计与实现,编写和维护Jenkins Pipeline ,实现高效的自动化构建、测试和部署。
- 自动化运维推进: 使用Ansible等工具编写自动化脚本,消除重复性手工操作,不断提升运维自动化水平。
- 监控与可观测性: 构建和完善基于Prometheus、Grafana、Loki的监控、告警和日志体系,确保问题能快速发现、定位和解决。
- 运维规范与最佳实践: 制定并推行应用部署、中间件使用、安全加固等方面的技术规范和标准。
- 故障处理与性能优化: 作为核心技术骨干,处理线上重大故障,并对系统(特别是JVM和中间件)进行深度性能调优。
【任职要求】
1、精通Linux操作系统和网络原理。
2、精通Kubernetes、Docker等容器化技术,有生产环境集群管理经验。
3、精通CI/CD理念和工具(如Jenkins),具备Pipeline-as-Code的实践经验。
4、精通至少一种自动化配置管理工具(Ansible优先)。
5、熟悉至少一种主流云平台(腾讯云、阿里云或AWS)。
6、熟悉Java应用生态,具备JVM调优和问题诊断能力。
7、熟悉常用中间件(Nginx, Tomcat, Redis等)的配置与优化。
8、具备优秀的脚本编写能力(Shell/Python/Groovy等)。
13、【SRE运维工程师】
· 有华为云、OpenStack私有云建设经验者优先。 · 主导过从传统架构到容器化架构的成功转型项目者优先。 · 持有PMP、CKA等相关认证者优先。
【主要职责】
- 系统架构与稳定性保障:
· 负责大规模(千节点级别)Kubernetes容器平台的规划、部署、升级、调优和日常运维,确保其高可用性和高性能。
· 设计和实施高可用、负载均衡及容灾方案,对系统的高可用性、稳定性、安全性负责。
· 主导监控告警体系(如Prometheus/Grafana、ELK)的建设与优化,实现故障的快速发现、定位与恢复。 - 自动化与效率提升:
· 主导CI/CD流水线的设计与持续改进,推动开发和部署流程的自动化。
· 编写自动化脚本和工具(Ansible/Shell/Python),自动化日常运维操作,提升运维效率。 - 项目管理与团队领导:
· 作为关键项目的技术负责人或交付经理,把控项目进度、质量和风险,确保项目按时高质量交付。
· 领导运维团队(10-30人规模),负责团队建设、任务分配、技术培训、绩效考评(KPI制定)等。
· 建立和完善运维知识库、技术文档体系,推动运维流程标准化(ITIL/ITSM)。 - 客户支持与价值交付:
· 深入理解客户需求,为客户提供高水平的技术支持、解决方案和运营报告,提升客户满意度。
· 识别系统潜在风险,输出高质量的技术文档和操作手册,为客户业务保驾护航。
【任职要求】
1、 精通Kubernetes原理及生态,有大规模生产环境集群的搭建和管理经验。
2、 熟练掌握至少一种自动化运维工具(如Ansible)和脚本语言(Shell是必须,Python更佳)。
3、 具备丰富的监控日志系统(如Prometheus、Zabbix、ELK)的搭建和运维经验。
4、 对系统高可用、网络安全、性能调优有深刻理解和实践经验。
5、 具备优秀的沟通能力、项目推动能力和客户服务意识。
工作环境
提供住宿


