1. 运维团队管理: - 领导运维团队,负责平台的稳定性和高可用性,确保所有关键服务24/7运行无故障。 - 制定并优化运维流程、标准,提升团队工作效率和质量。 2. 平台稳定性管理: - 监控和分析平台性能,快速响应并解决系统故障、网络问题及其他技术问题。 - 协调并推动与开发、产品、技术支持等部门的合作,确保平台的稳定运行。 - 制定灾难恢复计划,并定期进行演练,确保系统故障时能够迅速恢复服务。 3. 技术架构优化: - 参与设计和优化系统架构,确保平台的可扩展性、可用性和安全性。 - 协助产品团队进行系统功能更新,优化运维支持,提升用户体验。 4. 自动化工具开发与实施: - 推动自动化运维工具的开发与实施,减少手动操作,提高工作效率。 - 与研发团队合作,推动CI/CD流程,提升持续集成和部署的自动化水平。 5. 故障应急与问题管理: - 快速响应和处理突发的技术故障,协调各方进行故障排查和解决,确保快速恢复服务。 - 通过事后复盘,持续优化应急处理流程和运维体系,减少未来故障发生。 6. 监控与报告: - 构建和维护平台运行健康的监控系统,提供系统性能、运行状况和问题趋势的报告。 - 定期向管理层汇报运维状态、关键KPI指标和服务可用性,提出改进建议。
1. 学历要求:计算机相关专业本科及以上学历,具有运维管理经验者优先。 2. 工作经验: - 1 年以上大型互联网/区块链平台的运维管理经验,具有交易所或金融平台运维经验者优先。 - 熟悉云计算、大数据、容器化技术(Docker、Kubernetes等)及微服务架构。 - 熟练掌握Linux操作系统,具有丰富的故障诊断与排除经验。 - 有自动化运维经验,熟悉常见的自动化运维工具(如Ansible、SaltStack等)。 3. 技术能力: - 精通脚本语言(如Python、Shell等),有开发自动化脚本的经验。 - 熟悉网络协议、数据库和高可用架构,有搭建分布式系统、负载均衡等相关经验。 - 有监控系统经验,熟悉Prometheus、Zabbix、Grafana等工具。 4. 沟通与领导能力: - 良好的团队领导能力,能够协调和推动不同团队之间的合作。 - 强烈的责任心和风险意识,能够承受一定的工作压力。 - 良好的沟通技巧,能够清晰地表达技术问题和解决方案。 加分项: 熟悉区块链技术及交易所业务,具备相关行业背景者优先。 有安全运维经验,能够处理DDoS、渗透测试等安全事件者优先。
远程办公 办公设备、 晋升空间,加薪空间