职位描述: 负责公司大数据平台的开发、优化与维护,参与数据采集、处理、建模及分析系统的设计与实现,支撑业务决策与智能化应用。 主要职责: 1. 参与大数据平台架构设计与技术选型,开发并维护数据处理管道(Data Pipeline)。 2. 使用 Hadoop / Spark / Flink 等框架实现数据清洗、ETL、聚合与计算任务。 3. 开发与优化 Hive / Presto / ClickHouse 等离线分析查询系统。 4. 设计并实现实时数据流处理(Kafka、Flink、Spark Streaming 等)。 5. 与数据分析师、算法工程师协作,提供高质量的数据接口与服务。 6. 负责大数据集群性能调优、资源监控、任务调度与异常处理。 7. 编写技术文档、制定开发规范,推动数据工程的标准化与自动化。
任职要求: 1. 本科及以上学历,计算机科学、软件工程、数据工程等相关专业。 2. 熟悉 Hadoop 生态(HDFS、YARN、Hive、HBase、Spark、Flink、Kafka 等)。 3. 精通 SQL,熟悉 Python / Java / Scala 等至少一种语言。 4. 具备 ETL 开发经验,熟悉数据仓库建模(维度建模、星型/雪花模型等)。 5. 熟悉 Linux 环境、Shell 脚本、常见数据调度工具(如 Airflow / Azkaban / DolphinScheduler)。 6. 有云端大数据平台经验(如 AWS EMR、GCP BigQuery、Azure Synapse、Aliyun MaxCompute)优先。 7. 具备良好的沟通能力、问题分析与解决能力,能够独立承担项目任务。 加分项: • 有实时计算、日志采集系统(如 Flink + Kafka + Druid)经验; • 熟悉数据安全、隐私保护及访问控制机制; • 有机器学习数据处理流程支持经验; • 有大型互联网或金融行业项目经验。
全球远程,有吸引力的薪酬、年假、良好的团队氛围和公司文化