职位描述
ETL数据库开发数据中台开发JavaHadoopFlinkSpark
1. 数据任务开发:
- 熟悉Hadoop/Spark基础组件(HDFS/YARN/MapReduce)的核心功能。
- 精通复杂的Hive SQL任务,并能优化Hive SQL执行效率(分区裁剪、谓词下推)。
- 熟练开发Spark批处理任务,理解RDD/DataFrame执行原理,能优化Shuffle、内存配置。
2. 数据建模与架构:
- 熟练构建星型/雪花模型,根据业务场景设计数据模型。
3. ETL工具及调度:
- 熟练使用ETL工具(如Kettle)完成数据加工和处理,支持业务部门数据需求。
- 熟悉基础调度工具(如Airflow/DolphinScheduler)的任务配置与监控。
4. 数据集成:
- 设计多源异构数据集成方案(如API、日志文件、数据库混合接入),解决数据一致性冲突。
- 熟悉MySQL/Oracle等数据库的增删改查操作,了解索引等基础优化方法。
5. 报表开发:
- 能根据业务需求,设计多维度、多指标的复杂报表。
- 熟悉ClickHouse/DorisDB集群部署与查询优化。
6. 数据服务与工具开发:
- 开发数据质量监控脚本,识别异常数据并推动业务方修复。
- 使用Python/Java开发数据服务,培训业务人员使用自助分析工具。
7. 业务知识:
- 深入理解相关领域的基本业务概念和流程,能独立完成业务需求的开发,解决复杂问题。
- 熟悉Hadoop/Spark基础组件(HDFS/YARN/MapReduce)的核心功能。
- 精通复杂的Hive SQL任务,并能优化Hive SQL执行效率(分区裁剪、谓词下推)。
- 熟练开发Spark批处理任务,理解RDD/DataFrame执行原理,能优化Shuffle、内存配置。
2. 数据建模与架构:
- 熟练构建星型/雪花模型,根据业务场景设计数据模型。
3. ETL工具及调度:
- 熟练使用ETL工具(如Kettle)完成数据加工和处理,支持业务部门数据需求。
- 熟悉基础调度工具(如Airflow/DolphinScheduler)的任务配置与监控。
4. 数据集成:
- 设计多源异构数据集成方案(如API、日志文件、数据库混合接入),解决数据一致性冲突。
- 熟悉MySQL/Oracle等数据库的增删改查操作,了解索引等基础优化方法。
5. 报表开发:
- 能根据业务需求,设计多维度、多指标的复杂报表。
- 熟悉ClickHouse/DorisDB集群部署与查询优化。
6. 数据服务与工具开发:
- 开发数据质量监控脚本,识别异常数据并推动业务方修复。
- 使用Python/Java开发数据服务,培训业务人员使用自助分析工具。
7. 业务知识:
- 深入理解相关领域的基本业务概念和流程,能独立完成业务需求的开发,解决复杂问题。
工作地点
广州番禺区万博中心

公司信息
公司介绍
【公司概况】深圳华云信息系统有限公司成立于2007年5月,坐落在中国广东省深圳市南山区高新科技园国家创新创业中心国家工程实验室大楼,是国内金融科技领域领先的IT系统建设及提供全套解决方案的高科技企业,公司业务覆盖基于FPGA的极速交易产品、AI+大数据相关解决方案、 IT基础设施建设与服务等领域 。华云信息拥有专业的软件产品设计和研发团队、优秀的市场销售团队、高效的业务交付团队,同时通过十多年的辛苦耕耘,积累了丰富的客户资源。华云信息专注于开发具有自主核心技术、知识产权的软件产品,致力于为客户构建从IT基础规划到方案落地再到业务创新的完整的价值链,帮助客户实施、管理和完善企业的信息系统,提供端到端的服务。面向未来,华云信息继续秉承“您所需,我所为”的服务理念,通过专业化的IT服务,推动技术向价值的转化,加快客户自身的变革转型,以己所长为我们的客户提升价值贡献一份力量。
工商信息
企业名称 深圳华云信息系统科技股份有限公司
企业类型 股份有限公司(非上市、自然人投资或控股)
法人代表 郭国峰
经营状态 存续
成立时间 2007-05-14
注册资本 7200万元
认证资质
营业执照信息

更新于 4月14日


