更新于 1月21日

XML数据工程师

面议
  • 北京东城区
  • 3-5年
  • 硕士
  • 全职
  • 招1人

职位描述

数据仓库数据治理数据建模
【岗位职责】

1.期刊XML数据标准制定与实施(核心重点)

a. 负责分析不同标准的期刊XML数据(如JATS、BITS、CrossRef等),制定符合我司业务需求的内部统一数据标准和规范。

b. 设计并开发强大的XML解析、验证、清洗和转换(ETL/ELT)流程,确保数据能准确映射到目标模型。

c. 建立数据质量监控规则和校验体系,对入库的期刊XML数据进行自动化质量检查和报告,确保数据的完整性、准确性和一致性。

d. 解决XML数据处理中遇到的复杂技术问题,如处理大型XML文件、解析复杂嵌套结构、字符编码问题等。

2.数据管道与平台开发(通用数据工程师职责)

a. 设计、构建和维护稳定、可扩展的数据管道,负责期刊数据从采集、处理到存储的全链路。

b. 管理和优化数据仓库/数据湖中相关数据模型,确保其能满足下游业务(如检索、推荐、分析)的需求。

c. 与数据科学家和分析师协作,为其提供高质量、易用的数据集合。

3. 标准维护与协作

a. 持续跟踪学术出版行业的数据标准演进,并据此优化内部标准和处理流程。

b. 与内容获取、产品经理和研发团队紧密协作,理解业务需求,并将其转化为技术方案。

c. 编写清晰的技术文档,包括数据标准说明书、数据处理流程说明和系统设计文档。

【任职要求】

1. 工作经验

a. 学历要求:硕士以上学历(211,985,双一流院校优先),计算机及相关专业优先

b. 3年以上数据工程师或相关领域工作经验。

c. 必须具备扎实的XML/JSON等结构化数据处理经验,熟悉XPath, XSLT, XML Schema (XSD) 等相关技术。

d. 拥有构建和维护ETL/ELT数据管道的实战经验。

2.技术技能:

a. 编程语言: 精通 Python 或 Java/Scala,并具备使用其处理XML/JSON数据的能力(如使用lxml, ElementTree, BeautifulSoup等库)。

b. 数据存储: 熟悉至少一种关系型数据库(如PostgreSQL, MySQL)和一种NoSQL数据库(如MongoDB)。

c. 大数据技术: 熟悉至少一种大数据处理框架,如 Spark(优先考虑)、Flink,或熟练使用SQL进行复杂数据处理。

3.软技能:

a. 对数据质量有极高的要求,做事严谨、细致,有强烈的责任心。

b. 具备优秀的逻辑分析和问题解决能力,能独立解决复杂的数据问题。

c. 具备良好的沟通能力和文档撰写能力。

4.优先考虑条件(加分项)

a. 有学术出版、数字图书馆、知识服务等相关行业背景,熟悉 JATS 等期刊标记标准。

b. 有使用或解析 Elsevier, Springer Nature, Wiley 等大型出版社XML数据的经验。

c. 有数据治理、数据质量管理或元数据管理相关项目经验。

工作地点

北京市东城区东黄城根北街16号科学出版社

职位发布者

孙超/HR

三日内活跃
立即沟通
公司Logo中国科技出版传媒股份有限公司
科学出版社由中国科学院编译局与1930年创建的龙门联合书局于1954年8月合并成立;2007年4月转制改企为科学出版社有限责任公司;2011年完成股份制改造,整体变更设立为中国科技出版传媒股份有限公司(以下简称“公司”)。2017年1月18日,公司在上海证券交易所主板挂牌上市(股票简称:中国科传,股票代码:601858),成为中央出版集团上市第一股。60多年来,科学出版社依托中国科学院,秉承多年来形成的“高层次、高水平、高质量”和“严肃、严密、严格”的优良传统与作风,坚持为科技创新服务、为科学传播服务、为广大作者和读者服务的宗旨,面向世界科技前沿,面向国家重大需求,面向国民经济主战场,充分挖掘国内外优良出版资源,重视重大出版工程建设,形成了以科学(S)、技术(T)、医学(M)、教育(E)、人文社科(H)为主要出版领域的业务架构。目前科学出版社每年出版新书4000多种,期刊300多种,拥有《中国科学》杂志社有限责任公司、北京龙腾八方文化有限责任公司、北京中科进出口有限责任公司等23个下属分、子公司;在成都、武汉、南京、西安、石家庄、沈阳、广州、苏州,以及美国、日本、法国均设立了分支机构,建立了完善的全球出版、发行网络,是国内最大的综合性科技出版机构。公司始终坚持“专业化、精品化、系列化”的出版理念,高度重视重大重点出版工程建设,入选国家出版基金项目42项;入选国家科学技术学术著作出版基金项目占总数的一半以上;入选“十二五”国家图书重点出版规划项目90个、“十三五”国家重点图书出版规划项目70个;入选“三个一百”原创出版工程15种;等等。公司入选各类出版基金和国家级规划项目的数量均在全国出版社中位列前茅。公司还拥有一个高水平、高质量、多品种的期刊方阵,2019年,公司年出版期刊347种,其中英文期刊131种,被SCI(《科学引文索引(Science Citation Index)》)收录53种、被EI(《工程索引(Engineering Index)》)收录50种,有14种位于国际同类期刊Q1区。其中,《中国科学》、《科学通报》系列(简称“两刊”)中英文17种期刊,是在中国科学院学部平台上运作和管理的高水平学术期刊,是我国自然科学期刊中的知名品牌,曾获得第一、二、三届国家期刊奖,第二、三、四届中国出版政府奖期刊奖等荣誉。高端综述性学术期刊《国家科学评论》(National Science Review)最新影响因子(2022)达17.275,在全球多学科综合类期刊中排名第三。公司积极响应中央文化“走出去”战略部署,与20多个国家和地区的200多家出版公司建立了长期的良好合作关系,并在设立美国、日本全资子公司的基础上,于2019年完成了对法国EDP Sciences 100%股权的收购,完善了全球业务布局。近年来,每年输出图书版权均位居科技出版社之首,先后荣获全国版权输出先进单位、2008中国版权最具影响力企业、2015年全国版权示范单位等称号,并且连续多年被商务部、宣传部、财政部、文化部、广电总局等五部委联合评为“国家文化出口重点企业”。在出版业数字化转型的浪潮中,公司大胆创新,明确了从传统出版向知识服务转型发展的战略路径,确立了专业学科知识库、医疗健康大数据、数字教育云服务等业务创新转型的方向,并先后推出了“科学文库”、“CourseGate教育云平台”、“SCIPMED中科医学资源库”、“SciEngine中国科技期刊国际传播平台”等多款知识服务产品。其中,“SciEngine平台”入选“全国报刊媒体融合创新30佳”榜单,“科学文库”荣获“第二届中国出版政府奖音像电子网络奖”。 2015年,国家新闻出版广电总局还授予公司“专业数字内容资源知识服务模式试点单位”称号。
公司主页