字节跳动可观测性团队简介
我们团队是隶属于字节跳动基础架构的APM(服务端)团队,我们提供字节整体可观测性 (包括指标、链路、日志、事件)的基础设施和一站式可观测性平台。另一方面,我们会思考和探索在全球化背景下,中台的技术规范和标准能力建设,致力于为业务、业务中台、基础架构建设完整统一的可观测性技术支撑能力,提升整体中台以及字节跳动业务的研发效率和研发质量,持续降低业务在研发、线上排障、成本分析的接入成本和运营成本。
我们团队目前是一个两国多地团队,成员分布在 北京 / 上海 / 杭州/ 新加坡,整体规模数十人,各地研发中心没有总部和分部之分(将来也不会有),各地更多以方向进行划分,相对独立和闭环,跨地域协作主要依靠飞书线上办公进行。
Observability SaaS Platform 高级研发工程师
工作职责
- 打造一站式链路诊断、指标监控、(智能)报警、诊断工作流和自助修复平台
- 负责推动业务指标和调用链路的打点规范落地
- 提升排障效能和自动化效率
职位要求
- 熟悉常用Linux命令,熟练掌握Java/Golang/Python 任意一种语言,Golang优先
- 对于监控生态系统有二次开发及使用经验
- 熟悉Mysql或任一种关系型数据库,具有一定SQL书写功底和优化经验
- 工作认真踏实,有较强的学习能力和解决问题能力
- 产品意识强,善于贴近用户,提炼用户痛点,打造产品体验闭环
具备以下条件之一者优先
- 有全栈工具开发经验优先
- 有公司私有云PAAS平台的研发及优化经验优先
- 有针对复杂业务系统架构的实施经验优先
时序数据库TSDB存储组件研发工程师
工作职责
- 打造业界领先的 PB 级时序数据库,支撑字节跳动几乎所有产品线,如抖音、今日头条、TikTok
- 参与大规模分布式时序数据库的设计和开发,确保系统在极限场景下低延迟、高可用、易伸缩
- 深入理解业务场景的存储需求,推进时序存储的平台化
职位要求
- 熟悉C++/Go等语言,熟悉网络编程,多线程编程
- 了解分布式存储系统的实现原理
- 优秀的编码能力,针对业务场景设计和实现 in-house 系统;对工程质量有很高的自我要求
具备以下条件之一者优先
- 参与过TSDB 时序数据库(OpenTSDB,Influxdb,M3, Prometheus, Karios) 社区开发、调优优先考虑
- 熟悉SQL & SQL optimizer /coprocessor优先考虑
- 有过大型自研分布式存储系统经验者优先考虑
AIOps 平台高级研发工程师
工作职责
- 利用AI技术提升字节跳动线上监控平台的智能化,打造下一代AIOps智能运维系统
- 负责业务的监控项和告警项所产生的数据处理,涉及数据挖掘、异常检测、故障定位等前沿算法模型的研究及应用
- 构建以核心运维数据为基础的智能化监控生态,包括但不限于智能检测、告警聚合、诊断归因、自动恢复等核心功能
- 减轻运维人力成本,通过数据挖掘快速识别并定位异常问题,提高异常检测的准确性和时效性
职位要求
- 熟悉常用Linux命令,熟练掌握Java/Go/Python 任意一种语言
- 能够熟练使用Scikit Learn、Pandas、Numpy和Scipy开发框架
- 具备优秀的编程能力,有出色的算法实现能力及调优经验
- 对异常检测业务有一定理解,熟悉时序序列分析的常用算法,包括但不限于回归、分类、聚类、预测、 关联规则等算法
- 具备良好的英文阅读能力,善于发现业界及学术界前沿技术,并加以改良和落地
具备以下条件之一者优先
- 有时序数据产品或APM的开发经验
- 有运维开发经验者优先
- 有统计学背景的优先
投递简历
欢迎邮件简历至: liuhaoyang.qz@bytedance.com 我们将尽快安排面试。