数据管理和底座平台 2026年度体验升级
为了让明年的数据平台更懂您的痛点,不仅能跑得快,还能“更智能、易操作”,请您花5分钟帮我们做个问卷。
1.您的主要角色是
数据开发/分析师(重度使用)
业务系统研发(侧重数据建模/服务)
2.您所属业务领域
营销(请填写具体子业务领域:运营、金融、风控、服务、配件、绩效)
制造与供应链
业财
研发
设备物联
园区
人力
审计
其他(事业部/智租/智管/....)
问卷主体部分将对不同角色进行痛点调研
您每周在数据相关工作上,大约有多少时间是耗费在
等待排队、排查报错、修复数据质量、手动发布
等工作上的
?
< 2 小时
2-5 小时
5-10 小时
> 10小时
您认为当前从“接到需求”到“数据上线”的整体周期中,最耗时的环节是?(单选)
需求沟通与确认
模型设计与文档维护
代码开发与调试
数据验证与测试
发布上线与审批
上线后的运维排错
模块A:需求管理与设计
1. 在需求承接阶段,您遇到的最大阻碍是?(多选)
口径打架: 业务方提的指标和现有口径不一致,反复沟通确认
重复假设: 不知道类似的报表之前是否做过,导致重复造轮子
变更随意: 需求文档与最终代码不一致,缺乏变更记录
评估困难: 难以快速评估一个需求会对下游造成多大影响
2. 在模型设计阶段,最让您困扰的是?
标准难以落地: 平台有命名规范,但写代码时经常想不起来,靠人工检查
文档脱节: 物理表结构(DDL)修改了,但模型设计文档(ER图)没更新。
缺乏协同: 多人开发同一个主题域时,容易出现表冲突或逻辑冲突。
3. 你期望在在该模块增加哪些功能
自动识别重复需求
自动生成需求影响范围报告(血缘分析)
需求文档自动转为初始模型设计
建模文档线上化,模型图修改直接生成 DDL 并在库中执行
自动检查字段命名是否符合公司词根库标准
请输入你期望的功能
模块 B:开发、测试、部署上线模块
1. 在日常开发中,以下哪个环节最让您头疼?
任务依赖配置太复杂,跨项目依赖难管理
任务发布流程繁琐,缺乏自动化测试,容易带Bug上线
调度资源抢占严重,核心任务经常因为资源不足延迟
代码调试困难,日志看不懂,定位问题要花半天
部分任务遗留旧平台,跨平台依赖难配置
2.您目前的测试方式主要是?
裸奔(写完直接跑,没报错就算过)
自己造数据,并手工抽样(Select limit 10 看看数据长啥样)
同步生产数据,编写自动化测试脚本(校验行数、主键唯一性等)
3.在任务发布上线时,最困难的事情是?
依赖缺失: 上线后发现依赖的上游任务还没上线
回滚困难: 新版本有问题,想切回昨天的版本,操作非常麻烦
审批繁琐: 改一行代码也要走很长的审批流程
4. 你期望在在该模块增加哪些功能
数据对比: 自动对比修改前后代码产出的数据差异
引入 DataOps 自动化流水线(自动代码扫描、自动化测试、一键发布回滚)
单元测试库:内置常用的测试规则(如:空值率、波动率检查)
生产数据脱敏导出:支持从生产导出脱敏数据进行验证测试
一键发布/回滚: 像 git 一样管理任务版本
请输入你期望的功能
模块 D:数据质量与运维体验
1. 当上游业务系统(如CRM/ERP)表结构变更导致下游任务报错时,您通常会遇到哪些问题
任务挂了或数不对了才知道(被动)
平台会有通知,知道任务卡住了,但不知道是卡在资源上还是锁等待上
补数任务太多且依赖复杂,需要人工进行恢复,耗时长且引发业务抱怨
2.关于全链路血缘分析,您最迫切的需求是?
覆盖度(能看到跨系统的完整链路)
准确性(现在的血缘经常断裂)
穿透性(能直接从报表字段/指标穿透到底层源表字段)
对指标、表、字段进行批量的影响分析
3.根据您的经验,目前造成数据质量问题(如数据不准、空值、产出延迟)的“头号杀手”通常是?
源端变更: 业务系统(ERP/MES等)表结构或数据定义偷偷改了,未通知数据团队
录入质量: 一线业务操作不规范(如手动录入错误、测试数据混入),源头数据本身就是脏的
开发逻辑: 复杂的数据处理逻辑存在 Bug,或缺乏上线前的充分测试
基础设施: 任务调度拥堵、集群资源不足导致的数据延迟或丢失
标准缺失: 缺乏统一的指标口径定义,导致上下游对“准确”的理解不一致
4. 当负责的数据出现质量事故时,您目前的“发现途径”主要是什么?
在平台人工配置监控规则,自动发现并发出的报警
自己上线后或日常看调度发现的
下游投诉: 业务方发现不对,找过来投诉的
5. 你期望在在该模块增加哪些功能
AI 自动学习历史波动,发现异常自动报警。
监测到严重异常时,自动停止下游任务,防止错误数据扩散污染报表
根因自动定位, 报警时直接告诉我“是因为上游表X的字段发散
请输入你期望的功能
1. 最常使用的功能模块
数据集成
数据架构
数据资产
数据安全
数据服务
数据开发
运维中心
其他
2.在您的日常开发迭代中,当业务数据库发生表结构变更(DDL)时,您最希望数据平台如何感知?
人工通知数据团队,双方线下确认影响
希望平台能自动监听 Binlog/DDL,自动识别变更并通知我下游的影响范围(如:改这个字段会影响 3 张报表),无需人工梳理
只要不删除字段,希望下游数据任务能自动适应新增字段,不需要我做任何通知操作。
3. 当您的业务系统需要使用平台进行数据架构及数据模型设计时,目前存在哪些问题?
平台建模功能不完善,不支持某些DDL操作(例如更改字符集等)
不支持自动备份/回滚: 变更前自动快照表结构,变更失败支持一键回滚到上一版本
逆向同步缺失: 有时为了救火直接在库里改了字段,希望能反向同步回平台模型,否则下次用平台推就覆盖了
体验繁琐, 平台操作太慢,不如我直接写代码效率高
4.如果数据平台发现您的业务库中存在“脏数据”(如:格式错误、测试数据未清理),您希望平台如何反馈?
每周发一份质量体检报告给项目经理、技术经理,我们排期修复
前置校验, 提供一套校验接口,在数据同步时就帮我监测错误
只要业务能跑通就行,历史脏数据清洗由数据团队负责
大数据底座相关
1、 离线计算的性能瓶颈
A. 增量数据与全量采集合并慢,特别是SDL层全量表很大,但增量更新数据量很少,仍需需要消耗大量计算资源和时长
B. 随着业务数据量的增长,任务逐渐变慢,需要不断增加计算资源(实际集群资源受限)
C. 受限于离线采集频率和离线数据加工流程,数据的时效性无法保障
D. 高峰期资源紧张,缺乏弹性机制
E. 其它问题
2、 离线计算的稳定性问题
A. IO冲突引发任务失败
B. 大数据量任务容易OOM导致计算失败
C. 小文件过多引发计算不稳定
D. 缺乏事务支持,无法保证多任务之间的数据一致性
E. 其它问题
3、 目前flink+kafka+hudi的实时计算框架存在哪些问题
A. 开发门槛高
B. 维护成本高,如后期排查问题困难
C. 性能瓶颈,如Hudi更新性能不满足需求
D. 稳定性问题,如多流join稳定性差
E. 其它问题
4、 对数据实时分析场景的需求
A. 无实时需求,离线数仓T+1可以满足
B. 希望引入新技术提升入湖/仓效率,满足复杂分析的同时整体提升数仓分析时效性,如数据延迟<3小时级
C. 有较多的准实时报表分析,对实时数仓有需求,能够接受延迟<1小时级
D. 提供快速的交互式查询服务,可以让客户准实时查询业务明细数据,数据延迟<30分钟
E. 其它需求
5、 对帆软报表的需求
A. 报表大数据量导出效率和稳定性问题
B. 报表大数据量导入效率和稳定性问题
C. 简化数据权限配置,包括但不限于与LTC业务系统权限角色变更联动,与大数据体系内其它系统权限统一管理等
D. 希望能够提供给业务报表开发使用
E. 其它
6、 数据安全方面的需求
A. 希望支持对象存储文件层面透明加解密,如防止云服务商从对象存储获取敏感数据
B. 支持敏感和合规等数据删除场景
C. 希望支持数据归档,实现冗余
D. 其它需求
7、 是否对预生产环境有需求
A. 没有需求
B. 数据开发和测试对其有需求
C. 业务建模对其有需求
D. 客户对其有需求
E. 其他
8、 希望预生产环境具备的功能
A. 能够使用生产数据进行验证,提前发现数据问题
B. 与生产和测试环境独立隔离,不影响现有生产应用
C. 能够与数据开发管理平台(数据中台/海外数据合规平台)集成,简化预生产的发布流程
D. 能让客户在帆软报表端验证
9、 预生产环境在研发管理起到的作用
A. 提升数据质量
B. 提升交付效率
C. 降低交付成本(如频繁上线)
D. 其它
10、 对预生产环境的担忧
A. 数据权限和安全问题
B. 数据一致性和协同(如营销项目依赖业财的表和任务,业财更新了生产但未更新预生产)
C. 后期运维和使用问题
D. 研发流程变长,增加开发的工作量
E. 性能问题(如生产数据量太大)
F. 部署成本高
G. 其它
关闭
更多问卷
复制此问卷