数据管理和底座平台 2026年度体验升级

为了让明年的数据平台更懂您的痛点，不仅能跑得快，还能“更智能、易操作”，请您花5分钟帮我们做个问卷。

1.您的主要角色是

数据开发/分析师（重度使用）业务系统研发（侧重数据建模/服务）

2.您所属业务领域

营销（请填写具体子业务领域：运营、金融、风控、服务、配件、绩效）制造与供应链业财研发设备物联园区人力审计其他（事业部/智租/智管/....）

问卷主体部分将对不同角色进行痛点调研

您每周在数据相关工作上，大约有多少时间是耗费在等待排队、排查报错、修复数据质量、手动发布等工作上的？

＜ 2 小时2-5 小时5-10 小时＞ 10小时

您认为当前从“接到需求”到“数据上线”的整体周期中，最耗时的环节是？（单选）

需求沟通与确认模型设计与文档维护代码开发与调试数据验证与测试发布上线与审批上线后的运维排错

模块A:需求管理与设计

1. 在需求承接阶段，您遇到的最大阻碍是？（多选）

口径打架：业务方提的指标和现有口径不一致，反复沟通确认重复假设：不知道类似的报表之前是否做过，导致重复造轮子变更随意：需求文档与最终代码不一致，缺乏变更记录评估困难：难以快速评估一个需求会对下游造成多大影响

2. 在模型设计阶段，最让您困扰的是？

标准难以落地：平台有命名规范，但写代码时经常想不起来，靠人工检查文档脱节：物理表结构（DDL）修改了，但模型设计文档（ER图）没更新。缺乏协同：多人开发同一个主题域时，容易出现表冲突或逻辑冲突。

3. 你期望在在该模块增加哪些功能

自动识别重复需求自动生成需求影响范围报告（血缘分析）需求文档自动转为初始模型设计建模文档线上化，模型图修改直接生成 DDL 并在库中执行自动检查字段命名是否符合公司词根库标准请输入你期望的功能

模块 B：开发、测试、部署上线模块

1. 在日常开发中，以下哪个环节最让您头疼？

任务依赖配置太复杂，跨项目依赖难管理任务发布流程繁琐，缺乏自动化测试，容易带Bug上线调度资源抢占严重，核心任务经常因为资源不足延迟代码调试困难，日志看不懂，定位问题要花半天部分任务遗留旧平台，跨平台依赖难配置

2.您目前的测试方式主要是?

裸奔（写完直接跑，没报错就算过）自己造数据，并手工抽样（Select limit 10 看看数据长啥样）同步生产数据，编写自动化测试脚本（校验行数、主键唯一性等）

3.在任务发布上线时，最困难的事情是？

依赖缺失：上线后发现依赖的上游任务还没上线回滚困难：新版本有问题，想切回昨天的版本，操作非常麻烦审批繁琐：改一行代码也要走很长的审批流程

4. 你期望在在该模块增加哪些功能

数据对比：自动对比修改前后代码产出的数据差异引入 DataOps 自动化流水线（自动代码扫描、自动化测试、一键发布回滚）单元测试库：内置常用的测试规则（如：空值率、波动率检查）生产数据脱敏导出：支持从生产导出脱敏数据进行验证测试一键发布/回滚：像 git 一样管理任务版本请输入你期望的功能

模块 D：数据质量与运维体验

1. 当上游业务系统（如CRM/ERP）表结构变更导致下游任务报错时，您通常会遇到哪些问题

任务挂了或数不对了才知道（被动）平台会有通知，知道任务卡住了，但不知道是卡在资源上还是锁等待上补数任务太多且依赖复杂，需要人工进行恢复，耗时长且引发业务抱怨

2.关于全链路血缘分析，您最迫切的需求是？

覆盖度（能看到跨系统的完整链路）准确性（现在的血缘经常断裂）穿透性（能直接从报表字段/指标穿透到底层源表字段）对指标、表、字段进行批量的影响分析

3.根据您的经验，目前造成数据质量问题（如数据不准、空值、产出延迟）的“头号杀手”通常是？

源端变更：业务系统（ERP/MES等）表结构或数据定义偷偷改了，未通知数据团队录入质量：一线业务操作不规范（如手动录入错误、测试数据混入），源头数据本身就是脏的开发逻辑：复杂的数据处理逻辑存在 Bug，或缺乏上线前的充分测试基础设施：任务调度拥堵、集群资源不足导致的数据延迟或丢失标准缺失：缺乏统一的指标口径定义，导致上下游对“准确”的理解不一致

4. 当负责的数据出现质量事故时，您目前的“发现途径”主要是什么？

在平台人工配置监控规则，自动发现并发出的报警自己上线后或日常看调度发现的下游投诉：业务方发现不对，找过来投诉的

5. 你期望在在该模块增加哪些功能

AI 自动学习历史波动，发现异常自动报警。监测到严重异常时，自动停止下游任务，防止错误数据扩散污染报表根因自动定位，报警时直接告诉我“是因为上游表X的字段发散请输入你期望的功能

1. 最常使用的功能模块

数据集成数据架构数据资产数据安全数据服务数据开发运维中心其他

2.在您的日常开发迭代中，当业务数据库发生表结构变更（DDL）时，您最希望数据平台如何感知？

人工通知数据团队，双方线下确认影响希望平台能自动监听 Binlog/DDL，自动识别变更并通知我下游的影响范围（如：改这个字段会影响 3 张报表），无需人工梳理只要不删除字段，希望下游数据任务能自动适应新增字段，不需要我做任何通知操作。

3. 当您的业务系统需要使用平台进行数据架构及数据模型设计时，目前存在哪些问题？

平台建模功能不完善，不支持某些DDL操作（例如更改字符集等）不支持自动备份/回滚：变更前自动快照表结构，变更失败支持一键回滚到上一版本逆向同步缺失：有时为了救火直接在库里改了字段，希望能反向同步回平台模型，否则下次用平台推就覆盖了体验繁琐，平台操作太慢，不如我直接写代码效率高

4.如果数据平台发现您的业务库中存在“脏数据”（如：格式错误、测试数据未清理），您希望平台如何反馈？

每周发一份质量体检报告给项目经理、技术经理，我们排期修复前置校验，提供一套校验接口，在数据同步时就帮我监测错误只要业务能跑通就行，历史脏数据清洗由数据团队负责

大数据底座相关

1、离线计算的性能瓶颈

A. 增量数据与全量采集合并慢，特别是SDL层全量表很大，但增量更新数据量很少，仍需需要消耗大量计算资源和时长B. 随着业务数据量的增长，任务逐渐变慢，需要不断增加计算资源（实际集群资源受限）C. 受限于离线采集频率和离线数据加工流程，数据的时效性无法保障D. 高峰期资源紧张，缺乏弹性机制E. 其它问题

2、离线计算的稳定性问题

A. IO冲突引发任务失败B. 大数据量任务容易OOM导致计算失败C. 小文件过多引发计算不稳定D. 缺乏事务支持，无法保证多任务之间的数据一致性E. 其它问题

3、目前flink+kafka+hudi的实时计算框架存在哪些问题

A. 开发门槛高B. 维护成本高，如后期排查问题困难C. 性能瓶颈，如Hudi更新性能不满足需求D. 稳定性问题，如多流join稳定性差E. 其它问题

4、对数据实时分析场景的需求

A. 无实时需求，离线数仓T+1可以满足B. 希望引入新技术提升入湖/仓效率，满足复杂分析的同时整体提升数仓分析时效性，如数据延迟<3小时级C. 有较多的准实时报表分析，对实时数仓有需求，能够接受延迟<1小时级D. 提供快速的交互式查询服务，可以让客户准实时查询业务明细数据，数据延迟<30分钟E. 其它需求

5、对帆软报表的需求

A. 报表大数据量导出效率和稳定性问题B. 报表大数据量导入效率和稳定性问题C. 简化数据权限配置，包括但不限于与LTC业务系统权限角色变更联动，与大数据体系内其它系统权限统一管理等D. 希望能够提供给业务报表开发使用E. 其它

6、数据安全方面的需求

A. 希望支持对象存储文件层面透明加解密，如防止云服务商从对象存储获取敏感数据B. 支持敏感和合规等数据删除场景C. 希望支持数据归档，实现冗余D. 其它需求

7、是否对预生产环境有需求

A. 没有需求B. 数据开发和测试对其有需求C. 业务建模对其有需求D. 客户对其有需求E. 其他

8、希望预生产环境具备的功能

A. 能够使用生产数据进行验证，提前发现数据问题B. 与生产和测试环境独立隔离，不影响现有生产应用C. 能够与数据开发管理平台（数据中台/海外数据合规平台）集成，简化预生产的发布流程D. 能让客户在帆软报表端验证

9、预生产环境在研发管理起到的作用

A. 提升数据质量B. 提升交付效率C. 降低交付成本（如频繁上线）D. 其它

10、对预生产环境的担忧

A. 数据权限和安全问题B. 数据一致性和协同(如营销项目依赖业财的表和任务，业财更新了生产但未更新预生产)C. 后期运维和使用问题D. 研发流程变长，增加开发的工作量E. 性能问题（如生产数据量太大）F. 部署成本高G. 其它

更多问卷复制此问卷