Flink有没有人知道doris 执行rollup 的时候,be 崩溃无法启动要如何处理啊?[阿里云实时计算 Flink版]

Flink有没有人知道doris 执行rollup 的时候,be 崩溃无法启动要如何处理啊,要怎么运维?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
1 条回复 A 作者 M 管理员
  1. 在执行 Doris rollup 操作时,BE 可能会出现崩溃的情况,此时需要及时排查原因并采取相应的措施。
    首先,您可以检查 BE 日志,查找崩溃的原因,例如硬件故障、资源占用过大等情况。同时,可以考虑恢复 BE 的数据,以避免数据损失。
    此外,请考虑减少 rollup 操作的并发度、调整参数和执行时间等,以降低压力。如果 BE 依然崩溃,请参考相关文档和社区讨论组,寻找有效的解决方案。

  2. 当Doris的BE节点在执行rollup操作时崩溃并无法启动,可能的原因有很多。以下是一些建议的处理方法和运维措施:

    1. 查看日志信息:首先,您应该检查BE节点的日志文件(例如be.out),以获取详细的错误信息。这些信息可以帮助您定位问题的根源。

    2. 检查配置:确保您的Doris配置符合生产环境的要求。例如,FE和BE节点的内存和磁盘配置应该足够大以满足您的工作负载。

    3. ROLLUP操作注意事项:ROLLUP是附属于Base表的,它是Base表的一种辅助数据结构。在Base表的基础上,您可以创建或删除ROLLUP,但不能在查询中显式地指定查询某个ROLLUP。是否命中ROLLUP完全由Doris系统自动决定。因此,确保您的ROLLUP操作不会违反上述规则。此外,ROLLUP的列必须存在于Base表中,并且Rollup的列永远是Base表列的子集。

    4. 检查硬件和网络:确保硬件和网络没有问题,这也可能导致BE节点崩溃。

    5. 使用supervisor进行管理:如果您配置了supervisor对Doris进程进行自动拉起,那么在BE节点出现非正常因素导致宕机时,错误堆栈信息可能会被supervisor拦截。在这种情况下,您需要在supervisor的log中查找进一步分析。