大数据计算MaxCompute使用pyodps 和 odpssql对mc表数据清洗处理 哪个效率高?[阿里云MaxCompute]

“1.大数据计算MaxCompute使用pyodps 和 odpssql对mc表数据进行清洗处理 哪个效率会高一些呢?
2.大数据计算MaxCompute mc的cte 产生的临时结果集 的生命周期有多长呢 可以在odps sql 节点 里面使用么?”

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
1 条回复 A 作者 M 管理员
  1. 使用 pyodps 对 MaxCompute 表数据进行清洗处理一般比使用 odpssql 效率更高。原因如下:

    1. PyODPS 是一个 Python 包,支持所有 SQL 功能并提供了 DataFrame 等高级操作,比 odpsql 更适合于数据清洗。
    2. PyODPS 提供了一系列函数和模块,能够快速完成数据清洗任务。
    3. PyODPS 支持多线程处理,因此可以加快处理速度。
  2. CTE(公共临时表)的存在时间是有限制的,一般是在一个SQL查询之内。因此,在同一个查询中可以多次引用相同的CTE。一般来说,ODPS SQL节点可以支持CTE的使用,