flink on yarn 报错[阿里云服务器]

说明:flink 1.15 on yarn应用模式。

现在刚搭建了CDH6.3.2平台,然后在其中一台机器上安装了flink程序,
配置了如下环境变量
vim /etc/profile.d/my_env.sh
HADOOP_HOME=/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_CLASSPATH=hadoop classpath

最后执行
bin/flink run-application -t yarn-application ./examples/batch/WordCount.jar
进行flink测试。

报错如下:
2023-08-01 17:27:29,103 INFO org.apache.hadoop.ipc.Client [] – Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 6 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2023-08-01 17:27:30,104 INFO org.apache.hadoop.ipc.Client [] – Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 7 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2023-08-01 17:27:31,105 INFO org.apache.hadoop.ipc.Client [] – Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 8 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2023-08-01 17:27:32,105 INFO org.apache.hadoop.ipc.Client [] – Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2023-08-01 17:27:32,106 INFO org.apache.hadoop.io.retry.RetryInvocationHandler [] – java.net.ConnectException: Your endpoint configuration is wrong; For more details see: http://wiki.apache.org/hadoop/UnsetHostnameOrPort, while invoking ApplicationClientProtocolPBClientImpl.getClusterNodes over null after 1 failover attempts. Trying to failover after sleeping for 20859ms.

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
4 条回复 A 作者 M 管理员
  1. 同学你好,看报错应该是Flink在与YARN进行通信时出现了问题,YARN的端配置错误,可以尝试在Flink所在机器上使用telnet或nc命令测试连接ResourceManager的主机和端口。

    这类基本就是配置问题或网络不通,需要用排除法逐一检查。

  2. 根据您提供的错误日志,可以看出连接到YARN资源管理器(ResourceManager)的过程中出现了问题。具体报错信息为:java.net.ConnectException: Your endpoint configuration is wrong; For more details see: http://wiki.apache.org/hadoop/UnsetHostnameOrPort。

    这个错误通常是由于YARN的配置问题引起的。可能的原因和解决方法如下:

    1. 检查Hadoop配置文件:确认您在CDH6.3.2平台上正确配置了Hadoop的相关配置文件。特别是yarn-site.xmlcore-site.xml这两个文件中是否包含了正确的YARN ResourceManager的地址和端口配置。

    2. 检查网络连接:确保Flink程序所在的机器能够正常访问YARN ResourceManager的地址和端口。可以通过ping命令或telnet命令验证网络连接是否正常。

    3. 检查YARN服务状态:使用CDH管理界面或者命令行工具检查YARN服务的运行状态,确保YARN ResourceManager处于正常运行状态。

    4. 验证Hadoop环境变量:再次确认您在/etc/profile.d/my_env.sh文件中设置的Hadoop环境变量是否正确。可以尝试使用echo $HADOOP_HOME命令来检查是否正确设置了Hadoop的安装路径。

  3. 楼主你好,根据报错信息看,似乎是连接 YARN ResourceManager 失败了。无法确定问题具体原因,但建议检查以下几点:

    1. 检查 flink-conf.yaml 文件中的 yarn.resourcemanager.address 是否正确配置,应该是 yarn 的 ResourceManager 的 IP 地址或者域名。

    2. 检查 HADOOP_CONF_DIR 环境变量是否正确配置到了 Hadoop 的配置目录下,比如 $HADOOP_HOME/etc/hadoop 目录。

    3. 检查网络是否通畅,可以尝试 ping 一下 yarn 的 ResourceManager,确保能够连通。

    如果以上都正常,可以参考以下步骤进行调试:

    1. 查看 YARN ResourceManager 的日志,确认是否存在相应的错误信息。

    2. 尝试手动提交一个 YARN 应用程序,比如使用 hadoop jar 命令提交一个 MapReduce 程序,看是否能够正常提交和运行。

    3. 尝试使用 flink on standalone 模式进行测试,看是否存在相同的错误。如果在 standalone 模式下也存在同样的问题,那么问题可能与 Flink 配置有关。

  4. 据报错信息,可以发现连接到 YARN ResourceManager 时出现了问题,具体错误信息是:

    java.net.ConnectException: Your endpoint configuration is wrong; For more details see: http://wiki.apache.org/hadoop/UnsetHostnameOrPort

    这个错误通常是由于客户端配置问题引起的,可能是因为客户端使用了 0.0.0.0 或 0 等无效 IP 地址或端口。这是一个常见的问题,通常需要检查客户端配置是否正确。

    1. 检查yarn-site.xml配置,确保yarn.resourcemanager.hostname和yarn.resourcemanager.address配置正确,指向Resource Manager所在节点的主机名和IP。
    2. 检查core-site.xml配置,yarn.resourcemanager.webapp.address应该配置为Resource Manager的主机名:8088。
    3. 检查hadoop环境变量是否正确指向了Hadoop的安装目录。
    4. 确保Resource Manager服务已启动,端口8032和8088已开放。使用netstat -nltp | grep 8032和jps命令验证。
    5. 查看YARN的日志,是否有访问拒绝或其他错误信息。
    6. 尝试先用hadoop jar命令运行MapReduce作业,定位问题是否出在YARN配置还是Flink的YARN client。