说明:flink 1.15 on yarn应用模式。
现在刚搭建了CDH6.3.2平台,然后在其中一台机器上安装了flink程序,
配置了如下环境变量
vim /etc/profile.d/my_env.sh
HADOOP_HOME=/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_CLASSPATH=hadoop classpath
最后执行
bin/flink run-application -t yarn-application ./examples/batch/WordCount.jar
进行flink测试。
报错如下:
2023-08-01 17:27:29,103 INFO org.apache.hadoop.ipc.Client [] – Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 6 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2023-08-01 17:27:30,104 INFO org.apache.hadoop.ipc.Client [] – Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 7 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2023-08-01 17:27:31,105 INFO org.apache.hadoop.ipc.Client [] – Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 8 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2023-08-01 17:27:32,105 INFO org.apache.hadoop.ipc.Client [] – Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2023-08-01 17:27:32,106 INFO org.apache.hadoop.io.retry.RetryInvocationHandler [] – java.net.ConnectException: Your endpoint configuration is wrong; For more details see: http://wiki.apache.org/hadoop/UnsetHostnameOrPort, while invoking ApplicationClientProtocolPBClientImpl.getClusterNodes over null after 1 failover attempts. Trying to failover after sleeping for 20859ms.
同学你好,看报错应该是Flink在与YARN进行通信时出现了问题,YARN的端配置错误,可以尝试在Flink所在机器上使用telnet或nc命令测试连接ResourceManager的主机和端口。
这类基本就是配置问题或网络不通,需要用排除法逐一检查。
根据您提供的错误日志,可以看出连接到YARN资源管理器(ResourceManager)的过程中出现了问题。具体报错信息为:java.net.ConnectException: Your endpoint configuration is wrong; For more details see: http://wiki.apache.org/hadoop/UnsetHostnameOrPort。
这个错误通常是由于YARN的配置问题引起的。可能的原因和解决方法如下:
检查Hadoop配置文件:确认您在CDH6.3.2平台上正确配置了Hadoop的相关配置文件。特别是
yarn-site.xml
和core-site.xml
这两个文件中是否包含了正确的YARN ResourceManager的地址和端口配置。检查网络连接:确保Flink程序所在的机器能够正常访问YARN ResourceManager的地址和端口。可以通过ping命令或telnet命令验证网络连接是否正常。
检查YARN服务状态:使用CDH管理界面或者命令行工具检查YARN服务的运行状态,确保YARN ResourceManager处于正常运行状态。
验证Hadoop环境变量:再次确认您在
/etc/profile.d/my_env.sh
文件中设置的Hadoop环境变量是否正确。可以尝试使用echo $HADOOP_HOME
命令来检查是否正确设置了Hadoop的安装路径。楼主你好,根据报错信息看,似乎是连接 YARN ResourceManager 失败了。无法确定问题具体原因,但建议检查以下几点:
检查 flink-conf.yaml 文件中的 yarn.resourcemanager.address 是否正确配置,应该是 yarn 的 ResourceManager 的 IP 地址或者域名。
检查 HADOOP_CONF_DIR 环境变量是否正确配置到了 Hadoop 的配置目录下,比如 $HADOOP_HOME/etc/hadoop 目录。
检查网络是否通畅,可以尝试 ping 一下 yarn 的 ResourceManager,确保能够连通。
如果以上都正常,可以参考以下步骤进行调试:
查看 YARN ResourceManager 的日志,确认是否存在相应的错误信息。
尝试手动提交一个 YARN 应用程序,比如使用 hadoop jar 命令提交一个 MapReduce 程序,看是否能够正常提交和运行。
尝试使用 flink on standalone 模式进行测试,看是否存在相同的错误。如果在 standalone 模式下也存在同样的问题,那么问题可能与 Flink 配置有关。
据报错信息,可以发现连接到 YARN ResourceManager 时出现了问题,具体错误信息是:
java.net.ConnectException: Your endpoint configuration is wrong; For more details see: http://wiki.apache.org/hadoop/UnsetHostnameOrPort
这个错误通常是由于客户端配置问题引起的,可能是因为客户端使用了 0.0.0.0 或 0 等无效 IP 地址或端口。这是一个常见的问题,通常需要检查客户端配置是否正确。