Apache Nutch - Socket closed Exception beim Crawling

Ein Kunde verwendet für die Suchfunktion seines Webportals Apache Nutch zur Indizierung der Inhalte. Es fiel auf, dass plötzlich keine neuen Inhalte mehr erfasst wurden und im Log des entsprechenden Cores /apache-nutch/coreconf/core-xy/log/hadoop.log fand sich folgende Meldung:

2021-02-20 00:11:54,923 INFO api.HttpRobotRulesParser - Couldn’t get robots.txt for https://domainDesKunden/: java.net.SocketException: Socket is closed
2021-02-22 00:11:54,930 ERROR http.Http - Failed to get protocol output

Als Ursache des Problems stellte sich heraus, dass nach einer Aktualisierung der Webserver-Konfiguration der Webserver andere Ciphers für TLS Verbindungen verwendete. Apache Nutch konnte beim Crawlen das Webportal nicht mehr erreichen, weil keine Einigung auf einen gemeinsamen Cipher mehr möglich war. Eine Anpassung der Cipher in der Webserver-Konfiguration beseitigte das Problem. Die Fehlermeldung von Nutch ist an dieser Stelle etwas irreführend, ich hätte hier eine TLSException oder zumindest etwas aussagekräftigeres erwartet.

An dieser Stelle möchte ich den SSL-Konfigurator von Mozilla empfehlen, der oft eine große Hilfe ist: https://ssl-config.mozilla.org