Comportamenti anomali di Googlebot...

**frakka** · 08-05-2012, 15:55

Alura: Su un server Linux che ospita alcuni siti web, ho attivato già da diverso tempo un sistema di ispezione automatica dei log di apache (fail2ban) che quando identifica determinate occorrenze nelle richieste http prende l'IP del client e lo sbatte pari pari in DROP nel firewall del server.
Questa procedura funziona (o, almeno, ha funzionato finora) piuttosto bene soprattutto verso i bot come il w00tw00t o altri similari e l'ho quindi estesa anche a diverse altre occorrenze, che possono essere ricondotte, ad esempio, a dei tentativi di exploit di apache o di forzare applicazioni di amministrazione note e famose come phpmyadmin o simili.

Tutto è andato piuttosto bene fino a questa mattina quando il log del server ha messo in lista una bella fila di IP apparentemente appartenenti ai server di Googlebot. Anche la procedura di verifica da loro suggerita ha validato gli IP come appartenenti allo spider di Google.

Originariamente inviato da iptables -L

target prot opt source destination
DROP all -- crawl-66-249-72-55.googlebot.com anywhere
DROP all -- crawl-66-249-66-209.googlebot.com anywhere
DROP all -- 67.137.238.164 anywhere
DROP all -- crawl-66-249-73-138.googlebot.com anywhere

Controllando il log del server ho potuto rilevare che effettivamente la regola ha funzionato come previsto, nel log ci sono delle registrazioni come queste relative agli IP bannati:

Originariamente inviato da apache error.log

[Fri May 04 01:19:15 2012] [error] [client 66.249.72.55] invalid request-URI
[Fri May 04 01:19:15 2012] [error] [client 66.249.72.55] Invalid URI in request \x16\x03\x01
[Fri May 04 01:19:15 2012] [error] [client 66.249.72.55] invalid request-URI
[Fri May 04 01:19:15 2012] [error] [client 66.249.72.55] Invalid URI in request \x80F\x01\x03\x01
[Mon May 07 20:16:50 2012] [error] [client 66.249.72.55] invalid request-URI
[Mon May 07 20:16:50 2012] [error] [client 66.249.72.55] Invalid URI in request \x80F\x01\x03\x01

Originariamente inviato da apache access.log

66.249.72.55 - - [04/May/2012:01:19:15 +0200] "\x16\x03\x01" 400 333 "-" "-"
66.249.72.55 - - [04/May/2012:01:19:15 +0200] "\x80F\x01\x03\x01" 400 333 "-" "-"
66.249.72.55 - - [07/May/2012:20:16:50 +0200] "\x80F\x01\x03\x01" 400 333 "-" "-"

Questi IP non si sono presentati con lo useragent di Google come normalmente avviene:

Originariamente inviato da Apache access.log

66.249.72.212 - - [08/May/2012:15:27:32 +0200] "GET [...] HTTP/1.1" 404 726 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.111 - - [08/May/2012:15:27:40 +0200] "GET [...] HTTP/1.1" 200 6130 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.111 - - [08/May/2012:15:28:59 +0200] "GET [...] HTTP/1.1" 200 10534 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.37 - - [08/May/2012:15:32:13 +0200] "GET [...] HTTP/1.1" 200 144 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Quindi chiedo un suggerimento su come comportarmi...

**tHeGoOd** · 08-05-2012, 16:05

Secondo me è stato un bug temporaneo nel bot di google, non credo che si verificherà nuovamente in breve tempo.

Proprio per evitare problemi di questo tipo, io su http preferisco non mettere ban! Anche sugli utenti, se un utente fa parte di una botnet senza saperlo, cassandolo a priori non lo fai più navigare - neanche legittimamente - sul server.

**frakka** · 08-05-2012, 18:30

Uhm... Ok, per ora ho ripulito le chain e vediamo come va nei prossimi giorni, intanto ti ringrazio.

Comunque i ban non sono permanenti, dopo qualche giorno le chain più suscettibili di errori e falsi positivi vengono ripulite.

Nella maggior parte dei casi comunque ci finiscono dentro solo da Corea, Ucraina, Vietnam, etc... Ogni tanto qualche IP italiano ma poca roba e generalmente riconducibile a dei veri positivi. Il fatto che in Italia la maggior parte dei client non utilizzino IP statici, in questo caso, aiuta: Chi ha problemi di solito sbatte violentemente il modem un paio di volte, lo spegne, lo riaccende e ottiene un'altro IP...

**frakka** · 11-05-2012, 15:17

Oggi da capo, questa volta però nessuna indicazione dello user-agent:

Originariamente inviato da Apache Error log

[Thu May 10 05:24:46 2012] [error] [client 66.249.66.185] invalid request-URI
[Thu May 10 05:24:46 2012] [error] [client 66.249.66.185] Invalid URI in request \x16\x03\x01
[Thu May 10 05:24:46 2012] [error] [client 66.249.66.185] invalid request-URI
[Thu May 10 05:24:46 2012] [error] [client 66.249.66.185] Invalid URI in request \x80F\x01\x03\x01

Originariamente inviato da Apache Access log

66.249.66.185 - - [10/May/2012:05:24:46 +0200] "\x16\x03\x01" 400 333 "-" "-"
66.249.66.185 - - [10/May/2012:05:24:46 +0200] "\x80F\x01\x03\x01" 400 333 "-" "-"

66.249.66.185 IP address location & more:
IP address [?]: 66.249.66.185 [Whois] [Reverse IP]
IP country code: CA
IP address country: ip address flagCanada
IP address state: Ontario
IP address city: Toronto
IP address latitude: 43.6667
IP address longitude: -79.4167
ISP of this IP [?]: Google
Organization: Google
Host of this IP: [?]: crawl-66-249-66-185.googlebot.com [Whois] [Trace]
Local time in Canada: 2012-05-11 08:12

E come lo spider di Google, questi altri più sospetti:

Originariamente inviato da Apache Access log

67.137.238.164 - - [10/Apr/2012:23:26:45 +0200] "\x80e\x01\x03\x01" 400 333 "-" "-"
67.137.238.164 - - [17/Apr/2012:11:11:32 +0200] "\x80e\x01\x03\x01" 400 333 "-" "-"
67.137.238.164 - - [21/Apr/2012:23:08:26 +0200] "\x80e\x01\x03\x01" 400 333 "-" "-"
67.137.238.164 - - [25/Apr/2012:12:10:23 +0200] "\x80e\x01\x03\x01" 400 333 "-" "-"
67.137.238.164 - - [28/Apr/2012:16:06:27 +0200] "\x80e\x01\x03\x01" 400 333 "-" "-"
67.137.238.164 - - [02/May/2012:13:10:02 +0200] "\x80e\x01\x03\x01" 400 333 "-" "-"
67.137.238.164 - - [07/May/2012:11:08:57 +0200] "\x80e\x01\x03\x01" 400 333 "-" "-"
67.137.238.164 - - [10/May/2012:14:09:51 +0200] "\x80e\x01\x03\x01" 400 333 "-" "-"

67.137.238.164 IP address location & more:
IP address [?]: 67.137.238.164 [Whois] [Reverse IP]
IP country code: US
IP address country: ip address flagUnited States
IP address state: Utah
IP address city: Logan
IP address latitude: 41.7823
IP address longitude: -111.7884
ISP of this IP [?]: Integra Telecom
Organization: Integra Telecom
Local time in United States: 2012-05-11 07:11

Originariamente inviato da Apache Access log

220.225.146.35 - - [10/May/2012:13:36:37 +0200] "\x80g\x01\x03\x01" 400 333 "-" "-"
220.225.146.35 - - [10/May/2012:13:36:37 +0200] "\x80g\x01\x03\x01" 400 333 "-" "-"
220.225.146.35 - - [10/May/2012:13:36:38 +0200] "\x80g\x01\x03\x01" 400 333 "-" "-"

220.225.146.35 IP address location & more:
IP address [?]: 220.225.146.35 [Whois] [Reverse IP]
IP country code: IN
IP address country: ip address flagIndia
IP address state: Gujarat
IP address city: Ahmadabad
IP address latitude: 23.0333
IP address longitude: 72.6167
ISP of this IP [?]: Reliance Communications
Organization: Reliance Communications
Host of this IP: [?]: cms.mica-apps.net [Whois] [Trace]
Local time in India: 2012-05-11 18:43

Non riesco a capire se sbaglio qualcosa io oppure no...

Processore:	AMD Threadripper 2990X 32c/64t
Scheda Madre:	Gigabyte X399 Designare EX
Memorie RAM:	64 Gb Crucial Ballistix Sport LT DDR4 3200 MHz (4x16Gb CL16)
Scheda Video:	EVGA GeForce GTX 1060 SuperClocked 6Gb
Harddisk:	1x Sandisk UltraII 480Gb + 1x SSD Kingston A400 240Gb + 1x Sabrent NVME 1Tb + Un po' di hdd
Alimentatore:	Corsair RM1000
Raffreddamento ad Aria:	Noctua U14S TR4-SP3 + Ventola aggiuntiva in push/pull
Raffreddamento a Liquido:	Tanti bei ricordi...
Case:	CoolerMaster HAF Stacker 935
Lettori CD/DVD:	L'ho dovuto togliere...
Sistema Operativo:	CentOS / Windows 10 Pro + varie ed eventuali

Processore:	AMD Threadripper 2990X 32c/64t
Scheda Madre:	Gigabyte X399 Designare EX
Memorie RAM:	64 Gb Crucial Ballistix Sport LT DDR4 3200 MHz (4x16Gb CL16)
Scheda Video:	EVGA GeForce GTX 1060 SuperClocked 6Gb
Harddisk:	1x Sandisk UltraII 480Gb + 1x SSD Kingston A400 240Gb + 1x Sabrent NVME 1Tb + Un po' di hdd
Alimentatore:	Corsair RM1000
Raffreddamento ad Aria:	Noctua U14S TR4-SP3 + Ventola aggiuntiva in push/pull
Raffreddamento a Liquido:	Tanti bei ricordi...
Case:	CoolerMaster HAF Stacker 935
Lettori CD/DVD:	L'ho dovuto togliere...
Sistema Operativo:	CentOS / Windows 10 Pro + varie ed eventuali

Processore:	AMD Threadripper 2990X 32c/64t
Scheda Madre:	Gigabyte X399 Designare EX
Memorie RAM:	64 Gb Crucial Ballistix Sport LT DDR4 3200 MHz (4x16Gb CL16)
Scheda Video:	EVGA GeForce GTX 1060 SuperClocked 6Gb
Harddisk:	1x Sandisk UltraII 480Gb + 1x SSD Kingston A400 240Gb + 1x Sabrent NVME 1Tb + Un po' di hdd
Alimentatore:	Corsair RM1000
Raffreddamento ad Aria:	Noctua U14S TR4-SP3 + Ventola aggiuntiva in push/pull
Raffreddamento a Liquido:	Tanti bei ricordi...
Case:	CoolerMaster HAF Stacker 935
Lettori CD/DVD:	L'ho dovuto togliere...
Sistema Operativo:	CentOS / Windows 10 Pro + varie ed eventuali

Comportamenti anomali di Googlebot...

Strumenti della discussione

Valuta questa discussione

Display

Hybrid View

Comportamenti anomali di Googlebot...

Informazioni Thread

Users Browsing this Thread

Tags

Regole d'invio