wget och "view source" skiljer sig

Här diskuterar vi GIMP, OpenOffice, Emacs, VI och andra applikationer som finns under Linux / UNIX.
Post Reply
ErikW
Posts: 82
Joined: 13 June 2003, 21:38

wget och "view source" skiljer sig

Post by ErikW » 9 April 2007, 19:44

Hej,

Jag ska skripta och laddar ner en sida med wget.

wget -O test.html "http://www.atptennis.com/5/en/rankings/ ... e=1/1/2007"


Jag får då inte med allt på sidan om jag jämför med "View source" i tex Konqueror.

Kan det ha att göra med att det är en asp-sida jag försöker anropa?

ErikW
Posts: 82
Joined: 13 June 2003, 21:38

Post by ErikW » 9 April 2007, 20:19

Hmm.

Jag tror jag får samma fil ner, fast all text i filen går inte att se med less. Kör man cat fil | less blir vissa partier väldigt skumma, det är troligen några windowstecken som spökar.

En sväng in i kwrite och ändra line endings löste problemet. Jag ska bara hitta ett sätt att skripta det, kanske med dos2unix, fast ftp.se.debian.org verkar ha mycket att göra dessa dagar :)

erik_persson
Posts: 1474
Joined: 29 August 2002, 15:19

Post by erik_persson » 9 April 2007, 22:00

Principiellt så kan olika sidor skickas beroende på vilken läsare som används för att nå sidan. Det är kanske inte så sannolikt om det rör sig om wget resp Konqueror, men det är inte ovanligt att olika information skickas om det är ie resp tex firefox. Det finns massor av sätt att lösa det, javascript, conditional includes, servern skickar olika saker baserat på user-agent strängen etc.
Condiional includes i IE (IE specifikt som FAKTISKT nog kan vara användbart) upptäckte jag för bara ett litet tag sedan, ex:

Code: Select all

	<!--[if lte IE 6]>
           stuff för IE
        <![endif]-->
Tydligen så läser IE dessa kommentarer och inkluderar koden mellan dem om uttrycket evalueras till sant.

/erik

ErikW
Posts: 82
Joined: 13 June 2003, 21:38

Post by ErikW » 9 April 2007, 22:18

Jag testade också att göra en "wget -U Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) -O fil www.xxx.com"

http://en.wikipedia.org/wiki/User_agent

Men för min del var det radsluten som var olika...

mikma
Posts: 3349
Joined: 10 July 2003, 21:19

Post by mikma » 9 April 2007, 23:37

Radslut är ju för det mesta inte signifikant i HTML. Antagligen var det din webläsare som konverterade <CR> till radslut, tror det används som radslutstecken på Mac.

I *NIX används <LF>, och i Microsofts operativsystem används <CR><LF> som de flesta känner till.

Post Reply