Grepanje cijele web stranice
(1 korsinik/a gleda/ju temu) (1) Gost

Grepanje cijele web stranice


11.05.2009 | 05:28
Pozdrav, trebao bi uciniti slijedece, nekako najradije pomocu bash skripte, ali nikako ne mogu da nadjem verziju Lynxa za Maca pa da se poigram s time Ima tko link za DL?
Uglavnom, trebam uciniti slijedece:

Ucitati stranicu 1
Spremit sadrzaj stranice (XML) u fajl
Ucitati stranicu 2
Spremit (pridodati) sadrzaj stranice (XML) u opet isti fajl
...
I tako do stranice 100...

Nakon sto sve te stranice spremim u taj fajl, moram grepati taj fajl... ali to znam kako cu i sto cu. Ali pokusavam neko integrirano rjesenje napraviti, pa nisam siguran da li cu moci sve u bashu slozit... mogu s AppleScriptom pozvati bash skriptu pretpostavljam?

Uglavnom, ako ima tko kakvu ideju, moze pomoc?

hvala!
bok!
11.05.2009 | 08:14
Ako već prijeđeš na Apple Script, onda možeš vjerojatno koristiti i Safari umjesto Lynxa, zar ne?
11.05.2009 | 11:43
Zapravo sam imao na umu nesto takvo, jer poanta je da konacna aplikacija radi na bilokojem Macu, a svaki Mac valjda ima Safari instaliran... no Lynx bas i ne

bok!
11.05.2009 | 12:21
Kada sam zadnji put gledao statistike pokazuju da je udio korištenja Safarija među Mac korisnicima preko 85%. Ostatak je Firefox uz par postotaka na "alternativce". Instaliran je na svakom Macu ako ga netko nije baš namjerno pobrisao.
11.05.2009 | 14:30
Bi li curl komanda pomogla?
11.05.2009 | 16:31
Evo napravio sam u AppleScriptu, poziva Safari, ucita stranicu, spremi je i tako po redu. Kad spremi sve poziva bash skriptu koja spoji to sve u jedno.

tell application "Safari"
	repeat with iteracija from 1 to 5
		set broj to iteracija
		tell document 1
			set glavniURL to "http://ws.audioscrobbler.com/2.0/?method=library.gettracks&api_key=b25b959554ed76058ac220b7b2e0a026&user=quadmachine&page=" & broj
			set URL to glavniURL
			delay 1
			save in "iSmetliste:Users:Mladen:Desktop:iTunes_projekt:XML:page  " & broj
		end tell
	end repeat
	do shell script "/Users/mladen/Desktop/iTunes_projekt/XML/citanje.sh"
end tell


bok!
11.05.2009 | 18:39
Evo napravio sam u AppleScriptu, poziva Safari, ucita stranicu, spremi je i tako po redu. Kad spremi sve poziva bash skriptu koja spoji to sve u jedno.

Znatiželje radi - što zapravo radi kompletan proces (za sad znamo da skida N stranica i prosljeđuje ih dalje na neku obradu)? Pretpostavljam da je moguće cjelovito AS rješenje pa kad već guram AS pristup, da pokušamo i u ovom slučaju.

I, usput, onaj "set broj to iteracija" služi nečemu ili je redundantan kao što se čini na prvi pogled (tamo gdje je trenutni "& broj" prošlo bi i "& iteracija").
11.05.2009 | 19:15
Kompletan proces je sinkronizacija last.fm-a i librarija iTunesa. Ovo je prvi korak u kojem dobivam XML sa kompletnik statistikama last.fm-a. Iduci korak je playcountove pjesama ubaciti u XML fajl na temelju kojega ce iTunes generirati bazu. Za to sam napisao bash skriptu... stavim je tu kasnije kad dodjem doma da vidis o cem se radi. Zasad sam sve rjesio, samo imam jedan problem, a to je sporost procesa, trebalo bi nekoliko dana skripti da ubaci sve podatke, jer se radi o iTunesovom XML-u od 240.000 linija... Mozda kad bi se pametnije napisalo brze bi islo...
Ugl, stavim kasnije vise detalja.

komentari??
bok!

ovo "set broj to iteracija" je ostalo od prije mislim... dok sam nest drugo pokusavao...

bok!
11.05.2009 | 19:40
Kompletan proces je sinkronizacija last.fm-a i librarija iTunesa.

Jednokratna "sinkronizacija" (import last.fm podataka u iTunes) ili nešto što bi se trebalo kontinuirano syncati (u smislu: kad se promijene podaci na last.fm, da se iTunes baza također apdejta)? Napominjem da ovo pitam kao ne-korisnik last.fma.

Ovo je prvi korak u kojem dobivam XML sa kompletnik statistikama last.fm-a.

Provjeravam ako sam shvatio prvi dio: podatke dobiješ kao seriju stranica koje skidaš preko browsera (jednu po jednu) i nakon toga spojiš u jedan fajl da bi kasnije parsao samo njega?

Ovo ima smisla dok debuggiraš i ako se radi import, a ne sync, međutim u slučaju synca samo gomilaš (nepotrebne) korake pa možeš postiću ubrzanje (nauštrb "sigurnosti") tako da parsaš dok "skidaš" i izravno apdejtaš iTunes bazu (ako uopće prethodno postoji). Naravno, to zahtjeva suvisli error checking, da stvar ne pukne na 99% (kao što obično biva kad se krene tim putem ).

Iduci korak je playcountove pjesama ubaciti u XML fajl na temelju kojega ce iTunes generirati bazu.

Ne kužim dio "generirati bazu": baš generirati ili samo apdejtati postojeće podatke?

Ugl, stavim kasnije vise detalja.

Ajde, baš me zanima što zapravo radiš i na koji način bi sve to skupa trebalo funkcionirati.
11.05.2009 | 22:16
Dakle poanta bi bila jednom upisati playcountove s last.fm-a u iTunes, dalje kako se pusta muzika u iTunesu updejtati ce se baza iTunesa (ugradjena funkcionalnost iTunesa jelte), a i scromblati na last.fm.

E sad, baza iTunesa se nalazi u jednom fajlu /korisnik/Music/iTunes Library. Taj fajl nije moguce editirati, ali ukoliko se taj fajl osteti, iTunes ponovo generira taj fajl odnosno bazu na temelju iTunes Library.xml-a, koji se nalazi u istom direktoriju.

Ja sam napravio jedan XML od podataka s last.fm-a, te sad trebam pokrenuti skriptu koja ce citati taj fajl od last.fm-a, te sukladno tome unositi podatke u iTunes Library.xml.

Skriptu sam napisao, moze se pogledati tu www.uti-zadar.hr/qm/nula1.txt

Medjutim, problem je sto se skripta jako sporo izvrsava, jer mi iTunes Library.xml ima preko 240.000 linija. Sad mozgam kako cu napisati tu skriptu pametnije da se ipak malo brze izvrsava.

Svaki savjet je dobrodosao

bok!
12.05.2009 | 12:59
Dakle poanta bi bila jednom upisati playcountove s last.fm-a u iTunes, dalje kako se pusta muzika u iTunesu updejtati ce se baza iTunesa (ugradjena funkcionalnost iTunesa jelte), a i scromblati na last.fm.

OK, dio s prijepisom playcountova iz last.fm u iTunes mi je jasan. I jednokratan je. Na što točno misliš pod "scromblati na last.fm"?

E sad, baza iTunesa se nalazi u jednom fajlu /korisnik/Music/iTunes Library. Taj fajl nije moguce editirati

Pa... nije baš "nemoguće". Taj fajl se može editirati preko iTunesa, koristeći AppleScript. Dakle, ako želiš promijeniti playcount neke pjesme (ili bilo što drugo), možeš to napraviti bez da petljaš po spomenutom XML-u.

Ja sam napravio jedan XML od podataka s last.fm-a, te sad trebam pokrenuti skriptu koja ce citati taj fajl od last.fm-a, te sukladno tome unositi podatke u iTunes Library.xml.

Skriptu sam napisao, moze se pogledati tu www.uti-zadar.hr/qm/nula1.txt

Medjutim, problem je sto se skripta jako sporo izvrsava, jer mi iTunes Library.xml ima preko 240.000 linija. Sad mozgam kako cu napisati tu skriptu pametnije da se ipak malo brze izvrsava.

Gledam skriptu. I vidim nekoliko potencijalnih "usporivača". Uvjerljivo najveći je prolazak kroz petlju. Za svaki redak u prvoj petlji ponavljaš komparaciju sa SVIM redovima druge petlje. Dva problema: ne bi ti uopće trebali biti zanimljivi pojedini redovi ulaznog fajla - ubrzat ćeš ako jednostavno provjeriš da li uopće ulaznu liniju ima smisla komparirati. Ako nema, preskačeš komparaciju tog retka. Drugi problem je što kad naiđeš na liniju koju treba komparirati, moraš proći cijeli izlazni fajl. Optimizacija drugog problema se može provesti prethodnim sortiranjem (najbolje oba fajla!) ili barem izlaskom iz petlje nakon što naiđe na ono što je tražila - prolaziti petlju do kraja bi imalo smisla samo ako očekuješ da komparacija može biti true više nego jednom.

Ne znam kako točno bash evaluira uvjete, ali sumnjiv mi je i "if" dio u kojem prvo provjeriš da li lajnaIn počinje sa "<key>Name" pa nekon toga provjeriš i da li su lajnaIn i lajnaDva jednake. Prva provjera (da li je Name) ima smisla van druge petlje (dakle, u prvoj) - ako nije Name, nema potrebe ulaziti u drugu petlju. Ako smo već ušli u drugu petlju, dovoljno je testirati samo drugi uvjet (da li je lajnaIn = lajnaDva). Pametan evaluator uvjeta (ponavljam da ne znam da li bash spada u tu kategoriju) drugi uvjet ne mora evaluirati ako prvi nije true (a zajednički je AND).

Cijeloj priči svakako ne pomaže ni čitanje/pisanje svih tih silnih linija u fajl, pogotovo ne u petlji.

Koliko se sjećam, bash nema mutable arrays - može samo stackati na vrhu ili pushati na početak. Što ti ne pomaže. Ali pomoglo bi da insert radiš u memoriji (dakle, presložiš array kako ti paše), a ne na disku.

Ako se problem fakat svodi samo na to da uzmeš playcountove iz last.fm xmlova i "korigiraš" one u iTunesima, AS ti definitivno može pomoći. Skineš pojedini XML, potražiš u njemu "identifikatore" (song/artist name) za svaku pjesmu, provjeriš (AS se obraća iTunesima) imaš li taj entry u iTunesima i ako imaš korigiraš njegov playcount. Nema pisanja XMLa na disk, nema spajanja u jedan fajl, nema bjesomučnog vrćenja petlji. Istina, trebat će i ASu "neko vrijeme" da to obavi, ali garantirano neće trajati danima (trajat će minutama, ovisno o tome koliko imaš pjesama).

A ako baš inzistiraš na tome da rekreiraš iTunesov XML, onda je praktičnije sve last.fm podatke prvo učitati i obraditi u privremenu bazu (može biti u memoriji, kao array) pa ih potom insertati u iTunesov XML. Konkretno: skidaš jedan po jedan last.fm XML, lociraš podatke koji ti trebaju (song/artist/playcount) i pišeš ih u array. Ovdje bi bilo praktično i sortirati array da buduću for petlju ne moraš vrtiti kroz cijeli array. Nakon toga otvaraš iTunesov XML, čitaš pojedini blok (možeš liniju po liniju), provjeriš za svaki song/artist imaš li match u arrayu (s obzirom da je sortiran, ne moraš prolaziti cijeli array!) i ako imaš, insertaš u blok, zapišeš u out fajl i nastaviš do kraja iTunesovog XMLa.
13.05.2009 | 01:34
Hehe, vidi se da nisi korisnik last.fm "Scrobblanje" je kad mi odsvira pjesma pa CoverSutra posalje to na last.fm, pa on to spremi u svoju bazu.

www.last.fm/download < sluzbeni Scrobbler

Uglavnom, nisam ja bas programer (kao sto se i vidi iz skripte koju sam napisao ), ali pokusat cu to malo doraditi na temelju tvojih savjeta tu, ali pokusat cu i koristeci AS to rjesiti.

Moram priznati (lako moguce da je placebo efekt lol), ali otkako sam na Macu stalno imam neke ideje, zelim nest stvarat, igrat se pisat skriptice i gluposti razne. Nije da to radim iz potrebe nego cisto iz znatizelje i zelje za ucenjem i moram priznati da mi se svidja

komentari??
bok!
14.05.2009 | 05:46
Pokusao sam ovo izvesti pomocu AppleScripta, i zbilja je mnogo lakse i brze, medjutim imam jedan drugi problem sada...

on run
	set theXML to parse XML "<?xml version=\"1.0\"?>
"
	tell application "iTunes"
		display dialog "Sacu da te uredim" buttons {"Cancel", "Deri..."} default button 2 with icon 1
	end tell
	repeat with iteracija from 1 to 150 by 3
		set pjesma to item 1 of XML contents of item iteracija of XML contents of theXML
		set i_playcount to iteracija + 1
		set playcount to item 1 of XML contents of item i_playcount of XML contents of theXML as integer
		set i_izvodjac to iteracija + 2
		set izvodjac to item 1 of XML contents of item i_izvodjac of XML contents of theXML
		tell application "iTunes"
			set musicLibrary to (get view of front browser window)
			set search_term to pjesma & " " & izvodjac
			set trazeno to (search musicLibrary for search_term only all)
			repeat with a_track in trazeno
				set played count of a_track to playcount
			end repeat
		end tell
	end repeat
end run


To je trenutni kod... ucitava XML pomocu dodatka za AppleScript LINK
Sada za pretrazivanje koristim ugradjenu funkciju od iTunesa, i radi jako brzo, ali ima problem.
Problem je taj sto nemogu definirati da pretrazuje samo Artiste i Songse. Dolazi do toga da mi nadje npr pjesmu "Toxicity" od SOAD-a, i cijelom albumu "Toxitcity" poveca playcount...

search musicLibrary for search_term only all, stavio sam ovako i dam mu da pretrazuje "imeIzvodjaca imePjesme", i to je najbolje sto mogu postici. Cini mi se da nije moguce pretrazivati po Artistu i Pjesmi, vec samo pojedinacno, ili sve skupa (sto ukljucuje i Album, pa dolazi do greske).

any ideas?

komentari??
bok!
14.05.2009 | 12:44
Sada za pretrazivanje koristim ugradjenu funkciju od iTunesa, i radi jako brzo, ali ima problem.
Problem je taj sto nemogu definirati da pretrazuje samo Artiste i Songse. Dolazi do toga da mi nadje npr pjesmu "Toxicity" od SOAD-a, i cijelom albumu "Toxitcity" poveca playcount...

search musicLibrary for search_term only all, stavio sam ovako i dam mu da pretrazuje "imeIzvodjaca imePjesme", i to je najbolje sto mogu postici. Cini mi se da nije moguce pretrazivati po Artistu i Pjesmi, vec samo pojedinacno, ili sve skupa (sto ukljucuje i Album, pa dolazi do greske).

Zanimljiv pristup, ali nepotrebno si zakomplicirao stvar. Probaj ovo:

tell application "iTunes"
  activate
  set pjesme to (every track of library playlist 1 whose name contains "Toxicity" and artist contains "SOAD")
  repeat with pjesma in pjesme
    display dialog (name of pjesma) as text
  end repeat
end tell

Display dialog u primjeru služi samo za debuggiranje. Unutar tog repeata možeš mijenjati playcount.
Moderatori: Bertone
  • Stranica:
  • 1

Vikalica™

Zadnja poruka: pred 2 sati, 19 minuta
  • Gjuroo: Počivao u miru.
  • smayoo: Ode nam Papa Franjo, na Uskrsni ponedjeljak. Počinak je zaslužio, i više od toga. Neka se Crkvi primi barem nešto od njegovog nasljeđa.
  • VanjusOS: Sretan Uskrs!
  • Damirst: Srstan Uskrs!
  • smayoo: Sretan Uskrs svima! :)
  • Tomek: Sretan Uskrs !!
  • ping: Sretan Uskrs
  • dpasaric: Mira i ljubavi! :)
  • Gjuroo: Sretan Uskrs!
  • Yonkis: Sretan Uskrs svima!
  • Zdravac: Sretan Uskrs!
  • drpongrac23: Sretan Uskrs svima koji slave!
  • Tomek: sad dok se ja ponovo uštekam u MACOS sustav, imat ću pitanja pa ću biti malo dosadniji :D
  • Tomek: Hvala svima... Kakav je stroj, računam s njime barem 10 godina...
  • dpasaric: Welcome back! :)
  • smayoo: Eeeej, Tomek! :)
  • Zdravac: Tomek, dobrodošao nazad! Nek te dobro i dugo služi! :)
  • Tomek: Eto nakon dugo godina, ponovo na Macu... Pozdrav svima
  • Borisone: Rekao političar i otišao krkati s generalima dok je vojska na paštetama i prekuhanim jajima.
  • Junuz: ko nehrani svoju vojsku hraniće tuđu
  • Yonkis: Apple Maps kamera naprtnjača: [link]
  • m@xym: ...nikakvu vojnu naobrazbu.
  • m@xym: Za dva mjeseca možeš naučiti rukovati pješačkim naoružanjem (od rastavljanja, sastavljana i čišćenja, do toga kako ga otkočiti, zakočiti, napuniti, sve do pucanja). Čovjek koji nema nikakvu vojnu naobrazbu, je glineni golub u slučaju rata, osoba koja je dva mjeseca nešto učila, i naučila, svakako nije. Zamisli koliko bi tek žrtava bilo da nitko od ljudi sa kojima si bio nije imao
  • Maxxy: Mi imamo malu aktivnu podobnu vojsku. A za 2 mjeseca će samo naučiti biti lijepa meta na ratištu. Proveo sam u ratu malo manje od 5 godina, i sve što ću još reći na ovu temu je da smo imali više žrtava od neznanja (igranje sa raznim zanimljivim spravicama i puškama) nego od neprijatelja! Srećom u ono vrijeme nije bilo dronova!
  • drlovric: Ja sam bio 10-11 mjeseci cini mi se. Pola vremena smo aktivno nesto ucili, pola smo ribali hodnike, kupili lisce i smarali se po vojarni. Ja sam bio 11107 (prepisali JNA VES oznaku) vojna policija, antiterosticke aktivnosti.
  • drlovric: Nekakav ustroj sa 3 mjeseca temeljne obuke da vojnik zna koirsititi pusku i kretati se unutar svoje formacije je bolje nego nista. I mozda neki modus za dodatna 2-3 mjeseca specijalisticke obuke tko to zeli. Kao neki vid nadgradnje znanja.
  • m@xym: Mi to (malu sposobnu aktivnu vojsku) već imamo. Ovih 2 mjeseca je sasvim dovoljno da mladići nauče osnove baratanja oružjem.
  • Maxxy: Vojnirok od 2 mjeseca je sprdnja. Ili lupite godinu dana, ili financirajte malu sposobnu aktivnu vojsku. Ovako se samo bacaju novci bez ikakve koristi
  • Yonkis: A što ne otvorite temu nego ovdje tipkate :)
  • Szguri: Ono što želim reći je da ljudi mogu živjeti nevjerojatno sigurne i udobne živote zato što je njihova država spremna za loše scenarije.
  • Szguri: nego zato što razumiju geografiju i povijest Rusija im je susjed, a povijest nije bila blaga. Isto sa Švicarskom: poznata po neutralnosti, ali izuzetno utvrđena i uvježbana. Država je doslovno dizajnirana tako da invazija bude noćna mora. Njihova neutralnost nije pasivna čuva je disciplina i spremnost.
  • Szguri: Osobno ne shvaćam naivnost toga da se ignorira činjenica da je rat i sukob odnosno mogućnost istog nešto što je ljudska slika i prilika od pamtivijeka. Možeš biti i spreman i miroljubiv, Švedska i Finska, primjerice, zadržale su ozbiljne obrambene kapacitete čak i tijekom mirnih vremena. Finska ima obvezni vojni rok i ogromne pričuvne snage, ne zato što su agresivne, nego zato što raz
  • Szguri: Pozdrav svima, čisto da se nadovežem na vruću temu. Kao netko tko je također bio u vojsci i imam raznog iskustva po tom pitanju.
  • drlovric: Bio sam u istoj misiji kao i profesionalni hrvatski vojnici. Nisam bio terorista niti neki placenik koji je isao da nanosi zlo ljudima tamo.
  • drlovric: Ja sam u pustinje isao po pare. Kao da je to neka tajna :) Nisam tamo bio iz uvjerenja ili nekih ideala, kao ni 95% ostalih ljudi.
  • JOHN: i odlučuje o tuđem mesu. Ja ako imam osjećaj braniti svoj dom i obitelj, to ću po inerciji napraviti, a ne da mi tamo neki kozojeb docira koji u backgroundu zgrče pare dok preslaguje pijune po karti a u pauzama vrti sa ratnim profiterstvom
  • JOHN: pustimo pojedince neka misle i idlučuju za sebe, a ne nekome da se hvali tuđim tijelom(mesom)
  • JOHN: Ako se granatiranje Zagreba ili recimo razvaljivanje Valpova smatra ulazak neprijatelja, onda jesam. I ne pričam drugačije od onoga što ti pričaš, nego samo kažem da netko okreće dobru lovu na tuđoj patnji. Ali kad me već potežeš za jezik…..daj me podsjeti kakve veze ima Afganistan i slične lokacije na kojima si radio s ulaskom u tvoj grad. Ponavljam, ja jedam za obuku i spremu, ali
  • drlovric: Da bi se ti u svojoj drzavi osjecao sigurno. Skupa sa svojom obitelji.
  • drlovric: Nisi srecom doziivo kako izgleda kada ti nepoznati naoruzani ljudi udju u grad/selo. Inace bi pricao drugacije i borio se za to da ti drzava ima najjacu mogucu vojsku.
  • drlovric: Vatrogasac treba alat za svoj posao. Ako ne ugasi pozar ljudi ginu. Vojnik treba alat za svoj posao. Ako vojnik ne odradi svoj posao, ljudi ginu. Jednostavno je.
  • JOHN: Vatrogasac neće nikoga ubiti brentačom ili recimo bocom kisika
  • JOHN: Pa uvijek je sporna kad je u pitanju ljudski život
  • drlovric: ne znam zasto je nenormalno to ocekivati. Nece ni vatrogasac gasiti pozar bez opreme, ali samo je za vojsku uvijek sporna svaka nabavka. Osim kad te napadnu pa kad radi guza od straha :)
  • drlovric: oni koji su spremni da riskiraju zivot, treba da imaju sve sto bi im u toj borbi pomoglo, da soase drzavu svih nas i ostanu zivi ako je moguce :)
  • drlovric: Ja sam kazem da sutra CG, SR, HU, IT napadne HR, ja bi za 3 dana bio na prvoj crti. Ako sam ja voljan braniti tu drzavu i riskirait svoj zivot, normalno je da ocekujem da ta drzava ima sanitet, ili helikopter da me spasi ako negdje krvarim. Ili da ima topnistvo, avione, obucene vojnike/ljekare/informaticare. A imati sve to je proces koji trazi vrijeme, pare i znanje. Ne treba svi ni da ratuju, ali
  • JOHN: :)
  • Bertone: Ak netko iz SOA-e sad čita Jabučnjak, još bu zaključio da je drlovric švercer oružja :D
  • stefanjos: znam ja kako je drlovric kruha zaradio, i niti jednim postotkom svog tijela mu ne zamjeram na to. to je nazalost ta realnost koju on meni pokusava predociti, i svjestan sam je. samo mi se gadi da smo mi kao ljudi takvi kakvi jesmo.
  • JOHN: Treba se znati braniti, no to nužno ne znači da moraš poginuti. Netko u ratu bude iza monitora, netko na bojištu, ali oboje bi trebali znati koristit obrambena sredstva. Čudne sorte vode države. A ako ćemo tjerat mak na konac….tko ih je u konačnici birao?! Pa na kraju dođemo do one…..svi bi jebali a nebi umočili

Za vikanje moraš biti prijavljen.

Prijava

Prisutni jabučari

dpasaric, drlovric, MacSlavko, vuzem, Anonimci (682)

Novo na Jabučnjaku

Teme

Poruke

Oglasi

Komentari

Anketa

Koji Mac koristite?

Page Speed 1.30 Seconds

Provided by iJoomla SEO