07.04.2011 | 22:45
Da li taj Word sadrži i drugo nešto osim tih tablica koje želiš? Da li je to drugo običan tekst, slike, frameovi, ili opet tablice, samo što ih ne želiš?
Ja bi tu krenuo drugim pristupom. Snimio bi DOC kao HTML i onda ga najprije očistio od s*anja koje word ubaci (izbrisao bi sve prije <body> i poslije </body> i eventualno sve <style> tagove), što npr Text Wrangler riješi s 2 search & replacea pomoću regularnih izraza.
Nakon što ti ostane goli HTML imaš opet mogućnosti:
1. naći neki gotovi sw koji od HTML tablica napravi XLS
2. pomoću Text Wranglera ili nečeg sličnog napraviti još nekoliko regular expression search & replaceova, otprilike s ovom idejom:
\\n zamijeniti ničim (izbrisati sve prijelome redaka)
\\t zamijeniti ničim (izbrisati sve tabove)
bilo koji HTML tag osim onih koje želimo sačuvati (TABLE, TR, TD, eventualno BR i P) zamijeniti ničim
HTML tagove koje želimo sačuvati očistimo od dodataka, na primjer ovako:
<\\(/\\)TABLE[^>]*> zamijeniti sa <\\1TABLE>
</TABLE><TABLE><TR> zamjeniti s \\n\\n (dva prazna retka, da kasnije u excelu imaš vizualni delimiter tablica)
</TR><TR><TD> zamijeniti s \\n (prijelom retka tablice)
</TD><TD> zamijeniti s \\t (TAB između dvije ćelije tablice)
Kad to sve odradiš, dobio si tzv. tab-delimited format tablica koji možeš učitati u Excel, samo ga snimi s nastavkom .TXT. Ili možeš select all pa copy i onda paste u Excel.