Tabellen aus Word mit Dreamweaver in sauberes HTML umwandeln
Mal wieder eine ellenlange Tabelle in Word erzeugt, die anschließend in ein HTML-Dokument eingefügt werden soll?
Das ist ein Ausschnitt mit den typischen obsoleten Elementen, mit denen Word die HTML-Tabelle formatiert.
<td width=198 rowspan=10 valign=top style='width:198.25pt;border:solid windowtext .5pt; background:#FFCC66;padding:0cm 5.4pt 0cm 5.4pt'> <p class=MsoNormal>Tamron<o:p></o:p></p> <p class=MsoNormal><![if !supportEmptyParas]> <![endif]><o:p></o:p></p> </td>
- Schritt 1: Ganzes Dokument oder Tabelle markieren und alle Formatierungen löschen. Das spart schon mal rund 30% der Word-spezifischen Formatierungen. Dokument in Word als Webseite speichern.
- Schritt 2: Tabelle in Dreamweaver öffnen. Unter Befehle / Word-HTML optimieren rentiert sich zuerst einmal die automatische Beseitigung der überflüssigen Elemente.
Das eliminiert schon mal lästige Attribute wie style=’tab-interval:35.4pt’ - Schritt 3: Was dann noch bleibt, kann durch Suchen und Ersetzen mit Hilfe von einfachen regulären Ausdrücken bereinigt werden.
In Dreamweaver im Fenster »Suchen und Ersetzen« das Feld »Regulären Ausdruck verwenden« markieren.
Überflüssige Attribute ersetzen
Jeder Ausdruck sucht sich selbst – das ist einfach
| Zu ersetzen | Suchen nach | ersetzen mit |
|---|---|---|
| valign=top | valign=top |
Überflüssige width- und height-Attribute ersetzen
\d sucht jede Ziffer, \d+ sucht nacht einem oder mehr Ziffern
| Zu ersetzen | Suchen nach | ersetzen mit |
|---|---|---|
| width=198 | width=\d+ |
Hochkommas für Attributwerte
| Zu ersetzen | Suchen nach | ersetzen mit |
|---|---|---|
| rowspan=10 | (rowspan=)(\d+) | rowspan=”$2″ |
Unerwünschte Attribute durch Stile ersetzen
| Zu ersetzen | Suchen nach | ersetzen mit |
|---|---|---|
| bgcolor=”#FFCC66″ | (bgcolor=”)(#)([a-fA-F0-9]+)(“) | style=”background: $2$3″ |
Einfache Tags löschen
Word setzt immer noch ein p-Tag in Tabellenzellen – darauf kann man fast immer gut verzichten.
| Zu ersetzen | Suchen nach | ersetzen mit |
|---|---|---|
| <p> </p> | <[\/]*p> |
Word-Attribute in img-Tags
Word verpasst img-Tags immer noch ein v:shapes – das kann ersatzlos gestrichen werden.
| Zu ersetzen | Suchen nach | ersetzen mit |
|---|---|---|
| v:shapes=”_x0000_i1028″ | v:shapes=”[_xi0-9]+” |




Da habe ich eine bessere Lösung gefunden denke ich (zumindest unter Linux):
Als erstes lade ich die Tabelle mit OpenOffice Writer.
Dann markiere ich die gesamte Tabelle dort und kopiere die Auswahl in die Zwischenablage.
Den Inhalt der Zwischenablage füge ich in ein in KompoZer (mit Strg-V weil übers Menü gehts bei mir gar nicht)
Voila im Quelltext-Fenster erscheint eine (fast ganz) saubere, wohlgeformte Tabelle….
LG
Fram
Kommentar by framercy — 30. Oktober 2010 @ 19:32