テーブルコーディングのコンテンツ部分の抜き出し

In: Tips

21 1月 2009

テーブルレイアウトの古いHTMLサイトのコンテンツ部分を抜き出して、CSSレイアウトのサイトやCMSに流し込んだりするとき、困るのがテーブルタグの取り扱いです。

全体のレイアウトがテーブルだけならまだいいんですが、ひどいサイトになると、本文の中の段落がまた一つのテーブルで区切られていたりして、大変なことになっています。

こういう場合に、テーブルタグを消して文章(<p>や<strong>は含めて)を抜き出す方法を考えました。

広告

といっても単に置換するだけなんですが、l秀丸等の正規表現による置換ができるテキストエディターで、

<(/*)t(.*?)>

を消去置換してみてください。

マッチした部分をハイライト表示させたところ

マッチした部分をハイライト表示させたところ

<table width=”80%” border=”0″ cellpadding=”0″ cellspacing=”0″ class=”table”>
といったテーブル開始タグから、<tr></td><tbody>など、テーブル関連の開始タグ、終了タグを全て消すことが出来ます。

まず、大まかなコンテンツ部分はどうにかして抜き出してからやるといいでしょう。(抜き出せなくてもそれなりに役に立つと思います)

コメント

Comment Form

About this blog

ここは、SE見習いである私ことdaceloが、日夜習得していくシステム関連の備忘録、phpやWordPressTipsのネタ、あるいはSEOやWebマーケティング関連の雑感を投稿するブログです。 平日は大体毎日投稿しています。土日は休業日です。

カテゴリー

カテゴリー

アーカイブ