請問抓取網頁內容高手

我有使用teleport及HTtrack等軟體

可是抓取網站內容總得不到良好的效果

以此部落格為例

http://tw.myblog.yahoo.com/jw!XmwyWJGaBRk5PO3qtnLi...

有沒有辦法抓取到裡面的全部文章

又不會跑去外面抓一些不必要的網頁?

請詳細說明

我已經查過知識+

請勿轉貼其他知識+內容

謝謝

1 個解答

評分
  • mh
    Lv 7
    1 0 年前
    最佳解答

    HTTrack 你要設 exclude link(s),在選過 project name 的下一步,有個 「Preferences and mirror options:」,按一下 Set options,然後在 Scan Rules 下面有個文字框可以讓你填。以你舉的站為例,要加

    -tw.f14.yahoofs.com -tw.yimg.com

    Teleport 我得研究看看,沒用過....

還有問題?馬上發問,尋求解答。