|  | 
6#
 
 
 楼主|
发表于 2011-4-22 16:41:34
|
只看该作者 
| 按照下面这个模板怎么抓去不到 curl -o index.html http://xhs.vip.qikan.com/Mag.aspx?issn=1005-720X
 findstr /i “ldwc201108" index.html>tmp.txt
 for /f "delims=><= tokens=5,6" %%i in ('findstr /i “ldwc201108" index.html') do (
 title 正在下载网页 http://xhs.vip.qikan.com/%%~i
 curl --create-dirs -o html\%%~nxi http://xhs.vip.qikan.com/%%~i
 )
 第三步分隔符的选取,选哪几列可能不正确,可是有些网站我已经抓取到文件夹html,但是里面的html文件只有3KB,根本没有正文,郁闷啊!
 还有一个网站,我都已经把html宇txt文件分开到不同文件夹了,但是利用cd.>1234.txt
 for %%i in (txt\*.txt) do (
 title 正在整理 %%~nxi
 echo.>>1234.txt
 findstr /ib "1234" %%i>>1234.txt
 echo.>>1234.txt
 findstr /ibc:"    " %%i>>1234.txt
 )
 合并时得到的是一个空的1234.txt文件,郁闷啊!
 
 [ 本帖最后由 2011198976 于 2011-4-22 16:43 编辑 ]
 | 
 |