返回列表 发帖

Html源文件中image标签的析取

今天介绍一种从指定网页源文件中析取image标签的的编程技巧,即从网页源文件中,解析出所有的插图文件名(包括图片路径),也就是标签<img src=".../... /abc.jpg"> 中的文件名".../.../abc.jpg"(有的可能是gif格式)。编程环境:PHP+Apache for Win98。  6 T/ A8 W' r* _6 x& C7 K* ?

9 K8 E" c: I% V( H( d, E. }  首先, 用文本编辑器新建一个PHP类型的文件:abstractSRCfrompage.php3。为了方便讲解,我们打算是在浏览器表单域中输入需要析取image标签的网页的URL(或本机文档),提交后执行析取操作,所以在该文件中,我们要建立一个用于输入网址的表单,举例如下:
& D0 X4 s5 u! l) q1 ~4 q+ q$ @( L. h2 F" Q- f* D6 D# }

' {7 y) ]7 [/ r. \$ Y* }+ n<form action=" abstractSRCfrompage.php3" method="post">
+ p' h5 u8 f  M' u, b2 l  输入网址<input type=text name=filename><br>
3 K9 S. J  a3 v( Q% ]1 a  <input type=submit name=submit value="提交">- [: J5 B& ]% d' v! J. C# E
</form> 2 H1 t0 y1 T. T. ~# w6 ?4 O- N
- n7 i1 `4 Z2 H6 i* X: @! _/ |6 X
0 `: D: q( \5 V. }& I7 a
  输入正确的网址,提交后表单信息被送到abstractSRCfrompage.php3页面,由于表单本身就在该页面,所以相当于被送到自身页面,下面我们需要编写析取处理的PHP代码,紧接着表单代码段后写入如下代码:; q0 F2 J) C1 m* ?7 |& C

/ }% s* ~4 {; r. b4 ?* }
3 B& b" i$ t5 A( Z' z2 S8 I8 m<?php1 S- U; `# g0 U, k1 G
if ($filename!=""){
* X3 l$ G( ~: i& y3 q# [! R: e$fp = fopen($filename, "r"); file://若输入不为空,开启本地或者远程档案;
/ A" d' s! g# x8 k( G9 lwhile ($buffer = fgets($fp, 1024)) {6 O+ G, `& O3 X3 a" d
$source .=$buffer; }  u9 N- p& P0 ]( b0 H
fclose($fp);
$ n% j  R8 d/ V" pfile://查找$source中是否有<img ...src=".../...gif | jpg"> 这样的标记
2 O( S+ K# P  e7 C) X% Zif(eregi("(<img)+[^<>]+(src=")+[^*"<>|]+(.)+((gif)|(jpg))+(")",$source)) {
7 ]+ r: S% }7 N* L) O/ h. pecho "找到图片标签:)<br>";}
! o, e$ P5 Q: k, B6 g) melse{
! [% B' R2 e- e9 h) Y# Kecho "未发现图片标签:(<br>";}; _5 P* f: Q4 u, x4 z' }& f
file://拆分,第一次用标签,<img ...src=拆分,得到了以图形文件名开头的数组,+ p* V5 g) y, ?* f! M
$splitres=split("((">)|())+(<img)+[^<>]+(src=")",$source);
/ `8 k' {. ^' Wecho "找到: $imagenums-1个图片<br>分别为:<br>";. P; ~% r4 F1 [* \/ {7 L
for($i=1;$i<sizeof($splitres);$i++){
" s' H6 V8 O+ T! ~4 jfile://二次拆分,用"拆分。因为文件名能含有",得到的拆分数组的第一个元素就是路径+文件名了;
8 ?8 i. \% H6 h$ P0 dunset($imgname); // 再次使用前删除imgname变量;8 U/ Y* I2 N; W4 j0 y4 p$ S/ C
$imgname=spliti(""",$splitres[$i]);//将析取的图片信息依次赋给imgname变量
9 R5 H+ O! ]( Yecho "$i=>".$imgname[0]."<br>"; file://输出析取的图片信息6 j0 ~, }% O% x. Q; Q
}
" {- S1 ?* i1 K, A0 \. W}
6 p8 `/ f) h% @! R7 Q0 q( `?>
7 k. `# Z. R* A6 K0 b; I8 ^0 g9 H; @. K3 z  M' \0 n
, l/ \& t. J5 \5 r4 _  V3 ?
  该段程序的设计思路是:PHP程式判断是否输入了档案名称(网址URL或本机档案名),若不为空则以只读方式打开该档案;接着使用函式fgets (fp,length)取得档案指标fp所指的行并传回该行内长度为length-1 的字串,上例中就是1024-1=1023;然后利用字串比对剖析函式ereg()查找$source中是否含有<img ...src=".../...gif | jpg"> 这样的标记(关于该函式在上篇中有详细的介绍);假如找到的话,则利用split()函式按一定的规则执行两次拆分,去掉标记中的<img…src=字符和"字符,结果得到数组 splitres,其中的每一个元素都是以图形路径+文件名开头的数组;用for循环在屏幕上输出每个数组的第一个元素值,即我们所需要的所有图形路径+ 文件名。4 b' Q4 L% ^# \
/ }  ^! [+ b) N8 v9 I
  其中函式sizeof($splitres)返回个数;在for循环中,依次将数组splitres的每个元素(也是数组)赋给数组变量imgname,并输出imgname的第一个元素值(为找到的一个图形路径+文件名),当执行下次循环时,删除变量imgname,达到重复使用的目的。大家可以仔细研究其中的奥妙。- ^% h: c8 O% V9 ]

" z7 z& P" I7 r! B, {* ~  好了,写好后,将abstractSRCfrompage.php3存到你的服务器指定目录下,启动Apache服务器,在浏览器中打开它,随便输入一个存在的网页名称或是远程URL,看看效果如何。
1 b. g+ Y& \4 o6 Z. J! V4 ~1 [% |: q% c! t+ a, o- K
  如果有兴趣,你可以尝试析取HTML文档中的任意感兴趣的信息,如果稍加改装,做一个网站文本搜索引擎岂不更妙?

返回列表
【捌玖网络】已经运行: