`

PHP小偷原理

    博客分类:
  • PHP
阅读更多

snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。

官方网站 http://snoopy.sourceforge.net/


    下面是它的一些特征:
1、方便抓取网页的内容
2、方便抓取网页的文字(去掉HTML代码)
3、方便抓取网页的链接
4、支持代理主机
5、支持基本的用户/密码认证模式
6、支持自定义用户agent,referer,cookies和header内容
7、支持浏览器转向,并能控制转向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、方便提交数据并且获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持再转向的时候传递cookies


下面是简单的例子,比如说我们抓取百度的文字

<?php

include  "Snoopy.class.php" ; 
$snoopy  = new  Snoopy ; 
$snoopy -> fetchtext ( "http://www.baidu.com" ); 
echo  $snoopy -> results ; 

echo "<br/><font color='red'>上面是抓取网址上面的文字,下面这个却是抓取网址上面的链接地址</font><br/>";
$snoopy -> fetchlinks("http://www.baidu.com");
print_r( $snoopy -> results);
?> 

 

运行出的结果为:

百度一下,你就知道 body{margin:4px 0}p{margin:0;padding:0}img{border:0}td,p,#u{font-size:12px}#b,#u,#l td,a{font-family:arial}#kw{font:16px Verdana;height:1.78em;padding-top:2px}#b{height:30px;padding-top:4px}#b,#b a{color:#77c}#u{padding-right:10px;line-height:19px;text-align:right;margin:0 0 3px !important;margin:0 0 10px}#sb{height:2em;width:5.6em}#km{height:50px}#l{margin:0 0 5px 15px}#l td{padding-left:107px}p,table{width:650px;border:0}#l td,#sb,#km{font-size:14px}#l a,#l b{margin-right:1.14em}a{color:#00c}a:active{color:#f60}#hp{position:absolute;margin-left:6px}#lg{margin:-26px 0 -44px}#lk{width:auto;line-height:18px;vertical-align:top}form{position:relative;z-index:9} 登录新 闻网 页贴 吧知 道MP3图 片视 频设置高级空间 hao123 | 更多>> 把百度设为主页加入百度推广 | 搜索风云榜 | 关于百度 | About Baidu?009 Baidu 使用百度前必读 京ICP证030173号 
上面是抓取网址上面的文字,下面这个却是抓取网址上面的链接地址Array ( [0] => http://passport.baidu.com/?login&tpl=mn [1] => http://news.baidu.com [2] => http://tieba.baidu.com [3] => http://zhidao.baidu.com [4] => http://mp3.baidu.com [5] => http://image.baidu.com [6] => http://video.baidu.com [7] => http://www.baidu.com/gaoji/preferences.html [8] => http://www.baidu.com/gaoji/advanced.html [9] => http://hi.baidu.com [10] => http://www.hao123.com [11] => http://www.baidu.com/more/ [12] => http://utility.baidu.com/traf/click.php?id=215&url=http://www.baidu.com [13] => http://e.baidu.com [14] => http://top.baidu.com [15] => http://home.baidu.com [16] => http://ir.baidu.com [17] => http://www.baidu.com/duty/ [18] => http://www.miibeian.gov.cn ) 

 

2
1
分享到:
评论
1 楼 eimhee 2009-12-16  
怎么过滤内容呢

相关推荐

    php小偷原理及改进

    AJAX改进PHP小偷 改进:通过AJAX异步读取HTML代码,后台进行匹配获取到想要的信息,再显示到前台页面

    php小偷程序原理和实例

    php小偷程序 原理和实例教程。讲解清楚,简单好学。适合大家学习研究。

    PHP100视频教程 16:PHP小偷程序原理和实例

    1、初识正则表达式 ^([a-zA-Z0-9_-]... 若省略参数返回的数组,找到则返回值为 True 否则 返回 False ereg() 有区分大小写,eregi() 无区分大小写3、file_get_contents 读取整个文件函数4、写一个天气预报小偷的程序

    PHP100视频教程 16:PHP小偷程序原理和实例.rar

    软件介绍 1、初识正则表达式  ^([a-zA-Z0-9_-]) @([a-zA-Z0-9_-]) (\.[a-zA-Z0-9_-])  用于描述字符排列和匹配模式的一种语法规则。它主要用于字符串的模式分割、匹配、查找及替换...4、写一个天气预报小偷的程序

    小偷程序代码

    简单的适合初学者的。php小偷程序原理代码

    PHP100视频教程全集112集BT种子【PHP经典】

    PHP100视频教程16:PHP小偷程序原理和实例 PHP100视频教程17:PHP面向对象开发的学习(一) PHP100视频教程18:PHP面向对象开发的学习(二) PHP100视频教程19:PHP面向对象开发的学习(三) PHP100视频教程20:...

    必帮百度搜索小偷程序 v1.0

    百度搜索 小偷程序 v1.0很多人用不本站程序 不保留发布站连接本程序不做其他广告位置说明 自己去研究就ad.js 一个广告位置 没有 演示站点广告位置多

    php教程---wmv高清--带PPT课件--保证下载质量

    1:环境配置与代码调试 2:PHP的数据类型与源码...8:Mysql 简介和创建新的数据库 9:数据库中的常用SQL语句 ...13:PHP+MYSQL分页原理 14:PHP上传原理及应用 15:PHP生成HTML文件原理 16.PHP小偷程序原理和实例

    php入门教程,视频教程--地址保证质量

    1:环境配置与代码调试 2:PHP的数据类型与源码...8:Mysql 简介和创建新的数据库 9:数据库中的常用SQL语句 ...13:PHP+MYSQL分页原理 14:PHP上传原理及应用 15:PHP生成HTML文件原理 16.PHP小偷程序原理和实例

    PHP抓取淘宝网店信誉

    这里我用PHP小偷的原理做了一个简单的抓取,一开始我设计的是每次打开公司首页就访问一次店铺,我发现这样很慢,便设计了现在的带缓存文件的抓取方式。速度比原来的快多了。 附件里面有PHP源文件,解压后即可上传至...

    php课程(共100多节)

    16:PHP小偷程序原理和实例 17:PHP面向对象开发的学习(一) 18:PHP面向对象开发的学习(二) 19:PHP面向对象开发的学习(三) 20:PHP面向对象开发的学习(四) 21:PHP面向对象开发的学习(五) 22:PHP面向...

    【联网制作】德云社相声视频网小偷程序.zip

    【联网制作】专业承接网站程序和小偷程序制作和各种采集规则编写,优惠的价格,专业的服务,让您想拥有属于自己的网站不再那么费事,只要把您所想所需告诉我们,一切由我们来替您解决。如有任何需求,请联系 以下...

    PHP抓取淘宝网店信誉.rar

    这里我用PHP小偷的原理做了一个简单的抓取,一开始我设计的是每次打开公司首页就访问一次店铺,我发现这样很慢,便设计了现在的带缓存文件的抓取方式。速度比原来的快多了。 附件里面有PHP源文件,解压后即可上传至...

    利用PHP制作简单的内容采集器的原理分析

    采集器,通常又叫小偷程序,主要是用来抓取别人网页内容的。关于采集器的制作,其实并不难,就是远程打开要采集的网页,然后用正则表达式将需要的内容匹配出来,只要稍微有点正则表达式的基础,都能做出自己的采集器...

    也谈采集入库的技术

    落伍的贴也看了很多了,发现了很多讲小偷技术的,如精华贴里的–小偷程序原理和简单示例: [url]http://www.im286.com/viewthread.php?tid=407182&extra=page=1[/url] 等等,也有提供采集程序下载的,但我还没看到...

    qq闪字生成主页

    但其原理类似于小偷程序,因此所生成图片属原网站所有运行环境:纯PHP,不需数据库支持安装步骤:1、上传qq目录至服务器空间2、运行网址:http://www.xxx.com/qq浏览注:如转载请保留本站版权信息,不胜感谢真诚欢迎...

Global site tag (gtag.js) - Google Analytics