分页: 13/56 第一页 上页 8 9 10 11 12 13 14 15 16 17 下页 最后页 [ 显示模式: 摘要 | 列表 ]
1、字符编码(character encoding)

  一个HTTP协议的请求或应答的头部(在http协议中,数据包分为两部分,一部分是头部,由一些名值对构成,一部分是主体(body),是真正传办理的数据(如HTML页面等)),必须以US-ASCII编码,这是因为头部不传数据而只描述被要传输的数据的一些信息,一个例外是cookie,它是数据但是通过头部进行传输的,所以它也要用US-ASCII编码。
  HTTP数据包的主体部分,可以用任何一种方式进行编码,默认是ISO-8859-1,具体可以用头部字段Content-Type指定。可以利用 addRequestHeader方法,设定编码方式;用 getResponseCharSet取得编码方式。对HTML或XML等类型的文档,它们的本身的Content-Type也可以指定编码方式,主要区分两者的作用范围以得到正确实的解码。
  URL的编码标准,由RFC1738指定为,只能是由可打印8位/字节的us-ascii字符组成,80-ff不是us-ascii字符,而00-1F是控制字符,这两个区域中用的字符都须加以编码(encoded)。
  
2、Cookies

   HttpClient能自动管理cookie,包括允许服务器设置cookie并在需要的时候自动将cookie返回服务器,它也支持手工设置 cookie后发送到服务器端。不幸的是,对如何处理cookie,有几个规范互相冲突:Netscape Cookie 草案, RFC2109, RFC2965,而且还有很大数量的软件商的cookie实现不遵循任何规范. 为了处理这种状况,HttpClient提供了策略驱动的cookie管理方式。HttpClient支持的cookie规范有:
Netscape cookie草案,是最早的cookie规范,基于rfc2109。尽管这个规范与rc2109有较大的差别,这样做可以与一些服务器兼容。

rfc2109,是w3c发布的第一个官方cookie规范。理论上讲,所有的服务器在处理cookie(版本1)时,都要遵循此规范,正因如此,HttpClient将其设为默认的规范。遗憾的是,这个规范太严格了,以致很多服务器不正确的实施了该规范或仍在作用Netscape规范。在这种情况下,应使用兼容规范。

兼容性规范,设计用来兼容尽可能多的服务器,即使它们并没有遵循标准规范。当解析cookie出现问题时,应考虑采用兼容性规范。

   RFC2965规范暂时没有被HttpClient支持(在以后的版本为会加上),它定义了cookie版本2,并说明了版本1cookie的不足,RFC2965有意有久取代rfc2109.
  在HttpClient中,有两种方法来指定cookie规范的使用,
HttpClient client = new HttpClient();
client.getState().setCookiePolicy(CookiePolicy.COMPATIBILITY);
这种方法设置的规范只对当前的HttpState有效,参数可取值CookiePolicy.COMPATIBILITY,CookiePolicy.NETSCAPE_DRAFT或CookiePolicy.RFC2109。

System.setProperty("apache.commons.httpclient.cookiespec", "COMPATIBILITY");
此法指的规范,对以后每个新建立的HttpState对象都有效,参数可取值"COMPATIBILITY","NETSCAPE_DRAFT"或"RFC2109"。
  常有不能解析cookie的问题,但更换到兼容规范大都能解决。
  
3、使用HttpClient遇到问题怎么办?


用一个浏览器访问服务器,以确认服务器应答正常

如果在使代理,关掉代理试试

另找一个服务器来试试(如果运行着不同的服务器软件更好)

检查代码是否按教程中讲的思路编写

设置log级别为debug,找出问题出现的原因

打开wiretrace,来追踪客户端与服务器的通信,以确实问题出现在什么地方

用telnet或netcat手工将信息发送到服务器,适合于猜测已经找到了原因而进行试验时

将netcat以监听方式运行,用作服务器以检查httpclient如何处理应答的。

利用最新的httpclient试试,bug可能在最新的版本中修复了

向邮件列表求帮助

向bugzilla报告bug.

Tags: ,
最近一直试图用httpClient做点自动化的工作,不过现在看来并没有想象中的那么轻松。

实际上登录一个网站,访问某个特点的页面,发表一篇文章,上传一些文件,并不是一个简单的事情。
HttpClient的基本使用因为发布的代码中带有几个例子,应该算是不难掌握的事情。下面我说下我遇到的几个问题。

1,登陆验证图片问题
首先登录的时候网站如果不想你对它编程的化通常都会设计一个验证图片,这个技术现在已经如此的易于使用,以至于随便到哪里都能找到代码来直接使用。对于验证图片的,现在还苦于无计可施状态。

2,笨蛋Cookie问题:
如果你要发送多个cookie,其实可以这样发的:

state.addCookies (new Cookie[]{
            new Cookie(" www.aaa.com","popped","yes","/",new Date(2006,12,8),false),
            new Cookie(" www.aaa.com","rtime","2","/",new Date(2006,12,8),false),
            new Cookie(" www.aaa.com","ltime","1149940477953","/",new Date(2006,12,8),false),
            new Cookie(" www.aaa.com ","cnzz02","1","/",new Date(2006,12,8),false),
        });

但是截包就会发现,httpclient会在header里构件多个cookie项,每一项只含有一个cookie,这同IE是不一样的。IE和Firefox会把所有的cookie打包成一个,然后在这个cookie里按照分号把每一项隔开,中间有个空格。
所以如果用httpclient,还想让cookie正常的话,请使用下面这种形式:


String cookies = "yes; rtime=2; ltime=1149940477953; cnzz02=1";
state.addCookie(new Cookie("blog.aaa.com","poped",cookies,"/",new Date(2006,12,8),false));

3,编码问题:

httpClient处理编码并不像IE或FireFox那么智能,httpclient记不住上次会话的编码,这样如果默认不是ISO-8859-1的话,那都要在Content-Type里边指定,其实指定的方法也很简单。
本来要提交的是form,默认按照application/x-www-form-urlencoded来发送,在IE里边发送的话截包可以看到,报文中也就指定了这样一个Content-Type,但是人家IE已经把报文的内容按照会话的编码转换好了。而httpclient不行,它并不知道怎么转化,那么你没有设定转换的charset的话,它就按照Charset=ISO-8859-1转换了。这一点上Httpclient应该再改进一下,因为记住server发过来的页面编码是件很简单的事情。只要将类似于"Content-Type: text/html; charset=utf-8"这样的头保存一下状态就可以了。
为了弥补httpclient这一点的傻瓜表现,我们只好每次都手工设置一下喽:
postMethod.addRequestHeader("Content-Type","application/x-www-form-urlencoded; charset=UTF-8");

4,上传文件问题:

httpClient并不能很好的模拟文件上传。
首先是对于文件类型的识别,IE可以做到按照文件类型分别选择不同的Content-type进行发送,而httpclient就需要我们自己设定,这样如果对一个目录进行自动化上传的话就必须知道该目录下所有文件的类型,以及对应的charset,然后再设置FilePart的时候逐一判断文件扩展名,以赋给不同的content-type和charset,对于一些网页编码是gb2312,而另外一些网页编码是utf-8则会更加麻烦。
其次是如果发送的multiPartPost报文中除了FilePart以外,还需要一些form中的其他input的信息,又是一件很麻烦的事情。刚开始的时候我以为像一般的PostMethod一样,使用PostMethod.addParameters()就可以了,后来才发现这个 MultiPartPost跟那个Post根本就是两个不同的Post。虽然从网页上看都是Form,且只是在input的类型上 MultiPartPost包含一个file类型的input,其他完全一样,但实际上在httpClient中是完全不同的两套方案。对于 MultiPartPost而言,不能用addParameters(),而要使用




someMultiPartPost.setRequestEntity(
     new MultipartRequestEntity(
         new Part[] { art1,part2,part3,part4},
                    someMultiPartPost.getParams())
);



这种形式。对于要上传的File,那么这些part就是FilePart对象,如果是跟随form的其他input,那么这些part就是 StringPart。这样发出去的报文才是:Content-Disposition: form-data; name="newFolderName"这种形式。


总结起来,其实也不能怪人家HttpClient,天下间哪有那么多容易做到的事情,尤其是面对Http这样一个说来不算简单的协议。
实际上像这种开源已久的东西,已经有了不少的文档,虽然有时候不太好找,但很多问题还是能够猜或者试出来,毕竟相对比较成熟,而且遵循这rfc来做的。就像我在水母上问问题,有人说的那样,世界上有什么能模拟的像IE一样呢,也不能拿IE的标准要求HttpClient。
我现在的感觉是要想用好HttpClient,或者类似的别的什么工具(其他我就不知道了,有知道类似工具的麻烦告诉我一声),其实还是要把协议吃透,这样一旦遇到什么问题,才知道问题出在哪里,否则就只有郁闷的份儿了。
昨天去Apache的网站,看到一个新的Project叫做HttpComponent从common里边脱离出来,包含了HttpCore, HttpClient,HttpAsync,HttpNIO,HttpCookie,HttpConn,看不出到底想做成什么样子,不过HttpCore 4.0 alpha2已经发布了,以后HttpClient用起来可能又有新的变化了。

一周的时间,用的不是很多,有说得不妥的地方,还请大家指正。
Tags: ,

[转载]HttpClient的下载 不指定

海蓝 , 2009/04/11 16:57 , Program Life - Java , 评论(0) , 阅读(1064) , Via 本站原创
下载页面文件

import org.apache.commons.httpclient.*;
import org.apache.commons.httpclient.methods.*;

public class GetPageExample {
public static void main( String[] args ) {
   if( args.length() == 0 ) {
    System.out.println( "Usage: java GetPageExample URL" );
    System.exit( 0 );
   }
   String url = args[ 0 ];
   try {
    HttpClient client = new HttpClient();
    GetMethod method = new GetMethod( url );
    method.setFollowRedirects( true );

    // Execute the GET method
    int statusCode = client.executeMethod( method );
    if( statusCode != -1 ) {
      String contents = method.getResponseBodyAsString();
      method.releaseConnection();
      System.out.println( contents );
    }
   }
   catch( Exception e ) {
    e.printStackTrace();
   }
}
}

下载文件

import org.apache.commons.httpclient.*;
import org.apache.commons.httpclient.methods.*;

public class GetFileExample {
public static void main( String[] args ) {
   if( args.length() < 2 ) {
    System.out.println( "Usage: java GetFileExample URL filename" );
    System.exit( 0 );
   }
   String url = args[ 0 ];
   try {
    HttpClient client = new HttpClient();
    GetMethod method = new GetMethod( url );
    method.setFollowRedirects( true );

    // Execute the GET method
    int statusCode = client.executeMethod( method );
    if( statusCode != -1 ) {
      System.out.println( "Reading file" );
      InputStream is = method.getResponseBodyAsStream();
      BufferedInputStream bis = new BufferedInputStream( is );
      FileOutputStream fos = new FileOutputStream( filename );
      byte[] bytes = new byte[ 8192 ];
      int count = bis.read( bytes );
      while( count != -1 && count <= 8192 ) {
       System.out.print( "-" );
       fos.write( bytes, 0, count );
       count = bis.read( bytes );
      }
      if( count != -1 ) {
       fos.write( bytes, 0, count );
      }
      fos.close();
      bis.close();
      method.releaseConnection();
      System.out.println( "\nDone" );    
    }
   }
   catch( Exception e ) {
    e.printStackTrace();
   }
}
}
import java.io.IOException;

import org.apache.commons.httpclient.*;
import org.apache.commons.httpclient.cookie.*;
import org.apache.commons.httpclient.methods.*;

public class JClientLoginTest {
public static void main(String[] args) throws HttpException, IOException {
  HttpClient client = new HttpClient();
  client.getHostConfiguration().setHost( "bbs.cpcw.com" , 80, "http" );

  PostMethod post = new PostMethod( "/logging.php?action=login" );
  NameValuePair name = new NameValuePair( "username" , "dongle2001" );
  NameValuePair pass = new NameValuePair( "password" , "1a9i8h1a" );
  NameValuePair quest = new NameValuePair( "questionid" , "0" );
  NameValuePair answer = new NameValuePair( "answer" , "" );[www.iocblog.net 来源]
  NameValuePair cookietime = new NameValuePair( "cookietime" , "315360000" );
  NameValuePair submit = new NameValuePair( "loginsubmit" , "提 &nbsp; 交" );
  post.setRequestBody( new NameValuePair[]{name,pass,quest,answer,cookietime,submit});
  int status = client.executeMethod(post);
  post.releaseConnection();

  CookieSpec cookiespec = CookiePolicy.getDefaultSpec();
  Cookie[] cookies = cookiespec.match("bbs.cpcw.com", 80, "/" , false , client.getState().getCookies());
  if (cookies.length == 0) {
     System.out.println( "None" );
   } else {
   for ( int i = 0; i < cookies.length; i++) {
      System.out.println(cookies[i].toString());
   }
  }

  GetMethod get=new GetMethod("/viewthread.php?tid=883329");
  client.executeMethod(get);
  String response = new String(get.getResponseBodyAsString().getBytes("8859-1"));
  System.out.println(response);
  get.releaseConnection();

}
}
Tags: ,

用wap浏览器在饭否网发图片 不指定

海蓝 , 2009/04/05 13:24 , Others , 评论(2) , 阅读(1483) , Via 本站原创
如果你想在饭否网发布图片,又不想花费手机费来发彩信,用这个在线wap浏览器就可以了http://w2w.spforum.net/
叫上方网wap浏览器,上方宝剑的意思?
点击在新窗口中浏览此图片
在输入栏输入饭否网的wap地址: wap.fanfou.com
就可以看到饭否的手机登录界面了

点击在新窗口中浏览此图片
下面有个“发照片”的链接,点击一下,就可以把本地电脑上的图片发到饭否网了
点击在新窗口中浏览此图片
还不去试试?
Tags: , ,
分页: 13/56 第一页 上页 8 9 10 11 12 13 14 15 16 17 下页 最后页 [ 显示模式: 摘要 | 列表 ]