要保留Apify中RequestQueue的头信息,可以使用以下代码示例:
const Apify = require('apify');
Apify.main(async () => {
// 创建一个新的RequestQueue
const requestQueue = await Apify.openRequestQueue();
// 添加一个请求到RequestQueue
await requestQueue.addRequest({ url: 'http://example.com' });
// 创建一个新的Crawler实例,并指定RequestQueue
const crawler = new Apify.CheerioCrawler({
requestQueue,
// 在请求中保留头信息
handlePageFunction: async ({ request, response, body }) => {
console.log(`Processing ${request.url}`);
console.log('Headers:', response.headers);
},
});
// 启动爬虫
await crawler.run();
});
在上面的示例中,我们创建了一个新的RequestQueue并添加了一个请求。然后,我们创建了一个新的CheerioCrawler实例,并将之前创建的RequestQueue分配给它。在handlePageFunction
中,我们可以访问响应的头信息并进行操作。