博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Nutch2.x常遇问题集锦
阅读量:5304 次
发布时间:2019-06-14

本文共 940 字,大约阅读时间需要 3 分钟。

1、nutch2.3-snapshot中batchid为null引发的.NullPointerException异常:

Exception in thread "main" java.lang.NullPointerExceptionat org.apache.nutch.parse.ParserJob.getBatchIdFilter(ParserJob.java:265)at org.apache.nutch.parse.ParserJob.run(ParserJob.java:253)at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:69)at org.apache.nutch.crawl.Crawler.run(Crawler.java:174)at org.apache.nutch.crawl.Crawler.run(Crawler.java:253)at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)at org.apache.nutch.crawl.Crawler.main(Crawler.java:260)

这里有点没搞懂,batchid为null是没有fetch的url,怎么会出现在parserjob中,暂时不管,我们直接忽略掉为null的batchid即可,在ParserJob.java的getBatchIdFilter函数中增加代码遇到null即return即可,如下所示:

private MapFieldValueFilter
getBatchIdFilter(String batchId) { if (batchId==null||batchId.equals(REPARSE.toString()) || batchId.equals(Nutch.ALL_CRAWL_ID.toString())) { return null; }

 

转载于:https://www.cnblogs.com/e-life/p/4122623.html

你可能感兴趣的文章
pandas 修改指定列中所有内容
查看>>
「 Luogu P2285 」打鼹鼠
查看>>
lua语言入门之Sublime Text设置lua的Build System
查看>>
vue.js基础
查看>>
电脑的自带图标的显示
查看>>
[转载] redis 的两种持久化方式及原理
查看>>
C++ 删除字符串的两种实现方式
查看>>
ORA-01502: 索引'P_ABCD.PK_WEB_BASE'或这类索引的分区处于不可用状态
查看>>
Java抽象类和接口的比较
查看>>
开发进度一
查看>>
MyBaits学习
查看>>
管道,数据共享,进程池
查看>>
CSS
查看>>
[LeetCode] 55. Jump Game_ Medium tag: Dynamic Programming
查看>>
[Cypress] Stub a Post Request for Successful Form Submission with Cypress
查看>>
程序集的混淆及签名
查看>>
判断9X9数组是否是数独的java代码
查看>>
00-自测1. 打印沙漏
查看>>
UNITY在VS中调试
查看>>
SDUTOJ3754_黑白棋(纯模拟)
查看>>