Jul2

【原创】Nginx 诡异http 400问题定位

Author: leeon  Click: 8332   Comments: 0 Category: 其他  Tag: nginx,http,400,get

今日在定位接口问题时候发现一个诡异的Nginx 400错误,现象和官方的问题反馈平台说的一样:

Inconsistent behavior on uri's with unencoded spaces followed by H http://trac.nginx.org/nginx/ticket/196 

在GET请求中如果带有原始空格后跟着一个大写H字母或者H开头的字符串的时候,Nginx会认为请求非法。

此问题出现在所有nginx版本中,请大家注意在GET请求的时候避免原始的空格出现,全部转义成%20

Jun30

【原创】使用xmlstarlet格式化xml文本

Author: leeon  Click: 6792   Comments: 0 Category: 其他  Tag: xmlstarlet,editplus
今日在做xml的数据采集和分析的时候需要对一定大小的xml文件做文本格式化,搜罗了一番网上资源,说的是xmlstar这个工具,只可惜已经被墙了,去sf看了下有个xmlstarlet的工具http://sourceforge.net/projects/xmlstar/?source=dlp,评价非常高,索性下下来一看也是一个xml.exe的文件,看来是把xmlstar的名字改头换面了一下。然后按照网上所说的方式配置下editplus就行了,这里就不多言了,请移步http://hi.baidu.com/fieldspace/item/fcb9e353ec0b31908d12ed29 下载xmlstarlet后自行配置即可。
Jun25

【原创】ZendStudio中格式化HTML代码错位问题修正

Author: leeon  Click: 13607   Comments: 2 Category: 其他  Tag: zendstudio,html,css,source,format

    ZendStudio提供的HTML编辑功能感觉很强大,有时候觉得比dw更加人性化,而且整合php在一个编辑器上编写前端会方便很多,以前每次通过zend格式化html代码都会奇丑无比,把html弄的各种错位和不适应的换行。今日研究了一番发现重新配置一下参数就能修正格式化html代码错位的问题。

选项:window -> preference -> web -> HTML Files -> Editor: 然后按照下图重新设置即可:

Jun16

【原创】Nutch2.1 部署问题小记

Author: leeon  Click: 8519   Comments: 0 Category: 其他  Tag: apache,nutch,2.1

1.nutch2.1 src版本的包下载后是不能直接使用的,必须通过ant命令进行一次编译。

2.ant编译的时间依赖网速,编译后会在源码包的根目录下生成两个目录,分别为ivy和runtime目录。nutch的核心配置和执行文件,jar包放在runtime下,ivy目录里面的ivy.xml管理依赖关系。数据源的配置在ivy.xml中管理。

3.启动nutch时候提示:

Exception in thread "main" org.apache.gora.util.GoraException: java.io.IOException: java.lang.ClassNotFoundException: com.mysql.jdbc.Driver

在ant执行命令之前请先编辑ivy.xml文件开启mysql支持,然后执行ant会自动的下载mysql的jar包。注意这里的顺序,不要线ant再修改ivy文件。

4. nutch支持mysql的方法可以参看 http://my.oschina.net/robolin/blog/82512 这篇文章关于mysql的配置说的是正确的

5. http://agiledon.github.io/blog/2013/03/07/nutch-crawler-crawl-data-and-store-to-mysql/ 此篇文章依据2.1版本讲解了如何使用mysql做为数据源配置nutch,可以参考借鉴。

6. mysql中表及字段的参数配置是由runtime/local/conf目录下的gora-sql-mapping.xml 文件管理的,我们可以根据此配置进行数据存储的调整。

7. 出现如下日志“can't find rules for scope 'outlink'”切此时java的cpu占用率持续100%,而且没有任何数据处理迹象的时候是因为匹配的数据出现的死循环,是因为过滤条件没有写正确导致。

8. 写入db数据报错提示:

java.io.IOException: java.sql.BatchUpdateException: Data truncation: Incorrect string value: '\xE5\xBE\xAE\xE6\xB3\xA2...' for column 'id' at row 1

这是因为主键id的属性编码有问题,必须是utf8编码,且长度最好设置为主键最大长度值,每个编码的varchar最大长度还不一样,utf8设置的最大长度为255。

9. 有些网站在采集的时候会返回403,这里原因很多,但是我们首先要怀疑的是被采集网站是否对useragent做了防采集判断,我们在nutch-default.xml中关于http.agent的配置参数尽量不要写太特殊的值,useragent写成模拟google spider的最好,先模拟采集自己的网站抓访问日志看useragent是否正常。

分类

标签

归档

最新评论

Abyss在00:04:28评论了
Linux中ramdisk,tmpfs,ramfs的介绍与性能测试
shallwe99在10:21:17评论了
【原创】如何在微信小程序开发中正确的使用vant ui组件
默一在09:04:53评论了
Berkeley DB 由浅入深【转自架构师杨建】
Memory在14:09:22评论了
【原创】最佳PHP框架选择(phalcon,yaf,laravel,thinkphp,yii)
leo在17:57:04评论了
shell中使用while循环ssh的注意事项

我看过的书

链接

其他

访问本站种子 本站平均热度:8823 c° 本站链接数:1 个 本站标签数:464 个 本站被评论次数:94 次