`
沙漠绿树
  • 浏览: 425407 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论
文章列表
需要再一次强调的是,无论历史上的UCS还是现如今的Unicode,两者指的都是编码字符集,而不是字符集编码。花费一点时间来理解好这件事,然后你会发现对所有网页的,系统的,编码标准之间的来回转换等等繁杂事务都会思路清 ...
ASCII及相关标准      地球人都知道ASCII就是美国标准信息交换码的缩写,也知道ASCII规定用7位二进制数字来表示英文字符,ASCII被定为国际标准之后的代号为ISO-646.由于ASCII码只使用了7个二进制位,也就是说一个字节可以表示 ...
    在做了一年多的网页数据采集之后,中途停了几个月,今天经理交代一个任务,采集http://www.365rili.com/huangliQuery.html 中2011年全年的农历日期,例如 2011年1月1日 是“农历11月廿七  庚寅年 戊子月 丙辰日”。开始以为可以直接使用自编的webpage API来采集,但分析源代码之后发现,里面的数据全部是有JS动态生成的,对于目前的网页解析类库是很难获取到该网页的数据,就算使用htmlutil API,启动js引擎,模拟鼠标事件,这样也很难采集到该网页的数据。      因为按键精灵软件中有个网页分析的工具“网页按键精灵”可以分析网页加载 ...
    从2008年开始做网页数据采集,开始用使用别人编写的API 如HTML Parser、NekoHTML、Jericho HTML Parser(用于解析html网页),HtmlUtil(纯java版浏览器,具有Http协议和Html解析功能,JS执行功能)等,配合 HttpClient(提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,是HTTP协议有关的包,与我介绍的API中的HtmlPage类 类似)。因为那些API采集大量多种格式的网页数据时,在配置上很不灵活,例如采用DOM解析,Xpath等,导致配置复杂,所以从09年3月份开始编写自己的获取和分析网页的AP ...
引用    出于安全考虑,局域网内的机器访问访问墙外的网站借助于代理服务器进行,如果把局域网外Internet想象成一个巨大的资源库,局域网内的用户要访问这个库里的资源必须统一通过代理服务器进行。反过来,如果局域网 ...
引用    作为软件开发人员,在这次的360与QQ大战中,QQ店大欺客,还有百度也在兴风作浪,我看不管这种行为,我喜欢自由,我不喜欢被威胁。所以很希望某个大公司能够开发两款产品。 第一款是:即时通讯(IM) 要做的比QQ ...
引用    之前在项目开发时候,经理要求把所有的SQL语句挑出文档化管理,也就是说要把项目中的SQL语句全部写到一起,方便以后维护。经理是一个资深技术人员,对新技术、框架没有关注的缘故吧,因为现成有很多这样的框架,hibernate,iBATIS 等都具有这个功能。这些框架,我也只是在以前用过一小段时间,不是很熟练,为了完成要求,为此特意设计一下简易、方便的SQL管理,使用方法。     模仿properties文件的性质。把所有SQL文件放在一个文件中,分别加上注释;使用一个SqlReader类静态加载所有SQL。在使用的地方直接获取其KEY就能得到该SQL语句。这样就很好,很方便的SQL语句 ...
引用     在看新闻时,购买手机时,经常听到关于通信方面的一些英文缩写名称,经过查找资料,整理了这份名词解释。对目前火热3G时代,手机是热门话题,我们要了解手机本身,还要了解手机通信是怎么一回事。     一、定位三技术 RS技术(Remote Sensing 遥感技术),遥感技术是指从高空或外层空间接收来自地球表层各类地物的电磁波信息,并通过对这些认息进行扫描、摄影、传输和处理,从而对地表各类地物和现象进行远距离控测和识别的现代综合技术,可用于植被资源调查、作物产量估测、病虫害预测等方面。 GIS(Geographic Information Systems 地理信息系统),是多种学科 ...
引用    在做oracle plsql 编程的时候,难免要对文件进行操作,如读取oracle服务器上的别的目录下的数据文件,导入到oracle库中;虽然在plsql developer工具中提供了debug功能,但当有输出时,debug的控制台不能及时看到,除非停止debug。如果在plsql程序中输出日志信息到文件中,使得plsql程序调试、运行跟中更加方便,因为大家都知道日志的作用是什么。     下面讲讲怎么在oracle的plsql程序中写入日志到oracle服务器的文件中。虽然我们是用plsql developer开发和运行plsql程序,但是plsql developer经常是安 ...
引用如何在Linux下安装启动多个Tomcat 1. 环境:     1.1. Red Hat Linux 9     1.2. Tomcat 5.5.17 2. 需要解决一下几个问题     2.1. 不同的tomcat启动和关闭监听不同的端口     2.2. 不同的tomcat的启动文件startup.sh 中要指定各自的CATALIN ...
引用一、解析Linux应用软件安装包,通常Linux应用软件的安装包有四种:       1) tar包,如software-1.2.3-1.tar.gz。他是使用UNIX系统的打包工具tar打包的。    2) rpm包,如software-1.2.3-1.i386.rpm。他是Redhat Linux提供的一种包封装格式 ...
引用    因为工作原因,很少跟以前的同学、朋友、同事、老师联系了。甚至一个月很少发一条短信。所以利用飞信第三方接口,做了一个短信自动发送器。定时向他们发送预先设置好的短信,让他们不会忘记。经过周末熬夜做 ...
引用        js本身是一种面向对象的语言,它所涉及的元素根据其属性的不同都依附于某一个特定的类。我们所常见的类包括:数组变量(Array)、逻辑变量 (Boolean)、日期变量(Date)、结构变量(Function)、数值变量(Number)、对象变量(Object)、字符串变量 (String) 等,而相关的类的方法,也是程序员经常用到的(在这里要区分一下类的注意和属性和方法),例如数组的push方法、日期的get系列方法、字符串的 split方法等等。但是在实际的编程过程中不知道有没有感觉到现有方法的不足?因此prototype 方法应运而生。         我们知道js中对 ...
引用 在编写javascript中,常出现在function处提示“missing ( before function parameters”的错误,这是怎么回事? 例如: function String.prototype.trim(){     return this.replace(/(^\s*)|(\s*$)/g,""); } 就经常会报类似的错误。 改成如下时错误消失: String.prototype.trim=function(){     return this.replace(/(^\s*)|(\s*$)/g,""); } 原因 ...
引用    HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写,它用于传送WWW方式的数据,关于HTTP协议的详细内容请参考RFC2616。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求,请求头包含请求的方法、URI、协议版本、以及包含请求修饰符、客户信息和内容的类似于MIME的消息结构。服务器以一个状态行作为响应,相应的内容包括消息协议的版本,成功或者错误编码加上包含服务器信息、实体元信息以及可能的实体内容。   通常HTTP消息包括客户机向服务器的请求消息和服务器向客户机的响应消息。这两种类型的消息由一个起始行,一个或者多个头域,一个只是头域结 ...
Global site tag (gtag.js) - Google Analytics