node-webkit解析excel文档

2015-01-12 14:37

node-webkit可以使用nodejs的那一套的第三方扩展的,所以我们需要先去找一个可以解析excel的第三方扩展去。

由于我的windows系统总是无法编译c++写的第三方扩展,用npm安装c++写的第三方扩展总是报错,所以我找了一个非c++的第三方扩展————excel-parser,安装方法很简单,在cmd下进入你的项目的目录,在项目目录中新建一个node_modules文件夹(和index.html,package.json在同一层次),然后在cmd下输入"npm install excel-parser"安装该扩展。

本来我以为,安装成功以后就可以直接在项目中使用 require("excel-parser")来调用该解析功能了,但是失败了,怎么办,研究一下源码看能不能解决。

首先看excelParser.js中的excelParser.worksheets函数,这个函数是怎么处理excel文件的呢,下面代码是核心:

if(!exists) return cb("File not found");
args = ['-x', path.relative(__dirname, options.inFile), '-W'];
utils.execute(args, function(err, stdout) {
  if(err) return cb(err);
  worksheets = _.compact(stdout.split(/\n/));
  if(worksheets) return cb(null, JSON.parse(worksheets));
  else return cb(new Error("Not found any worksheet in given spreadsheet"));
});

然后我们看一看utils.execute()是干什么用的,我们找到utils.js里面关键代码是:

cmd.join(' '),
{cwd: __dirname},
function(err, stdout, stderr) {
  if(err) return cb(err);
  if(stderr) return cb(stderr);
  cb(null, stdout);
}

主要是执行了一个cmd命令,我们看看这个命令执行的是什么呢?
python convert.py
原来是执行了一个python脚本,看到这里,我们必须要配置python环境了,这个就不多说了,默认你已经搭建好了,没有搭建的话网上有很多教程的,记得要用python2.7的环境,python2和3不兼容。

搭建好了,如果发现报错信息是这样子的:xlrd is required to run this script,我们就需要查查xlrd是什么了。

xlrd是python实现的一个解析excel的文件,我们的扩展中现在没有,所以需要下载下来,下载地址,在这里下载下来以后,解压,把里面的xlrd文件夹复制到convert.py同一目录中,这时候可以执行了。

在解析某些excel的时候可能会报错unknown encoding: unknown_codepage_21010

google一下这个错误就会找到这个网页https://github.com/okfn/messytables/issues/47还有这个网页http://stackoverflow.com/questions/3511743/using-xlrd-to-read-excel-xls-file-containing-chinese-and-or-hindi-characters原来是编码的问题

看convert.py源码,是调用xlrd.open_workbook()函数来解析excel的,我们看看这个函数的实现
init.py里面有一段代码

open_workbook(filename=None,
    logfile=sys.stdout,
    verbosity=0,
    use_mmap=USE_MMAP,
    file_contents=None,
    encoding_override=None,
    formatting_info=False,
    on_demand=False,
    ragged_rows=False,
)

看到里面的encoding_override=None了么,调用的时候需要指明编码格式

于是我们把convert.py中的workbook = xlrd.open_workbook(filename=inFile)修改成workbook = xlrd.open_workbook(filename=inFile, encoding_override="cp1252")(至于为什么是cp1252,上面的两个网页中如果仔细看,有解释)。

现在就不会出现unknown encoding: unknown_codepage_21010的问题了。

至此,问题解决。