【记录】用Python从pdf文件中提取文字数据信息
crifan 13年前 (2013-05-20) 6433浏览
【背景】 已有一个pdf文件,效果如下: 想要用python从中提取一些信息。 【折腾过程】 1.搜了下,找到个: pyPdf http://pybrary.net/pyPdf/ 其功能之一是: “extracting document infor...
在路上on the way - 走别人没走过的路,让别人有路可走
crifan 13年前 (2013-05-20) 6433浏览
【背景】 已有一个pdf文件,效果如下: 想要用python从中提取一些信息。 【折腾过程】 1.搜了下,找到个: pyPdf http://pybrary.net/pyPdf/ 其功能之一是: “extracting document infor...
crifan 13年前 (2013-05-17) 5286浏览
【问题】 新版迅雷的桌面的快捷方式图标,右上角有个数字,是当前迅雷中未完成任务的个数, 比如当前迅雷还有3个下载未完成,结果就显示3: 想要搞懂是如何实现的。 【解决过程】 1.对着桌面的快捷方式,右击,属性,发现其内容是: 目标的值是: ...
crifan 13年前 (2013-05-16) 7480浏览
【问题】 C#中,已有一个List,想要动态的,绑定到ComboBox中。 【解决过程】 1.参考: c# winform comboBox动态绑定数据 去试试代码: cmbSubCategory.DataSource...
crifan 13年前 (2013-05-16) 9478浏览
【问题】 C#中,对于一行代码,加了断点,而且肯定会执行到的。 结果调试的时候,却无法调试到。 现象看起来是,该行代码,直接被忽略掉了。 比如,对于代码: HtmlAgilityPack.HtmlDocument htmlDoc = crl.html...
crifan 13年前 (2013-05-16) 6921浏览
【问题】 C#中,用HtmlAgilityPack去解析html,其中用xpath去查找对应的内容。 对于: <div id="atfResults" class="list results twister...
crifan 13年前 (2013-05-15) 15358浏览
【背景】 看到: python将json转换成xml 所以先去试试,用python实现,将xml转为json。 【解决过程】 1.参考: python中将XML转换为JSON格式 所以先以: <student> ...
crifan 13年前 (2013-05-14) 2966浏览
1.找到一个旧版本的: BS-EN-61804-2-2004 这里也有该文件: BS-EN-61804-2-2004 2.后来又找到新版本的: Function blocks (FB) for process control — Par...
crifan 13年前 (2013-05-14) 2930浏览
【背景】 对于从antlr v2迁移到v3时,所要注意的事项,和对应的语法改动。 官网: Migrating from ANTLR 2 to ANTLR 3 中已经整理过了。 不过呢,我此处,只是针对个人遇到过的例子,来整理一些,常见的情况的处理: ...
crifan 13年前 (2013-05-14) 3337浏览
【问题】 antlr的语法: grammar preprocess; //lexer grammar preprocess; options{ language=Java; } ...... fragment MACRO_TEXT : ...
crifan 13年前 (2013-05-14) 4033浏览
【问题】 折腾: 【已解决】antlr语法出错:rewrite syntax or operator with no output option; setting output=AST 期间,在java中,想要把: 反斜杠 \r(可能有,可能没有) ...