这是MNBVC项目的一部分,负责清理stackexchange的数据为AI框架可以直接使用的数据格式。 stackexchange会定期将自己旗下的站点数据导出到互联网。本项目用于解析导出的数据至json格式。由于其巨大的xml文件python处理不了,因此使用java体系进行处理。
-
支持超大xml解析。
-
整站解析。
-
按大小拆分成品文件。
-
效率高,速度快。
- 下载完整数据包 https://archive.org/details/stackexchange
- 修改allSitemain方法中的路径
- 添加 jvm参数 -DentityExpansionLimit=0 -DtotalEntitySizeLimit=0 -Djdk.xml.totalEntitySizeLimit=0 -Djdk.xml.totalEntitySizeLimit=0
- 执行 allSite
-
通过种子下载文件即可。下载回来的文件不需要解压。
-
生成的文件500M一个,以自然行切分(不会丢失数据)。