From cfcf01265b5225eea5b5f1b614960770fb865714 Mon Sep 17 00:00:00 2001
From: "John T. Sexton" <sexton.john.t@gmail.com>
Date: Tue, 5 May 2020 15:25:58 -0500
Subject: [PATCH] Migrate pandas read_excel engine from xlrd to openpyxl.

-Modify FlowCal.excel_ui.read_table() to first try openpyxl engine
 when reading an Excel file and then xlrd (which is the only package
 that can read old-style XLS files).
-Expose the pd.read_excel() `engine` parameter to the user from
 FlowCal.excel_ui.read_table().
-Add new unit test that reads old-style XLS file.
-Modify requirements file to require openpyxl package.
---
 FlowCal/excel_ui.py    |  61 +++++++++++++++++++++++++++++++++++------
 requirements.txt       |   1 +
 test/test_excel_ui.py  |  47 +++++++++++++++++++++++++++++++
 test/test_excel_ui.xls | Bin 0 -> 25088 bytes
 4 files changed, 100 insertions(+), 9 deletions(-)
 create mode 100644 test/test_excel_ui.xls

diff --git a/FlowCal/excel_ui.py b/FlowCal/excel_ui.py
index 3408760..fb01990 100644
--- a/FlowCal/excel_ui.py
+++ b/FlowCal/excel_ui.py
@@ -96,6 +96,10 @@
 from matplotlib import pyplot as plt
 import numpy as np
 import pandas as pd
+try:
+    import openpyxl
+except ImportError:
+    pass
 
 import FlowCal.io
 import FlowCal.plot
@@ -115,7 +119,7 @@ class ExcelUIException(Exception):
     """
     pass
 
-def read_table(filename, sheetname, index_col=None):
+def read_table(filename, sheetname, index_col=None, engine=None):
     """
     Return the contents of an Excel table as a pandas DataFrame.
 
@@ -128,6 +132,9 @@ def read_table(filename, sheetname, index_col=None):
     index_col : str, optional
         Column name or index to be used as row labels of the DataFrame. If
         None, default index will be used.
+    engine : str, optional
+        Engine used by `pd.read_excel()` to read Excel file. If None, try
+        'openpyxl' then 'xlrd'.
 
     Returns
     -------
@@ -150,17 +157,53 @@ def read_table(filename, sheetname, index_col=None):
         raise TypeError("sheetname should specify a single sheet")
 
     # Load excel table using pandas
-    # Parameter specifying sheet name is slightly different depending on pandas'
-    # version.
+    read_excel_kwargs = {'io':filename,'index_col':index_col}
+
+    # Parameter specifying sheet name depends on pandas version
     if packaging.version.parse(pd.__version__) \
                 < packaging.version.parse('0.21'):
-        table = pd.read_excel(filename,
-                              sheetname=sheetname,
-                              index_col=index_col)
+        read_excel_kwargs['sheetname']  = sheetname
     else:
-        table = pd.read_excel(filename,
-                              sheet_name=sheetname,
-                              index_col=index_col)
+        read_excel_kwargs['sheet_name'] = sheetname
+
+    if engine is None:
+        # try reading Excel file using openpyxl engine first, then xlrd
+        try:
+            read_excel_kwargs['engine'] = 'openpyxl'
+            table = pd.read_excel(**read_excel_kwargs)
+        except ImportError as e:
+            if not('openpyxl' in str(e).lower()
+                   and 'missing' in str(e).lower()):
+                raise
+            else:
+                # pandas recognizes openpyxl but package is missing, try xlrd
+                read_excel_kwargs['engine'] = 'xlrd'
+                table = pd.read_excel(**read_excel_kwargs)
+        except ValueError as e:
+            if not('openpyxl' in str(e).lower()
+                   and 'unknown' in str(e).lower()):
+                raise
+            else:
+                # pandas does not recognize openpyxl (e.g. pandas
+                # version <= 0.25.0), try xlrd
+                read_excel_kwargs['engine'] = 'xlrd'
+                table = pd.read_excel(**read_excel_kwargs)
+        except Exception as e:
+            if 'openpyxl' in sys.modules \
+                    and isinstance(e, openpyxl.utils.exceptions \
+                                          .InvalidFileException):
+                # unsupported file type (e.g. .xls), try xlrd
+                #
+                # (note: openpyxl's InvalidFileException has been stable at
+                # that location since v2.2.0)
+                read_excel_kwargs['engine'] = 'xlrd'
+                table = pd.read_excel(**read_excel_kwargs)
+            else:
+                raise
+    else:
+        read_excel_kwargs['engine'] = engine
+        table = pd.read_excel(**read_excel_kwargs)
+
     # Eliminate rows whose index are null
     if index_col is not None:
         table = table[pd.notnull(table.index)]
diff --git a/requirements.txt b/requirements.txt
index f23e2e7..b259aee 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -8,4 +8,5 @@ scikit-image>=0.10.0
 scikit-learn>=0.16.0
 pandas>=0.16.1
 xlrd>=0.9.2
+openpyxl>=2.4.1
 XlsxWriter>=0.5.2
diff --git a/test/test_excel_ui.py b/test/test_excel_ui.py
index aba240f..a242eac 100644
--- a/test/test_excel_ui.py
+++ b/test/test_excel_ui.py
@@ -67,6 +67,53 @@ def test_read_table(self):
         # Compare
         tm.assert_frame_equal(table, expected_output)
 
+    def test_read_table_xls(self):
+        """
+        Test for proper loading of a table from an old-format Excel sheet.
+
+        """
+        xls_filename = 'test/test_excel_ui.xls'
+
+        # Sheet to read
+        sheetname = "Instruments"
+        # Column to use as index labels
+        index_col = "ID"
+
+        # Expected output
+        expected_output_list = []
+        row = {}
+        row[u'Description'] = u'Moake\'s Flow Cytometer'
+        row[u'Forward Scatter Channel'] = u'FSC-H'
+        row[u'Side Scatter Channel'] = u'SSC-H'
+        row[u'Fluorescence Channels'] = u'FL1-H, FL2-H, FL3-H'
+        row[u'Time Channel'] = u'Time'
+        expected_output_list.append(row)
+        row = {}
+        row[u'Description'] = u'Moake\'s Flow Cytometer (new acquisition card)'
+        row[u'Forward Scatter Channel'] = u'FSC'
+        row[u'Side Scatter Channel'] = u'SSC'
+        row[u'Fluorescence Channels'] = u'FL1, FL2, FL3'
+        row[u'Time Channel'] = u'TIME'
+        expected_output_list.append(row)
+        expected_index = pd.Series([u'FC001', u'FC002'], name='ID')
+        expected_columns = [u'Description',
+                            u'Forward Scatter Channel',
+                            u'Side Scatter Channel',
+                            u'Fluorescence Channels',
+                            u'Time Channel']
+
+        expected_output = pd.DataFrame(expected_output_list,
+                                       index=expected_index,
+                                       columns=expected_columns)
+
+        # Read table
+        table = FlowCal.excel_ui.read_table(xls_filename,
+                                            sheetname=sheetname,
+                                            index_col=index_col)
+
+        # Compare
+        tm.assert_frame_equal(table, expected_output)
+
     def test_read_table_no_index_col(self):
         """
         Test proper loading of a table when no index column is specified.
diff --git a/test/test_excel_ui.xls b/test/test_excel_ui.xls
new file mode 100644
index 0000000000000000000000000000000000000000..8169fc33955a84f675e9f6b4ef86e50b6dfcfcf8
GIT binary patch
literal 25088
zcmeHPeQX@Zb$@$zB#-(csc(NsT9Nu7DN>Q{WLb)2ohaI}lu(usDUjPJl~2c`MTp`l
z$D<_y7ECAcKe3xSR4TWYS|?46pv|X0TBnFx%RpiOLpMbm*Ri7{PT?8}QZ%vBqD^4u
z^83x)-tF$~?%hR35Cgl!?C!js`Mo!9-g`SUJI8<dcE{_Vf8zQdiR;)QQTcVTRhn&d
z1NZN<^6i4>#UiuTbv^Du3Xk`Y23q6j$mS;b!~HL{JTDPxj*I*V*Kfp_6ZsFMBXWxO
z=I`>@rDRAOl;JWA?-rw342emTT*8wMxlTzpU!51I^Ve0`XVv)@nJ+(=QF(dm2UcuB
zJwduNvQw4&V|DIS=Xp3A@{FqUnxbr!<#Gk(<MJ@8MdT+f#-OBS3~0wBkMr-cgdtnx
zS*qZ-mg6{DvBlMvlckoVRa^RuT3li^OHgASE-uv?TUfKi_L?Pj)F@#{s)oi4*;J#1
zphR%*8`4@6V^$4}h%Bj5!hjXl>it$<jODQ#;Vnx<I#+de^>uY^ING!ANVk<a(z86a
z64Cue$McVTC_DU7XQ57Mk!6)a>o+)YkSEkyh}!8c<w7eJy;*uCA##+W^qQ7rrR<Sz
zML5#4twiYT?}Xe(yLTQ1m-W(vKUB5X>ox6_dQC@-l=R8_oy>F#ocxq%HkPSWh3RHl
z2S2GWwd$AoT9p;+O3l}0A-qE5e~YHN>eFR2q*D{`z8(xQwTgL;Xnc-dl>VPCJ&HZ1
z^j}T?st^5deCS{Ep<nc&f8B@v6(9Ov_|PBpq5H|>hyRoh&R_b_8<ppaJ~&VK(4SWH
zMOFRvk3RHI`OyE~hpy$R#@F&x)BjfC%&wA0+ew>6|7=IcBeNfwEwKx#d`Fo+GV<Jt
z=T=DU8AWeK3{iIY|0tji%RYO2=zTu)UQhZ0U@H9oDZ!WgYnDYX+rPGF4DxjO@5lk%
zuCV;E)k#P5wVX{Ax`|sf-$i%vookgZ>qpx^#+nx2yKsBGg)_&Zm*xC&NpGd{mpVEY
z&t42YKdR{Stn$Fude-`H#(UXI&n;GYmz)bN`gbtIlO1I}%(v*S^3=mX)Wo@TAkN$y
zUnuudq2(hbgD;-^z`1z8oO94wAR=?|UWnq3!%MzA@!IK~hc|Vkx&n(dR6!3F8{j}e
z8sZRZv;tMu5C_KQhAOag8>+xgX{Z9-qM-`(yM`(-&@@zm9@9_-x@1EY=wl64U{GwR
z!X`%rnqm!q*wJW(b&d*kcwAqj75W>kz(taVw1nYnV->bJD!A2ZoQn^*;u1!;h)7n{
za94=LO96|nuSephSq*|AeQl6pDi|bL4@e>z46>mN!f=SdUUZmM49($#7k>87MgQh>
zJ3uZ;vo}cb#UPNIogjyOBq{#%l1-A&xO(R%fV8OIq136=JwB4m{COFqrPRdx?z^vO
zE!wab31FwS+Gu#Bj#(bGb8)v&TT#|7RLWbZt5>g936)Bvs)VxBETKp%$t0Fgc3QPi
zm>SxI`qeofb$bbA*UGhN%I#d6A(VD5YQIV-i&=5XC~K;^WxeH=(K~r~n)Kt3KVAm0
zY{0Hsi<zBPzq;MSnOh)+j$~{Z`pRho)vefqV%lifimGUAIcBjqQ`L$mpM0{)XzVnr
z6{G=M9hTA9Y1LyaE@)R;K|64$_FVkKE`QvP3bAsutZD`I&gR);6!mV=EPt$ypq;2y
z3B$-#cd`ZIAGbKdu7FfYM;%8cJ7SlvT9U=}fXoa9gJ5N;wj{M;d6xqO8E>6%km;`z
z&dTc0NiYZ&(rSau3<ZN=A+0t@A{h*_$^n9mw@x^Y_SXq#ICbbG7-VTZATvY3Aj|6k
zNhE_oRy#nD@zx2a3jR9bEV>Sz1cO{x56H|=FbF21wIxX;gF)6fK#=j)31>t8I^hht
z4xI#pV4hzaWM(KB#H<G-kqib|>i|K<TPK|G`RjzMMRn*T803a}KxT%5K~~lSl1SP?
z&PV1;J6>Os*s$8{HwQAA?08}0bbOyoQ+1`oh%GP9#WMW{SuLjYBMnFfe_0uq0++*~
z07K?TODsEb<;}N>O}yvZ2BU!0T+ASw4mX=bHJi==HhM~-*feEFu3q_`H=FrxHpyx>
zYXaElNrz(7oE`b;TR-q-v%t+}Q#G6305+WMmXy|#9eLx2|K-hQp_|Q3)oj)Wu;Fx}
z#3r5{dF{V{;mu}|o6Y8GHi-Z>dRVKJ)|wr8=O?dvvsp|wn}RKE1=wt=!_sDkzB%)T
zH=8AHHXfGN6~M-BX){A_e)Ab`HcQ=XJS=T(02{ld%?y3_jc2{tT<2!vVQK3E*w`&?
zW@zT}Yu;?GceC-ZwD$$Dv0K{A&@(^yu{WC=+-y87Eg8VZZfP?^Z@>JsH=7&DW^=Hm
znP9WI4ogcU|MaO>yxA;sv+=OBRRL`5mX=7qcHy($Y?iy(cvxC@02{ldC6fR2%0+KB
zE8J{6EUhnqjos1`$tOPdqBk4U&BnvhHUzM-TUsJH{n8b0HY?q1JS=Tf02{ldC6d2-
z?oYhf%)xhVjJwM3%>mbYb6K&)_gyKn|Nei_pnOr{D7`D^NLK|E7Uc$A=>oM|5x$`u
z*yjzpssal8af7aQf!b|G<l?vfz#DXR1r*le2JLZy+ATz6YWT0bLDy73VH<AHeix|S
z9z;I)l^480*H%Db32xAhE>L^#i~Qe(-Cm$^>BietcBO}><6E6QZ`@Ff$}TK74wv7+
zO<WYg3L!^Fyyr4vsmI%~kpYYTgXyu%<XE~enj4>v-|qyBEH2I#z4s_1lh}cj#?Wh2
zau|Yf9fj{+f^s>_V!-7k#h_X6NeK_Ro?)P{Jr{T6S{=Fbkv444z~_s><Jrs!b1*wL
zHXXmuCD)STEXZ{ngTaiPz|e3IcVqaoOU0!qH7K+jx+N9YpPI{3>6|5%&RJ6F-1$gM
z)=fo=({a-&N>da}2BDIZ_)CM82+Q_OHKS~|t86p2Ggiu)@)5iVK3cBRKNUlrHLg0b
zVjOiQvGFUf#=aRjTduKwss%OHyK1x)=Ty~j@>+yVlvt*@?aZmM^mw|E%bzt5WzQ6*
z<F`AZA~zM=<u*Bk-FNK!an=7h2yzxWKLl~kz#h1GW%WKgyJTLiXd9MiZqMalsN0;l
z#`VRR+zzGXT&BtuaSIE~EUbAL?_&nBCz~D~9lzVeT)`!1v>lq=1A%D!qY(6N2&m@>
z$^_srEB2n#a5TjhNTvhf`N%v>GHl?8eQxj$4{#m-e87vTFFnUGJi(K8aKu12_<Rp=
z9S42D_0S-qz&F{!5er=bA-cc=obgciSc_dP=OeS^CUm6i9X~Y*Q<!viS!5yFvlp5@
z1zTjNSKPmdb$_eV_;KJG-M<|JB*dkm(eV@6;gbJ<&?U@L#HAtC(I?R9!;T0LEn8zb
z7Fp4UOWe&++#I<X^2;6B$wEGj@Zt*0#*GNfcL10z&BLY`SoDlW#Z!DNvD$kHUsOs4
z50jb_xMR{Ot07={2P{3W0tBH-+Ba}pnXI;AlO!PS$Q82F@ncSm$Sn8^F$xe$&^{~j
za-rG^X<THk1X`W5LYmH5Ax-DbM`p`b!J^jw$%5+f(=Miq0KH%7pt{fPA)gV_(dQ&o
zB+)rb5}mUo(K!ap_fIuJcdMKtG&P|k4xr8X^2DDiqp5DAsU8|Fj6qu)owcHE=$=Ec
zjsiN4`l_~egAm&lM6N&!aIHN=uTv0IxbA&!`*p1^Q14b8(XF*|G_el31r_9QIzP^k
zrNe8=DQILiBK2W#$iuI!sO1$_`4U$e{&f6K`Lu13<YBa~1Am7Aa!j@MAVfZ^?)IVW
z42F}iy9Bg2D)%T0@-DGe?oxY@ACLtypWiRxgL}s(3i-*CSe==806TPcF)U#_r;TiO
zXHT9goHg^g(>)Ks3$JhpBTJn{h9^&rjb_q?>~PPc@ul*pO@8eH`b*3gun+tTwr50o
z2rgmZ?|CDRB$D~QA#clwu?x?*9FEUEdv8UsxHUVG$&a4mAO_^!x%}yLe%L$+riE<Y
z96X*LAJ2|06gfCLoOP4YONT~JX01|-P=9PPmj_~YJX0o5EEd_9OP|QDoiKNg<xZP}
zXA8NLS-|7_yY~aLdpvvEOlLkeIXW>)(aa2_>Ve(vJ~-IF2iJqV!s*F>0mwre`}g#j
zyN43`lGG3P?z;_v8g+0+4NNjoP!;2eOZB@4H*DBgx+Y53B$j~>LP9fFI1U|*Q09y!
zGs}SY0Irl_pu~JYGgp^n|3DGjqvEn1`vssQ`8lqaaovgURqgDH_+lgwN(U6g0ERxf
zfS$Zyd$Q|44Y>%~MH`Jh{}5;o*=Pjfz7_q8fOf|(0%k|heWe3>kZ!!)zl)dfT<~Kw
zjKJ30)O`oekPwo;{nu~(>%L<LQb!e~SDn|X^T%;E5UwlCS0e_AEHm!MljmdP1w)We
zsM4QQ=QSujqK-FH+-z*!cb8Fqoa(XNf1cZsfk^x1?*^!aq&ogBWnJ^9FJZuUsUiky
zIFIeh=}7x9q=?Ho)fd?3+}y_4t@6Z|zDhnqd6!i3QM|lH7F6;vNb{{lm3$L|+pTkT
zUNB_gK^@~~8A$O6zv%IP89Pm;j2()`j71ZpP0^@%JMA6SpV-&NilTD{a;&R!5#(4)
z=c34wv(CkkgN2rIO~|p2_>A@2ID{?b4CE-QeilKFD%H6ta$J7axfpT?7^Peja<n);
zqZDn3rB;rZ{Jf!`5fh$Q$`O-#($9#=tw%aXO!~_!z}x~syAhoa$quYW{~f3zJJngA
z9)t%x=;-|jwz{`Tv{^OPK%;OMyF0!_?zR<!@p9@Oy|q4np$_ldBytMT`Mu*WY^3EU
z))f=j-&22~j<4Nc=xem`(1)}S(W9u3HvF1O`xnOpZ5X3iIr=4|wJu4&WZc#{`X%2=
zI%oO%EAY<G!7sNfzbttsgGYUyNdY)uVGuQpYxGRE?JD+Y&B7MD&@<;itx)c}{3fH0
z-yP57n<@0nif2+EmA5b_$Q93w;(c22OpZV*o*9MfR6LXOb^R9h^h|bMeV!QyOL}G;
zf00NH&s4DC>GwbbzsBrVkG`D3FwDOGz++c`x&L_kmp>Dib!(q`l@rrHL*lrM&vzox
zzxN<<d~^tjZ;HE+I0id|#8KNPk@(Jd7>P#m1}bsakB$x1_Z(U78_nc%6S<LsdE1#x
zc1+vg<$LFLz50T&6VIm}`=f71y8hju7lcQsflvdX20{&l8VEHIY9Q1=sDV%ep$0+?
zgc=An5Uhcq`G4f)mtMZK{)YDRk6`}a_sg$w{?Ca&zvpoNe*lSJUhYKV_uye9e%%>E
z;vBw!#CiX{NL&f#Isn%L9zx>!!1s~7)&umMzFlFVi0^edn6NCdY@fyP1>BLhe<sKO
z4RbxSeIJ)O0Hi=%oM1x^=kg~ej%Txl3B@N|Yk*F|Bh)~sflvdX20{&l8VEHIY9Q1=
zsDV%ep$6WQ8sI#hQ(n$(`8}RH>9`$>-}w1WpL2cg(d2ZP^K8!Fx%ZOue$Mf^W0T+f
zInU=#Fz)~2T%YR!oQHG1&42&Ee|NzD2*dw?!v7b)0#_4hB~m9+7t$)E)ku847T0d1
z9;9BRbx3_k{YZTN4ic~7acvs-5Pp@wA6l6Br5XRV1AkrC$gx<O)NWWxK|3<zJd0db
zXW6YU&NKVXq8tYIJbp!ZOv!P=BG-Mze}FIZrwsL0yodi*4@Z+6RKL;S&j;Cd{>W-X
z$wW%!_m;YJ^|>4T=|l9NdiisCNjVQL*!vA`{C($1{9=SX(3m`1ev9_6vGM;6F}|&h

literal 0
HcmV?d00001