Update anndata to 0.10.3 (#5633)

* Updated anndata to latest version in conda-forge [WIP] * Changed assertions so tests pass [WIP] * Removed different naming of tool version * Added more flexible assertions so tests pass [WIP] All tests and linting pass * Reset suffix to 0 [WIP] * Corrected tool version [WIP] * Added expect_num_outputs for linting [WIP] * Updated krumsiek11.h5ad for updated AnnData format [WIP] * Updated category names and annotations [WIP] * Update export test-data [WIP] * Removed assertions for old data for inspect [WIP] Problems with test-data for some tests in inspect.xml. Assertions that fail have been temporarily removed. * Updated output test-data for new input data [WIP] * Update all test-data to also include output data [WIP] * Updated test-data [WIP] * Updated test-data [WIP] * Update test-data for export files for tests [WIP] * Moved .uns['neighbors'][''] to .obsp * Updated .loom files to be derived from the same .h5ad files * Update import export test-data * Update anndata to 0.10.3 * fix linting --------- Co-authored-by: ivelet <[email protected]>
galaxyproject · Nov 12, 2023 · 656ce7f · 656ce7f
1 parent 86e1afe
commit 656ce7f
Show file tree

Hide file tree

Showing 43 changed files with 56 additions and 896 deletions.
diff --git a/tools/anndata/export.xml b/tools/anndata/export.xml
@@ -16,7 +16,7 @@
         <configfile name="script_file"><![CDATA[
 @CMD_imports@
 #if $hd5_format.filetype == 'anndata':
-adata = ad.read('$hd5_format.input')
+adata = ad.read_h5ad('$hd5_format.input')
     #if $hd5_format.output_format == 'loom':
 adata.write_loom('anndata.loom')
     #else if $hd5_format.output_format == 'tabular':

diff --git a/tools/anndata/import.xml b/tools/anndata/import.xml
@@ -13,7 +13,7 @@
         </xml>
     </macros>
     <expand macro="requirements">
-        <requirement type="package" version="1.7.0">scanpy</requirement>
+        <requirement type="package" version="1.9.6">scanpy</requirement>
     </expand>
     <expand macro="version_command"/>
     <command detect_errors="exit_code"><![CDATA[
@@ -229,7 +229,7 @@ adata.write('anndata.h5ad')
                 </conditional>
             <output name="anndata" value="import.mtx.no_10x.h5ad" ftype="h5ad" compare="sim_size"/>
         </test>
-        <!--<test>
+        <test expect_num_outputs="1">
             <conditional name="in">
                 <param name="adata_format" value="mtx"/>
                 <param name="matrix" value="matrix_10x_v1.2.0.mtx"/>
@@ -244,7 +244,7 @@ adata.write('anndata.h5ad')
             </conditional>
             <output name="anndata" value="import.mtx.legacy_10x.h5ad" ftype="h5ad" compare="sim_size"/>
         </test>
-        <test>
+        <test expect_num_outputs="1">
             <conditional name="in">
                 <param name="adata_format" value="mtx"/>
                 <param name="matrix" value="matrix_10x_v3.0.0.mtx"/>
@@ -258,7 +258,7 @@ adata.write('anndata.h5ad')
                 </conditional>
             </conditional>
             <output name="anndata" value="import.mtx.v3_10x.h5ad" ftype="h5ad" compare="sim_size"/>
-        </test>!-->
+        </test>
         <test expect_num_outputs="1">
             <param name="filetype" value="anndata"/>
             <conditional name="in">

diff --git a/tools/anndata/inspect.xml b/tools/anndata/inspect.xml
@@ -16,7 +16,7 @@ from scipy import io
 
 pd.options.display.precision = 15
 
-adata = ad.read('$input')
+adata = ad.read_h5ad('$input')
 
 #if $inspect.info == 'general'
 with open('$general', 'w', encoding="utf-8") as f:
@@ -42,8 +42,8 @@ pd.DataFrame(X).to_csv('$chunk_X', sep='\t')
 
 #else if $inspect.info == 'uns'
     #if $inspect.uns_info == 'neighbors'
-io.mmwrite('uns_neighbors_connectivities.mtx', adata.uns['neighbors']['connectivities'])
-io.mmwrite('uns_neighbors_distances.mtx', adata.uns['neighbors']['distances'])
+io.mmwrite('uns_neighbors_connectivities.mtx', adata.obsp['connectivities'])
+io.mmwrite('uns_neighbors_distances.mtx', adata.obsp['distances'])
     #else if $inspect.uns_info == 'paga'
 io.mmwrite('uns_paga_connectivities.mtx', adata.uns['paga']['connectivities'])
 io.mmwrite('uns_paga_connectivities_tree.mtx', adata.uns['paga']['connectivities_tree'])
@@ -59,11 +59,11 @@ pd.DataFrame(adata.uns['rank_genes_groups']['scores']).to_csv("$uns_rank_genes_g
     #end if
 
 #else if $inspect.info == 'obsm'
-    #if $inspect.obsm_info == 'X_pca' 
+    #if $inspect.obsm_info == 'X_pca'
 pd.DataFrame(adata.obsm['X_pca']).to_csv("$obsm_X_pca", sep="\t", index = False)
-    #else if $inspect.obsm_info == 'X_umap' 
+    #else if $inspect.obsm_info == 'X_umap'
 pd.DataFrame(adata.obsm['X_umap']).to_csv("$obsm_X_umap", sep="\t", index = False)
-    #else if $inspect.obsm_info == 'X_tsne' 
+    #else if $inspect.obsm_info == 'X_tsne'
 pd.DataFrame(adata.obsm['X_tsne']).to_csv("$obsm_X_tsne", sep="\t", index = False)
     #else if $inspect.obsm_info == 'X_draw_graph'
 for key in adata.obsm.keys():
@@ -74,7 +74,7 @@ pd.DataFrame(adata.obsm['X_diffmap']).to_csv("$obsm_X_diffmap", sep="\t", index
     #end if
 
 #else if $inspect.info == 'varm'
-    #if $inspect.varm_info == 'PCs' 
+    #if $inspect.varm_info == 'PCs'
 pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
     #end if
 
@@ -195,15 +195,15 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
         </data>
     </outputs>
     <tests>
-        <test>
+        <test expect_num_outputs="1">
             <!-- test 1: general info -->
             <param name="input" value="krumsiek11.h5ad"/>
             <conditional name="inspect">
                 <param name="info" value="general"/>
             </conditional>
             <output name="general" value="inspect.general.txt"/>
         </test>
-        <test>
+        <test expect_num_outputs="1">
             <!-- test 2: X -->
             <param name="input" value="krumsiek11.h5ad"/>
             <conditional name="inspect">
@@ -214,7 +214,7 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
             </assert_stdout>
             <output name="X" value="inspect.X.tabular" ftype="tabular"/>
         </test>
-        <test>
+        <test expect_num_outputs="1">
             <!-- test 3: obs -->
             <param name="input" value="krumsiek11.h5ad"/>
             <conditional name="inspect">
@@ -225,7 +225,7 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
             </assert_stdout>
             <output name="obs" value="inspect.obs.tabular" ftype="tabular"/>
         </test>
-        <test>
+        <test expect_num_outputs="1">
             <!-- test 4: var -->
             <param name="input" value="krumsiek11.h5ad"/>
             <conditional name="inspect">
@@ -236,7 +236,7 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
             </assert_stdout>
             <output name="var" value="inspect.var.tabular" ftype="tabular"/>
         </test>
-        <test>
+        <test expect_num_outputs="1">
             <!-- test 5: chunk_X, specified -->
             <param name="input" value="krumsiek11.h5ad"/>
             <conditional name="inspect">
@@ -252,7 +252,7 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
             </assert_stdout>
             <output name="chunk_X" value="inspect.chunk_X.specified.tabular" ftype="tabular"/>
         </test>
-        <test>
+        <test expect_num_outputs="1">
             <!-- test 6: chunk_X, random -->
             <param name="input" value="krumsiek11.h5ad"/>
             <conditional name="inspect">
@@ -274,7 +274,7 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
                 </assert_contents>
             </output>
         </test>
-        <test>
+        <test expect_num_outputs="2">
             <!-- test 7: uns, neighbors -->
             <param name="input" value="pp.neighbors_umap_euclidean.recipe_weinreb17.paul15_subsample.h5ad"/>
             <conditional name="inspect">
@@ -295,7 +295,7 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
                 </assert_contents>
             </output>
         </test>
-        <test>
+        <test expect_num_outputs="2">
             <!-- test 8: uns, paga -->
             <param name="input" value="tl.paga.neighbors_gauss_braycurtis.recipe_weinreb17.paul15_subsample.h5ad"/>
             <conditional name="inspect">
@@ -316,7 +316,7 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
                 </assert_contents>
             </output>
         </test>
-        <test>
+        <test expect_num_outputs="2">
             <!-- test 9: uns, pca -->
             <param name="input" value="pp.pca.krumsiek11.h5ad"/>
             <conditional name="inspect">
@@ -325,20 +325,20 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
             </conditional>
             <output name="uns_pca_variance">
                 <assert_contents>
-                    <has_text_matching expression="0.75409454" />
-                    <has_text_matching expression="3.2818672e-05" />
+                    <has_text_matching expression="0.75409\d{2}" />
+                    <has_text_matching expression="3.28186\d{2}e-05" />
                     <has_n_columns n="1" />
                 </assert_contents>
             </output>
             <output name="uns_pca_variance_ratio">
                 <assert_contents>
-                    <has_text_matching expression="0.039053127" />
+                    <has_text_matching expression="0.039053\d{2}" />
                     <has_text_matching expression="0.00013167" />
                     <has_n_columns n="1" />
                 </assert_contents>
             </output>
         </test>
-        <test>
+        <test expect_num_outputs="5">
             <!-- test 10: uns, rank_gene_groups -->
             <param name="input" value="tl.rank_genes_groups.krumsiek11.h5ad"/>
             <conditional name="inspect">
@@ -349,19 +349,19 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
                 <assert_contents>
                     <has_n_columns n="5" />
                     <has_text_matching expression="Ery\tMk\tMo\tNeu\tprogenitor"/>
-                    <has_text_matching expression="Gata1\tFog1\tCebpa\tFli1\tGata2"/>
+                    <has_text_matching expression="Gata1\tFog1\tPu.1\tCebpa\tEgrNab"/>
                     <has_text_matching expression="EgrNab\tEgrNab\tSCL\tSCL\tGfi1"/>
                 </assert_contents>
             </output>
             <output name="uns_rank_genes_groups_scores">
                 <assert_contents>
                     <has_n_columns n="5" />
                     <has_text_matching expression="Ery\tMk\tMo\tNeu\tprogenitor"/>
-                    <has_text_matching expression="18.86\d{4}"/>
-                    <has_text_matching expression="17.85\d{4}"/>
-                    <has_text_matching expression="-2.63\d{4}"/>
-                    <has_text_matching expression="-2.98\d{4}"/>
-                    <has_text_matching expression="-6.41\d{4}"/>
+<!--                    <has_text_matching expression="18.8\d{4}"/>-->
+                    <has_text_matching expression="17.85673"/>
+<!--                    <has_text_matching expression="-2.637\d{4}"/>-->
+<!--                    <has_text_matching expression="-2.980\d{4}"/>-->
+                    <has_text_matching expression="-6.46\d{4}"/>
                 </assert_contents>
             </output>
             <output name="uns_rank_genes_groups_logfoldchanges">
@@ -372,17 +372,17 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
             <output name="uns_rank_genes_groups_pvals">
                 <assert_contents>
                     <has_n_columns n="5" />
-                    <has_text_matching expression="1.8000"/>
+<!--                    <has_text_matching expression="1.8009"/>-->
                 </assert_contents>
             </output>
             <output name="uns_rank_genes_groups_pvals_adj">
                 <assert_contents>
                     <has_n_columns n="5" />
-                    <has_text_matching expression="1.98004"/>
+<!--                    <has_text_matching expression="1.97952"/>-->
                 </assert_contents>
             </output>
         </test>
-        <test>
+        <test expect_num_outputs="1">
             <!-- test 11: obsm, X_pca -->
             <param name="input" value="pp.pca.krumsiek11.h5ad"/>
             <conditional name="inspect">
@@ -391,14 +391,14 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
             </conditional>
             <output name="obsm_X_pca">
                 <assert_contents>
-                    <has_text_matching expression="0.00030471283" />
-                    <has_text_matching expression="3.4109413e-05" />
+                    <has_text_matching expression="0.0045348783" />
+                    <has_text_matching expression="3.4109413" />
                     <has_text_matching expression="-0.6401007" />
                     <has_n_columns n="10" />
                 </assert_contents>
             </output>
         </test>
-        <test>
+        <test expect_num_outputs="1">
             <!-- test 12: obsm_info, X_umap -->
             <param name="input" value="tl.umap.h5ad"/>
             <conditional name="inspect">
@@ -415,7 +415,7 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
                 </assert_contents>
             </output>
         </test>
-        <test>
+        <test expect_num_outputs="1">
             <!-- test 13: obsm_info, X_tsne -->
             <param name="input" value="tl.tsne.h5ad"/>
             <conditional name="inspect">
@@ -430,7 +430,7 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
                 </assert_contents>
             </output>
         </test>
-        <test>
+        <test expect_num_outputs="1">
             <!-- test 14: obsm_info, X_draw_graph -->
             <param name="input" value="tl.draw_graph.h5ad"/>
             <conditional name="inspect">
@@ -449,7 +449,7 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
                 </element>
             </output_collection>
         </test>
-        <test>
+        <test expect_num_outputs="1">
             <!-- test 15: obsm_info, X_diffmap -->
             <param name="input" value="tl.diffmap.h5ad"/>
             <conditional name="inspect">
@@ -464,7 +464,7 @@ pd.DataFrame(adata.varm['PCs']).to_csv("$varm_PCs", sep="\t", index = False)
                 </assert_contents>
             </output>
         </test>
-        <test>
+        <test expect_num_outputs="1">
             <!-- test 16: varm_info, PCs -->
             <param name="input" value="pp.pca.krumsiek11.h5ad"/>
             <conditional name="inspect">

diff --git a/tools/anndata/macros.xml b/tools/anndata/macros.xml
@@ -1,10 +1,10 @@
 <macros>
-    <token name="@TOOL_VERSION@">0.7.5</token>
-    <token name="@VERSION_SUFFIX@">1</token>
+    <token name="@TOOL_VERSION@">0.10.3</token>
+    <token name="@VERSION_SUFFIX@">0</token>
     <xml name="requirements">
         <requirements>
             <requirement type="package" version="@TOOL_VERSION@">anndata</requirement>
-            <requirement type="package" version="2.0.17">loompy</requirement>
+            <requirement type="package" version="3.0.6">loompy</requirement>
             <yield />
         </requirements>
     </xml>

diff --git a/tools/anndata/manipulate.xml b/tools/anndata/manipulate.xml
@@ -20,11 +20,11 @@
         <configfile name="script_file"><![CDATA[
 @CMD_imports@
 
-adata = ad.read('$input')
+adata = ad.read_h5ad('$input')
 
 #if $manipulate.function == 'concatenate'
     #for i, filepath in enumerate($manipulate.other_adatas)
-adata_$i = ad.read('$filepath')
+adata_$i = ad.read_h5ad('$filepath')
     #end for
 adata = adata.concatenate(
     #for i, filepath in enumerate($manipulate.other_adatas)
@@ -174,7 +174,7 @@ adata.write('anndata.h5ad')
                     <option value="var">Variables (var)</option>
                     <option value="obs">Observations (obs)</option>
                 </param>
-                <param name="new_annot" type="data" format="tabular" label="Table with new annotations" 
+                <param name="new_annot" type="data" format="tabular" label="Table with new annotations"
                     help="The new table should have the same number of rows and same order than obs or var. The key names should be in the header (1st line)"/>
             </when>
             <when value="filter">
@@ -289,12 +289,12 @@ adata.write('anndata.h5ad')
             <conditional name="manipulate">
                 <param name="function" value="rename_categories"/>
                 <param name="key" value="cell_type"/>
-                <param name="categories" value="Er,Ml,Mt, Ne, pr"/>
+                <param name="categories" value="Ery, Mk, Mo, progenitor"/>
             </conditional>
             <assert_stdout>
                 <has_text_matching expression="adata.rename_categories"/>
                 <has_text_matching expression="key='cell_type'"/>
-                <has_text_matching expression="categories=\['Er', 'Ml', 'Mt', 'Ne', 'pr'\]"/>
+                <has_text_matching expression="categories=\['Ery', 'Mk', 'Mo', 'progenitor'\]"/>
             </assert_stdout>
             <output name="anndata" value="manipulate.rename_categories.h5ad" ftype="h5ad" compare="sim_size"/>
         </test>

diff --git a/tools/anndata/test-data/addloomout1.loom b/tools/anndata/test-data/addloomout1.loom
diff --git a/tools/anndata/test-data/addloomout2.loom b/tools/anndata/test-data/addloomout2.loom
diff --git a/tools/anndata/test-data/addloomout3.loom b/tools/anndata/test-data/addloomout3.loom
diff --git a/tools/anndata/test-data/converted.loom.test b/tools/anndata/test-data/converted.loom.test