phac-nml · jrober84 · Jan 31, 2025 · Feb 17, 2025 · Feb 17, 2025 · Feb 18, 2025
diff --git a/genomic_address_service/classes/assign.py b/genomic_address_service/classes/assign.py
@@ -28,7 +28,6 @@ def __init__(self,dist_file,membership_file,threshold_map,linkage_method,address
         self.assignments = {}
         self.nomenclature_cluster_tracker = {}
         self.query_ids = set()
-
         if not linkage_method in self.avail_methods:
             self.status = False
             self.error_msgs.append(f'Provided {linkage_method} is not one of the accepted {self.avail_methods}')
@@ -182,14 +181,12 @@ def assign(self, n_records=1000,delim="\t"):
                 query_addr = [None] * num_ranks
                 if qid in self.memberships_dict:
                     continue
-
                 for rid in dists[qid]:
                     if rid == qid or rid not in self.memberships_dict:
                         continue
                     pairwise_dist = dists[qid][rid]
                     thresh_idx = self.get_threshold_idx(pairwise_dist)
                     thresh_value = self.thresholds[thresh_idx]
-
                     #save unnecessary work
                     if thresh_value >= pairwise_dist:
                         ref_address = self.memberships_dict[rid].split('.')[0:thresh_idx+1]
@@ -201,27 +198,26 @@ def assign(self, n_records=1000,delim="\t"):
                             addr_members = self.memberships_lookup[addr]
                             addr_dists = []
                             for id in addr_members:
-                                addr_dists.append(dists[qid][id])
+                                if id in dists[qid]:
+                                    addr_dists.append(dists[qid][id])
                             if len(addr_dists) == 0:
                                 continue
                             summary = self.get_dist_summary(addr_dists)
-
                             is_eligible = True
                             if self.linkage_method == 'complete' and summary['max'] > thresh_value:
                                 is_eligible = False
                             elif self.linkage_method == 'average' and summary['mean'] > thresh_value:
                                 is_eligible = False
-
                             if is_eligible:
                                 for idx,value in enumerate(addr.split('.')):
                                     query_addr[idx] = value
                                 break
+                            thresh_value = self.thresholds[thresh_idx-1]
 
                     for idx,value in enumerate(query_addr):
                         if value is None:
                             query_addr[idx] = self.nomenclature_cluster_tracker[rank_ids[idx]]
                             self.nomenclature_cluster_tracker[rank_ids[idx]]+=1
-
                     break
 
                 self.memberships_dict[qid] = ".".join([str(x) for x in query_addr])
diff --git a/genomic_address_service/classes/reader.py b/genomic_address_service/classes/reader.py
@@ -30,6 +30,8 @@ def guess_file_type(self,f):
         return file_type
 
     def guess_dist_type(self, fpath, ftype, delim="\t"):
+        header = []
+        num_rows = 0
         if ftype == 'text':
             header = get_file_header(fpath).split(delim)
             num_rows = get_file_length(fpath)
@@ -53,7 +55,9 @@ def read_pd(self):
                 continue
             qid = line[0]
             rid = line[1]
+
             d = float(line[2])
+            #print(f'{qid} {rid} {d}')
             if qid not in self.record_ids and len(self.dists) >= self.n_records:
                 self.sort_distances()
                 yield self.dists
@@ -62,15 +66,10 @@ def read_pd(self):
             if qid not in self.record_ids:
                 self.record_ids.add(qid)
                 self.dists[qid] = {}
-            if self.filter:
-                if self.min_dist is not None:
-                    if d < self.min_dist:
-                        continue
-                if self.max_dist is not None:
-                     if d > self.max_dist:
-                        continue
             self.dists[qid][rid] = d
         self.sort_distances()
+
+        yield self.dists
 
 
     def sort_distances(self):
@@ -95,13 +94,6 @@ def read_matrix(self):
             for i in range(0,len(values)):
                 rid = self.header[i]
                 d = values[i]
-                if self.filter:
-                    if self.min_dist is not None:
-                        if d < self.min_dist:
-                            continue
-                    if self.max_dist is not None:
-                        if d > self.max_dist:
-                            continue
                 self.dists[qid][rid] = d
         self.sort_distances()
 
@@ -115,6 +107,7 @@ def read_data(self):
             self.header = next(self.file_handle).split(self.delim)
         elif ftype == 'parquet':
             self.file_handle = ParquetFile(self.fpath)
+
         if ftype == 'text' and dist_type == 'pd':
             for chunk in self.read_pd():
                 if chunk is not None:
@@ -127,7 +120,8 @@ def read_data(self):
                     yield chunk
             if chunk is None:
                 chunk = self.dists
-        yield chunk
+
+        return chunk