Pytorch在二进制层面比较张量中的各行是否相同,并返回不相同的各行
代码实例:
def unique(arr):
# Finds unique rows in arr and return their indices
arr = arr.cpu().numpy()
arr_ = np.ascontiguousarray(arr).view(np.dtype((np.void, arr.dtype.itemsize * arr.shape[1])))
_, idxs = np.unique(arr_, return_index=True)
if torch.cuda.is_available():
return torch.LongTensor(np.sort(idxs)).cuda()
return torch.LongTensor(np.sort(idxs))
在 NumPy 中,.view()
方法用于创建数组的新视图,而不实际复制底层数据。在这种情况下,.view(np.dtype((np.void, arr.dtype.itemsize * arr.shape[1])))
的目的是将数组 arr
转换为一个以字节为单位的视图,以便后续的操作更加灵活。
具体来说,这一行代码的操作步骤如下:
np.ascontiguousarray(arr)
: 确保数组是按照内存中的顺序(C 风格)连续存储的,这对于后续的视图操作很重要。.view(np.dtype((np.void, arr.dtype.itemsize * arr.shape[1])))
: 创建一个新的视图,该视图将数组的每一行都视为一个字节块。np.dtype((np.void, arr.dtype.itemsize * arr.shape[1]))
定义了这个字节块的数据类型,其中arr.dtype.itemsize * arr.shape[1]
表示每一行的总字节数。这样,整个数组被视为一个由字节块组成的虚拟类型数组。-
np.void
是 NumPy 中的数据类型,表示“虚拟”类型。它通常用于表示内存块,而不考虑具体的数据类型。在这里,np.void
被用于创建一个足够大的数据类型,以便能够容纳整个行数据。在特定的上下文中,
np.void
类型的一个实例可能包含多个数据类型的字段,但在这里它主要用于以字节的形式表示整个行的内容,而不考虑具体的数值类型。这使得在内存中视图上进行操作更加灵活,而不依赖于原始数据类型
这种方式的操作在某些情况下很有用,尤其是在处理复杂的数据结构或需要比较原始二进制数据时。在这里,可能是为了实现对行的快速唯一性检查,因为 .unique()
方法在处理复杂数据类型时可能会遇到一些问题。