records/120424_ValueEmbed/d884d4cb-0656-460d-9454-897eb9789f2a.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 04:12:53 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   38C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   30C    P0             101W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0             117W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   38C    P0             118W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   39C    P0             123W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   29C    P0             110W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   39C    P0             128W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   30C    P0             118W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31559ms step_avg:nanms
step:2/1530 train_loss:10.0763 train_time:31669ms step_avg:nanms
step:3/1530 train_loss:8.3680 train_time:31828ms step_avg:nanms
step:4/1530 train_loss:7.5816 train_time:31989ms step_avg:nanms
step:5/1530 train_loss:7.4791 train_time:32148ms step_avg:nanms
step:6/1530 train_loss:6.9782 train_time:32309ms step_avg:nanms
step:7/1530 train_loss:7.1956 train_time:32468ms step_avg:nanms
step:8/1530 train_loss:6.7256 train_time:32628ms step_avg:nanms
step:9/1530 train_loss:6.6172 train_time:32789ms step_avg:nanms
step:10/1530 train_loss:6.5017 train_time:32949ms step_avg:nanms
step:11/1530 train_loss:6.4595 train_time:115ms step_avg:nanms
step:12/1530 train_loss:6.3673 train_time:274ms step_avg:nanms
step:13/1530 train_loss:6.2577 train_time:434ms step_avg:144.80ms
step:14/1530 train_loss:6.1845 train_time:595ms step_avg:148.70ms
step:15/1530 train_loss:6.1611 train_time:755ms step_avg:150.92ms
step:16/1530 train_loss:6.0937 train_time:917ms step_avg:152.83ms
step:17/1530 train_loss:6.1658 train_time:1077ms step_avg:153.83ms
step:18/1530 train_loss:5.9578 train_time:1237ms step_avg:154.56ms
step:19/1530 train_loss:6.0150 train_time:1396ms step_avg:155.11ms
step:20/1530 train_loss:5.6618 train_time:1556ms step_avg:155.62ms
step:21/1530 train_loss:5.9472 train_time:1717ms step_avg:156.13ms
step:22/1530 train_loss:6.1708 train_time:1877ms step_avg:156.38ms
step:23/1530 train_loss:5.8526 train_time:2037ms step_avg:156.71ms
step:24/1530 train_loss:6.0101 train_time:2197ms step_avg:156.96ms
step:25/1530 train_loss:5.6987 train_time:2358ms step_avg:157.18ms
step:26/1530 train_loss:5.5995 train_time:2517ms step_avg:157.31ms
step:27/1530 train_loss:5.8092 train_time:2677ms step_avg:157.49ms
step:28/1530 train_loss:5.3965 train_time:2837ms step_avg:157.63ms
step:29/1530 train_loss:5.6752 train_time:2997ms step_avg:157.75ms
step:30/1530 train_loss:5.4752 train_time:3159ms step_avg:157.93ms
step:31/1530 train_loss:5.4391 train_time:3320ms step_avg:158.11ms
step:32/1530 train_loss:5.2722 train_time:3481ms step_avg:158.23ms
step:33/1530 train_loss:5.5787 train_time:3641ms step_avg:158.29ms
step:34/1530 train_loss:5.4943 train_time:3802ms step_avg:158.40ms
step:35/1530 train_loss:5.6097 train_time:3962ms step_avg:158.48ms
step:36/1530 train_loss:5.5360 train_time:4123ms step_avg:158.60ms
step:37/1530 train_loss:5.4551 train_time:4286ms step_avg:158.72ms
step:38/1530 train_loss:5.3036 train_time:4446ms step_avg:158.78ms
step:39/1530 train_loss:5.3333 train_time:4608ms step_avg:158.88ms
step:40/1530 train_loss:5.2500 train_time:4767ms step_avg:158.91ms
step:41/1530 train_loss:5.2374 train_time:4928ms step_avg:158.98ms
step:42/1530 train_loss:5.1605 train_time:5089ms step_avg:159.04ms
step:43/1530 train_loss:5.2746 train_time:5249ms step_avg:159.07ms
step:44/1530 train_loss:5.2420 train_time:5410ms step_avg:159.11ms
step:45/1530 train_loss:5.3912 train_time:5569ms step_avg:159.13ms
step:46/1530 train_loss:5.1785 train_time:5730ms step_avg:159.17ms
step:47/1530 train_loss:5.0639 train_time:5890ms step_avg:159.20ms
step:48/1530 train_loss:5.1992 train_time:6051ms step_avg:159.23ms
step:49/1530 train_loss:5.1539 train_time:6211ms step_avg:159.25ms
step:50/1530 train_loss:5.2564 train_time:6370ms step_avg:159.25ms
step:51/1530 train_loss:5.1342 train_time:6530ms step_avg:159.28ms
step:52/1530 train_loss:5.0162 train_time:6691ms step_avg:159.31ms
step:53/1530 train_loss:5.1589 train_time:6851ms step_avg:159.32ms
step:54/1530 train_loss:5.0096 train_time:7011ms step_avg:159.35ms
step:55/1530 train_loss:5.4062 train_time:7171ms step_avg:159.35ms
step:56/1530 train_loss:5.0190 train_time:7331ms step_avg:159.37ms
step:57/1530 train_loss:4.9017 train_time:7491ms step_avg:159.38ms
step:58/1530 train_loss:5.0692 train_time:7651ms step_avg:159.39ms
step:59/1530 train_loss:5.0241 train_time:7811ms step_avg:159.41ms
step:60/1530 train_loss:5.1384 train_time:7970ms step_avg:159.40ms
step:61/1530 train_loss:4.8648 train_time:8131ms step_avg:159.43ms
step:62/1530 train_loss:4.9872 train_time:8291ms step_avg:159.44ms
step:63/1530 train_loss:4.9709 train_time:8451ms step_avg:159.46ms
step:64/1530 train_loss:4.9338 train_time:8613ms step_avg:159.50ms
step:65/1530 train_loss:4.8116 train_time:8773ms step_avg:159.50ms
step:66/1530 train_loss:4.9093 train_time:8933ms step_avg:159.52ms
step:67/1530 train_loss:4.8088 train_time:9094ms step_avg:159.55ms
step:68/1530 train_loss:5.0728 train_time:9254ms step_avg:159.55ms
step:69/1530 train_loss:4.7192 train_time:9415ms step_avg:159.57ms
step:70/1530 train_loss:4.8367 train_time:9575ms step_avg:159.58ms
step:71/1530 train_loss:4.9835 train_time:9736ms step_avg:159.60ms
step:72/1530 train_loss:4.8734 train_time:9895ms step_avg:159.60ms
step:73/1530 train_loss:4.7444 train_time:10056ms step_avg:159.62ms
step:74/1530 train_loss:4.9037 train_time:10216ms step_avg:159.63ms
step:75/1530 train_loss:4.8644 train_time:10376ms step_avg:159.63ms
step:76/1530 train_loss:4.8012 train_time:10537ms step_avg:159.65ms
step:77/1530 train_loss:4.9040 train_time:10697ms step_avg:159.65ms
step:78/1530 train_loss:5.1193 train_time:10856ms step_avg:159.65ms
step:79/1530 train_loss:4.8492 train_time:11016ms step_avg:159.66ms
step:80/1530 train_loss:4.8424 train_time:11176ms step_avg:159.66ms
step:81/1530 train_loss:4.6423 train_time:11336ms step_avg:159.66ms
step:82/1530 train_loss:4.8239 train_time:11496ms step_avg:159.67ms
step:83/1530 train_loss:4.7738 train_time:11656ms step_avg:159.67ms
step:84/1530 train_loss:4.7534 train_time:11817ms step_avg:159.69ms
step:85/1530 train_loss:4.6197 train_time:11976ms step_avg:159.68ms
step:86/1530 train_loss:4.8366 train_time:12137ms step_avg:159.70ms
step:87/1530 train_loss:4.7562 train_time:12297ms step_avg:159.71ms
step:88/1530 train_loss:4.7532 train_time:12458ms step_avg:159.71ms
step:89/1530 train_loss:4.7051 train_time:12619ms step_avg:159.73ms
step:90/1530 train_loss:4.6401 train_time:12779ms step_avg:159.74ms
step:91/1530 train_loss:4.6256 train_time:12939ms step_avg:159.75ms
step:92/1530 train_loss:4.7843 train_time:13100ms step_avg:159.76ms
step:93/1530 train_loss:4.6151 train_time:13260ms step_avg:159.76ms
step:94/1530 train_loss:4.6503 train_time:13422ms step_avg:159.78ms
step:95/1530 train_loss:4.6800 train_time:13581ms step_avg:159.78ms
step:96/1530 train_loss:4.5800 train_time:13742ms step_avg:159.78ms
step:97/1530 train_loss:4.6596 train_time:13902ms step_avg:159.80ms
step:98/1530 train_loss:4.5932 train_time:14062ms step_avg:159.80ms
step:99/1530 train_loss:4.6783 train_time:14225ms step_avg:159.83ms
step:100/1530 train_loss:4.6851 train_time:14386ms step_avg:159.84ms
step:101/1530 train_loss:4.5508 train_time:14545ms step_avg:159.84ms
step:102/1530 train_loss:4.6998 train_time:14705ms step_avg:159.84ms
step:103/1530 train_loss:4.5870 train_time:14866ms step_avg:159.85ms
step:104/1530 train_loss:4.5484 train_time:15028ms step_avg:159.87ms
step:105/1530 train_loss:4.5560 train_time:15188ms step_avg:159.87ms
step:106/1530 train_loss:4.6137 train_time:15349ms step_avg:159.89ms
step:107/1530 train_loss:4.5128 train_time:15509ms step_avg:159.89ms
step:108/1530 train_loss:4.3607 train_time:15669ms step_avg:159.89ms
step:109/1530 train_loss:4.4822 train_time:15830ms step_avg:159.90ms
step:110/1530 train_loss:4.4909 train_time:15991ms step_avg:159.91ms
step:111/1530 train_loss:4.4164 train_time:16151ms step_avg:159.91ms
step:112/1530 train_loss:4.5912 train_time:16311ms step_avg:159.91ms
step:113/1530 train_loss:4.4898 train_time:16471ms step_avg:159.91ms
step:114/1530 train_loss:4.3689 train_time:16633ms step_avg:159.93ms
step:115/1530 train_loss:4.4953 train_time:16795ms step_avg:159.95ms
step:116/1530 train_loss:4.4629 train_time:16958ms step_avg:159.98ms
step:117/1530 train_loss:4.3511 train_time:17122ms step_avg:160.02ms
step:118/1530 train_loss:4.5818 train_time:17286ms step_avg:160.05ms
step:119/1530 train_loss:4.4484 train_time:17450ms step_avg:160.09ms
step:120/1530 train_loss:4.3384 train_time:17614ms step_avg:160.12ms
step:121/1530 train_loss:4.3037 train_time:17776ms step_avg:160.15ms
step:122/1530 train_loss:4.4376 train_time:17940ms step_avg:160.18ms
step:123/1530 train_loss:4.2723 train_time:18104ms step_avg:160.21ms
step:124/1530 train_loss:4.5812 train_time:18269ms step_avg:160.26ms
step:125/1530 train_loss:4.4368 train_time:18434ms step_avg:160.30ms
step:125/1530 val_loss:4.3944 train_time:18481ms step_avg:160.71ms
step:126/1530 train_loss:4.4155 train_time:18599ms step_avg:160.34ms
step:127/1530 train_loss:4.4301 train_time:18765ms step_avg:160.39ms
step:128/1530 train_loss:4.3638 train_time:18929ms step_avg:160.42ms
step:129/1530 train_loss:4.6645 train_time:19095ms step_avg:160.46ms
step:130/1530 train_loss:4.3416 train_time:19258ms step_avg:160.49ms
step:131/1530 train_loss:4.3947 train_time:19421ms step_avg:160.51ms
step:132/1530 train_loss:4.3478 train_time:19586ms step_avg:160.54ms
step:133/1530 train_loss:4.4431 train_time:19750ms step_avg:160.57ms
step:134/1530 train_loss:4.2541 train_time:19916ms step_avg:160.61ms
step:135/1530 train_loss:4.4285 train_time:20079ms step_avg:160.63ms
step:136/1530 train_loss:4.1984 train_time:20242ms step_avg:160.65ms
step:137/1530 train_loss:4.3577 train_time:20407ms step_avg:160.68ms
step:138/1530 train_loss:4.2676 train_time:20571ms step_avg:160.71ms
step:139/1530 train_loss:4.3694 train_time:20735ms step_avg:160.74ms
step:140/1530 train_loss:4.4616 train_time:20899ms step_avg:160.76ms
step:141/1530 train_loss:4.3103 train_time:21061ms step_avg:160.77ms
step:142/1530 train_loss:4.2969 train_time:21226ms step_avg:160.80ms
step:143/1530 train_loss:4.2482 train_time:21390ms step_avg:160.82ms
step:144/1530 train_loss:4.3438 train_time:21554ms step_avg:160.85ms
step:145/1530 train_loss:4.3142 train_time:21718ms step_avg:160.88ms
step:146/1530 train_loss:4.1642 train_time:21881ms step_avg:160.89ms
step:147/1530 train_loss:4.3134 train_time:22045ms step_avg:160.91ms
step:148/1530 train_loss:4.3604 train_time:22209ms step_avg:160.94ms
step:149/1530 train_loss:4.3067 train_time:22374ms step_avg:160.97ms
step:150/1530 train_loss:4.4391 train_time:22539ms step_avg:160.99ms
step:151/1530 train_loss:4.2572 train_time:22702ms step_avg:161.01ms
step:152/1530 train_loss:4.2624 train_time:22865ms step_avg:161.02ms
step:153/1530 train_loss:4.3563 train_time:23030ms step_avg:161.05ms
step:154/1530 train_loss:4.3536 train_time:23195ms step_avg:161.08ms
step:155/1530 train_loss:4.2607 train_time:23357ms step_avg:161.09ms
step:156/1530 train_loss:4.3485 train_time:23521ms step_avg:161.10ms
step:157/1530 train_loss:4.3985 train_time:23685ms step_avg:161.12ms
step:158/1530 train_loss:4.2248 train_time:23850ms step_avg:161.15ms
step:159/1530 train_loss:4.2853 train_time:24015ms step_avg:161.17ms
step:160/1530 train_loss:4.1237 train_time:24178ms step_avg:161.19ms
step:161/1530 train_loss:4.3432 train_time:24342ms step_avg:161.21ms
step:162/1530 train_loss:4.3543 train_time:24506ms step_avg:161.22ms
step:163/1530 train_loss:4.3315 train_time:24670ms step_avg:161.24ms
step:164/1530 train_loss:4.1695 train_time:24835ms step_avg:161.26ms
step:165/1530 train_loss:4.2754 train_time:24998ms step_avg:161.28ms
step:166/1530 train_loss:4.3367 train_time:25161ms step_avg:161.29ms
step:167/1530 train_loss:4.1896 train_time:25324ms step_avg:161.30ms
step:168/1530 train_loss:4.2667 train_time:25489ms step_avg:161.32ms
step:169/1530 train_loss:4.1497 train_time:25653ms step_avg:161.34ms
step:170/1530 train_loss:4.0128 train_time:25818ms step_avg:161.36ms
step:171/1530 train_loss:4.1964 train_time:25981ms step_avg:161.37ms
step:172/1530 train_loss:4.1933 train_time:26142ms step_avg:161.37ms
step:173/1530 train_loss:4.2577 train_time:26307ms step_avg:161.39ms
step:174/1530 train_loss:4.4160 train_time:26470ms step_avg:161.40ms
step:175/1530 train_loss:4.2435 train_time:26634ms step_avg:161.42ms
step:176/1530 train_loss:4.0829 train_time:26797ms step_avg:161.43ms
step:177/1530 train_loss:4.0524 train_time:26959ms step_avg:161.43ms
step:178/1530 train_loss:4.1658 train_time:27121ms step_avg:161.44ms
step:179/1530 train_loss:4.1161 train_time:27284ms step_avg:161.45ms
step:180/1530 train_loss:4.1122 train_time:27448ms step_avg:161.46ms
step:181/1530 train_loss:4.2910 train_time:27611ms step_avg:161.47ms
step:182/1530 train_loss:4.1412 train_time:27775ms step_avg:161.48ms
step:183/1530 train_loss:4.1158 train_time:27938ms step_avg:161.49ms
step:184/1530 train_loss:4.1002 train_time:28101ms step_avg:161.50ms
step:185/1530 train_loss:4.1837 train_time:28263ms step_avg:161.50ms
step:186/1530 train_loss:4.1561 train_time:28426ms step_avg:161.51ms
step:187/1530 train_loss:4.2046 train_time:28590ms step_avg:161.52ms
step:188/1530 train_loss:4.1500 train_time:28886ms step_avg:162.28ms
step:189/1530 train_loss:4.0948 train_time:29222ms step_avg:163.25ms
step:190/1530 train_loss:4.1933 train_time:29384ms step_avg:163.24ms
step:191/1530 train_loss:4.0674 train_time:29548ms step_avg:163.25ms
step:192/1530 train_loss:4.0263 train_time:29711ms step_avg:163.25ms
step:193/1530 train_loss:4.2444 train_time:29874ms step_avg:163.25ms
step:194/1530 train_loss:4.1714 train_time:30036ms step_avg:163.24ms
step:195/1530 train_loss:4.3365 train_time:30199ms step_avg:163.24ms
step:196/1530 train_loss:4.1626 train_time:30362ms step_avg:163.24ms
step:197/1530 train_loss:4.0326 train_time:30525ms step_avg:163.24ms
step:198/1530 train_loss:4.1717 train_time:30689ms step_avg:163.24ms
step:199/1530 train_loss:4.0291 train_time:30852ms step_avg:163.24ms
step:200/1530 train_loss:4.1014 train_time:31015ms step_avg:163.24ms
step:201/1530 train_loss:3.9832 train_time:31178ms step_avg:163.23ms
step:202/1530 train_loss:4.2401 train_time:31339ms step_avg:163.23ms
step:203/1530 train_loss:4.0560 train_time:31502ms step_avg:163.22ms
step:204/1530 train_loss:4.1891 train_time:31665ms step_avg:163.22ms
step:205/1530 train_loss:4.2481 train_time:31827ms step_avg:163.22ms
step:206/1530 train_loss:3.9385 train_time:31991ms step_avg:163.22ms
step:207/1530 train_loss:4.0702 train_time:32154ms step_avg:163.22ms
step:208/1530 train_loss:4.0891 train_time:32317ms step_avg:163.22ms
step:209/1530 train_loss:4.2258 train_time:32480ms step_avg:163.21ms
step:210/1530 train_loss:4.1788 train_time:32642ms step_avg:163.21ms
step:211/1530 train_loss:4.0448 train_time:32804ms step_avg:163.20ms
step:212/1530 train_loss:4.1141 train_time:32968ms step_avg:163.21ms
step:213/1530 train_loss:4.0324 train_time:33132ms step_avg:163.21ms
step:214/1530 train_loss:4.1066 train_time:33296ms step_avg:163.21ms
step:215/1530 train_loss:3.9436 train_time:33457ms step_avg:163.21ms
step:216/1530 train_loss:3.9888 train_time:33620ms step_avg:163.21ms
step:217/1530 train_loss:4.0042 train_time:33783ms step_avg:163.20ms
step:218/1530 train_loss:4.0776 train_time:33947ms step_avg:163.21ms
step:219/1530 train_loss:4.0596 train_time:34111ms step_avg:163.21ms
step:220/1530 train_loss:4.0665 train_time:34274ms step_avg:163.21ms
step:221/1530 train_loss:4.0755 train_time:34436ms step_avg:163.20ms
step:222/1530 train_loss:3.9710 train_time:34599ms step_avg:163.20ms
step:223/1530 train_loss:3.9727 train_time:34761ms step_avg:163.20ms
step:224/1530 train_loss:4.2862 train_time:34925ms step_avg:163.20ms
step:225/1530 train_loss:3.9166 train_time:35089ms step_avg:163.20ms
step:226/1530 train_loss:3.9803 train_time:35253ms step_avg:163.21ms
step:227/1530 train_loss:3.9646 train_time:35416ms step_avg:163.21ms
step:228/1530 train_loss:4.1298 train_time:35580ms step_avg:163.21ms
step:229/1530 train_loss:3.9061 train_time:35746ms step_avg:163.22ms
step:230/1530 train_loss:4.0304 train_time:35914ms step_avg:163.25ms
step:231/1530 train_loss:3.8913 train_time:36080ms step_avg:163.26ms
step:232/1530 train_loss:3.9553 train_time:36246ms step_avg:163.27ms
step:233/1530 train_loss:4.0768 train_time:36413ms step_avg:163.29ms
step:234/1530 train_loss:4.0234 train_time:36579ms step_avg:163.30ms
step:235/1530 train_loss:3.8928 train_time:36745ms step_avg:163.31ms
step:236/1530 train_loss:4.0582 train_time:36912ms step_avg:163.33ms
step:237/1530 train_loss:4.0648 train_time:37078ms step_avg:163.34ms
step:238/1530 train_loss:3.9184 train_time:37244ms step_avg:163.35ms
step:239/1530 train_loss:4.0588 train_time:37410ms step_avg:163.36ms
step:240/1530 train_loss:4.1025 train_time:37576ms step_avg:163.37ms
step:241/1530 train_loss:3.9514 train_time:37741ms step_avg:163.38ms
step:242/1530 train_loss:4.1321 train_time:37906ms step_avg:163.39ms
step:243/1530 train_loss:4.0130 train_time:38073ms step_avg:163.40ms
step:244/1530 train_loss:4.0871 train_time:38239ms step_avg:163.42ms
step:245/1530 train_loss:4.1420 train_time:38404ms step_avg:163.42ms
step:246/1530 train_loss:4.0408 train_time:38571ms step_avg:163.44ms
step:247/1530 train_loss:3.9917 train_time:38738ms step_avg:163.45ms
step:248/1530 train_loss:4.0810 train_time:38903ms step_avg:163.46ms
step:249/1530 train_loss:3.9122 train_time:39069ms step_avg:163.47ms
step:250/1530 train_loss:3.9557 train_time:39235ms step_avg:163.48ms
step:250/1530 val_loss:3.9894 train_time:39284ms step_avg:163.68ms
step:251/1530 train_loss:4.0586 train_time:39404ms step_avg:163.50ms
step:252/1530 train_loss:4.1450 train_time:39573ms step_avg:163.52ms
step:253/1530 train_loss:3.9217 train_time:39740ms step_avg:163.54ms
step:254/1530 train_loss:3.8661 train_time:39905ms step_avg:163.55ms
step:255/1530 train_loss:4.0674 train_time:40071ms step_avg:163.56ms
step:256/1530 train_loss:3.9586 train_time:40237ms step_avg:163.57ms
step:257/1530 train_loss:3.9690 train_time:40403ms step_avg:163.58ms
step:258/1530 train_loss:3.9714 train_time:40570ms step_avg:163.59ms
step:259/1530 train_loss:4.0160 train_time:40736ms step_avg:163.60ms
step:260/1530 train_loss:4.0444 train_time:40903ms step_avg:163.61ms
step:261/1530 train_loss:4.0093 train_time:41070ms step_avg:163.62ms
step:262/1530 train_loss:3.9819 train_time:41235ms step_avg:163.63ms
step:263/1530 train_loss:3.8778 train_time:41402ms step_avg:163.64ms
step:264/1530 train_loss:3.9785 train_time:41567ms step_avg:163.65ms
step:265/1530 train_loss:3.8527 train_time:41734ms step_avg:163.66ms
step:266/1530 train_loss:3.9061 train_time:41901ms step_avg:163.68ms
step:267/1530 train_loss:3.9083 train_time:42066ms step_avg:163.68ms
step:268/1530 train_loss:3.9500 train_time:42232ms step_avg:163.69ms
step:269/1530 train_loss:3.8387 train_time:42398ms step_avg:163.70ms
step:270/1530 train_loss:4.0876 train_time:42563ms step_avg:163.70ms
step:271/1530 train_loss:3.9530 train_time:42728ms step_avg:163.71ms
step:272/1530 train_loss:3.9120 train_time:42894ms step_avg:163.72ms
step:273/1530 train_loss:3.9287 train_time:43060ms step_avg:163.73ms
step:274/1530 train_loss:4.0236 train_time:43225ms step_avg:163.73ms
step:275/1530 train_loss:4.0433 train_time:43391ms step_avg:163.74ms
step:276/1530 train_loss:4.2160 train_time:43559ms step_avg:163.75ms
step:277/1530 train_loss:4.0388 train_time:43724ms step_avg:163.76ms
step:278/1530 train_loss:4.0742 train_time:43889ms step_avg:163.76ms
step:279/1530 train_loss:3.9837 train_time:44056ms step_avg:163.78ms
step:280/1530 train_loss:4.1723 train_time:44223ms step_avg:163.79ms
step:281/1530 train_loss:3.9699 train_time:44389ms step_avg:163.80ms
step:282/1530 train_loss:3.9283 train_time:44557ms step_avg:163.81ms
step:283/1530 train_loss:3.8959 train_time:44722ms step_avg:163.82ms
step:284/1530 train_loss:4.0339 train_time:44888ms step_avg:163.82ms
step:285/1530 train_loss:4.0474 train_time:45054ms step_avg:163.83ms
step:286/1530 train_loss:4.0766 train_time:45219ms step_avg:163.84ms
step:287/1530 train_loss:3.8868 train_time:45384ms step_avg:163.84ms
step:288/1530 train_loss:3.9963 train_time:45548ms step_avg:163.84ms
step:289/1530 train_loss:3.8637 train_time:45714ms step_avg:163.85ms
step:290/1530 train_loss:3.8351 train_time:45880ms step_avg:163.86ms
step:291/1530 train_loss:3.8871 train_time:46045ms step_avg:163.86ms
step:292/1530 train_loss:3.8499 train_time:46210ms step_avg:163.86ms
step:293/1530 train_loss:3.8969 train_time:46376ms step_avg:163.87ms
step:294/1530 train_loss:3.9305 train_time:46541ms step_avg:163.88ms
step:295/1530 train_loss:3.8294 train_time:46705ms step_avg:163.88ms
step:296/1530 train_loss:3.8511 train_time:46872ms step_avg:163.89ms
step:297/1530 train_loss:3.8546 train_time:47038ms step_avg:163.90ms
step:298/1530 train_loss:3.9554 train_time:47204ms step_avg:163.90ms
step:299/1530 train_loss:3.8089 train_time:47369ms step_avg:163.91ms
step:300/1530 train_loss:3.9564 train_time:47533ms step_avg:163.91ms
step:301/1530 train_loss:3.9436 train_time:47699ms step_avg:163.91ms
step:302/1530 train_loss:3.9162 train_time:47864ms step_avg:163.92ms
step:303/1530 train_loss:3.9671 train_time:48028ms step_avg:163.92ms
step:304/1530 train_loss:3.9552 train_time:48193ms step_avg:163.92ms
step:305/1530 train_loss:4.4457 train_time:48361ms step_avg:163.93ms
step:306/1530 train_loss:3.9292 train_time:48524ms step_avg:163.93ms
step:307/1530 train_loss:3.8204 train_time:48689ms step_avg:163.94ms
step:308/1530 train_loss:3.9659 train_time:48854ms step_avg:163.94ms
step:309/1530 train_loss:3.8546 train_time:49020ms step_avg:163.95ms
step:310/1530 train_loss:4.0635 train_time:49186ms step_avg:163.95ms
step:311/1530 train_loss:3.9141 train_time:49350ms step_avg:163.95ms
step:312/1530 train_loss:3.8536 train_time:49517ms step_avg:163.96ms
step:313/1530 train_loss:3.9210 train_time:49682ms step_avg:163.97ms
step:314/1530 train_loss:4.0439 train_time:49847ms step_avg:163.97ms
step:315/1530 train_loss:3.9333 train_time:50012ms step_avg:163.97ms
step:316/1530 train_loss:3.7818 train_time:50179ms step_avg:163.98ms
step:317/1530 train_loss:3.8578 train_time:50344ms step_avg:163.99ms
step:318/1530 train_loss:3.9111 train_time:50508ms step_avg:163.99ms
step:319/1530 train_loss:3.8698 train_time:50674ms step_avg:163.99ms
step:320/1530 train_loss:3.9935 train_time:50839ms step_avg:164.00ms
step:321/1530 train_loss:3.9467 train_time:51004ms step_avg:164.00ms
step:322/1530 train_loss:3.9187 train_time:51168ms step_avg:164.00ms
step:323/1530 train_loss:4.0020 train_time:51334ms step_avg:164.01ms
step:324/1530 train_loss:3.9295 train_time:51500ms step_avg:164.01ms
step:325/1530 train_loss:3.9939 train_time:51665ms step_avg:164.02ms
step:326/1530 train_loss:3.8749 train_time:51830ms step_avg:164.02ms
step:327/1530 train_loss:4.3681 train_time:51995ms step_avg:164.02ms
step:328/1530 train_loss:4.0542 train_time:52162ms step_avg:164.03ms
step:329/1530 train_loss:3.7874 train_time:52326ms step_avg:164.03ms
step:330/1530 train_loss:3.7422 train_time:52491ms step_avg:164.04ms
step:331/1530 train_loss:3.9703 train_time:52657ms step_avg:164.04ms
step:332/1530 train_loss:3.9015 train_time:52821ms step_avg:164.04ms
step:333/1530 train_loss:3.8695 train_time:52986ms step_avg:164.04ms
step:334/1530 train_loss:3.8301 train_time:53151ms step_avg:164.05ms
step:335/1530 train_loss:3.9987 train_time:53316ms step_avg:164.05ms
step:336/1530 train_loss:3.9521 train_time:53482ms step_avg:164.06ms
step:337/1530 train_loss:4.4161 train_time:53648ms step_avg:164.06ms
step:338/1530 train_loss:3.9211 train_time:53814ms step_avg:164.07ms
step:339/1530 train_loss:3.8518 train_time:53980ms step_avg:164.07ms
step:340/1530 train_loss:3.9231 train_time:54145ms step_avg:164.08ms
step:341/1530 train_loss:3.8487 train_time:54312ms step_avg:164.08ms
step:342/1530 train_loss:3.8012 train_time:54481ms step_avg:164.10ms
step:343/1530 train_loss:3.8176 train_time:54648ms step_avg:164.11ms
step:344/1530 train_loss:3.9823 train_time:54814ms step_avg:164.11ms
step:345/1530 train_loss:3.7970 train_time:54986ms step_avg:164.14ms
step:346/1530 train_loss:3.7534 train_time:55154ms step_avg:164.15ms
step:347/1530 train_loss:3.7756 train_time:55322ms step_avg:164.16ms
step:348/1530 train_loss:3.8415 train_time:55489ms step_avg:164.17ms
step:349/1530 train_loss:3.8180 train_time:55658ms step_avg:164.18ms
step:350/1530 train_loss:3.5589 train_time:55826ms step_avg:164.19ms
step:351/1530 train_loss:3.8134 train_time:55994ms step_avg:164.21ms
step:352/1530 train_loss:4.1618 train_time:56162ms step_avg:164.22ms
step:353/1530 train_loss:3.6449 train_time:56329ms step_avg:164.22ms
step:354/1530 train_loss:3.9152 train_time:56497ms step_avg:164.24ms
step:355/1530 train_loss:3.7677 train_time:56666ms step_avg:164.25ms
step:356/1530 train_loss:3.8755 train_time:56833ms step_avg:164.26ms
step:357/1530 train_loss:3.7445 train_time:57001ms step_avg:164.27ms
step:358/1530 train_loss:3.8553 train_time:57169ms step_avg:164.28ms
step:359/1530 train_loss:3.7621 train_time:57337ms step_avg:164.29ms
step:360/1530 train_loss:3.4114 train_time:57507ms step_avg:164.30ms
step:361/1530 train_loss:4.0122 train_time:57674ms step_avg:164.31ms
step:362/1530 train_loss:3.9156 train_time:57843ms step_avg:164.33ms
step:363/1530 train_loss:3.8250 train_time:58010ms step_avg:164.34ms
step:364/1530 train_loss:3.7306 train_time:58179ms step_avg:164.35ms
step:365/1530 train_loss:3.9068 train_time:58347ms step_avg:164.36ms
step:366/1530 train_loss:3.8522 train_time:58516ms step_avg:164.37ms
step:367/1530 train_loss:3.8466 train_time:58685ms step_avg:164.38ms
step:368/1530 train_loss:3.8378 train_time:58853ms step_avg:164.39ms
step:369/1530 train_loss:3.7371 train_time:59020ms step_avg:164.40ms
step:370/1530 train_loss:3.8725 train_time:59188ms step_avg:164.41ms
step:371/1530 train_loss:3.7237 train_time:59356ms step_avg:164.42ms
step:372/1530 train_loss:3.6824 train_time:59524ms step_avg:164.43ms
step:373/1530 train_loss:3.8993 train_time:59691ms step_avg:164.44ms
step:374/1530 train_loss:3.8139 train_time:59859ms step_avg:164.45ms
step:375/1530 train_loss:3.7894 train_time:60026ms step_avg:164.46ms
step:375/1530 val_loss:3.8123 train_time:60075ms step_avg:164.59ms
step:376/1530 train_loss:3.8575 train_time:60196ms step_avg:164.47ms
step:377/1530 train_loss:3.7806 train_time:60498ms step_avg:164.84ms
step:378/1530 train_loss:3.8433 train_time:60675ms step_avg:164.88ms
step:379/1530 train_loss:3.8580 train_time:61001ms step_avg:165.31ms
step:380/1530 train_loss:3.9433 train_time:61167ms step_avg:165.32ms
step:381/1530 train_loss:3.8313 train_time:61335ms step_avg:165.32ms
step:382/1530 train_loss:3.7825 train_time:61505ms step_avg:165.34ms
step:383/1530 train_loss:3.7848 train_time:61672ms step_avg:165.34ms
step:384/1530 train_loss:3.8615 train_time:61840ms step_avg:165.35ms
step:385/1530 train_loss:3.7754 train_time:62008ms step_avg:165.35ms
step:386/1530 train_loss:3.8744 train_time:62176ms step_avg:165.36ms
step:387/1530 train_loss:4.0458 train_time:62343ms step_avg:165.37ms
step:388/1530 train_loss:3.7799 train_time:62511ms step_avg:165.37ms
step:389/1530 train_loss:3.7871 train_time:62680ms step_avg:165.38ms
step:390/1530 train_loss:3.8904 train_time:62849ms step_avg:165.39ms
step:391/1530 train_loss:3.8008 train_time:63015ms step_avg:165.39ms
step:392/1530 train_loss:3.9095 train_time:63185ms step_avg:165.40ms
step:393/1530 train_loss:3.7489 train_time:63352ms step_avg:165.41ms
step:394/1530 train_loss:3.8719 train_time:63520ms step_avg:165.42ms
step:395/1530 train_loss:3.6237 train_time:63689ms step_avg:165.43ms
step:396/1530 train_loss:3.8308 train_time:63856ms step_avg:165.43ms
step:397/1530 train_loss:3.8448 train_time:64024ms step_avg:165.44ms
step:398/1530 train_loss:3.8710 train_time:64195ms step_avg:165.45ms
step:399/1530 train_loss:3.7566 train_time:64361ms step_avg:165.45ms
step:400/1530 train_loss:3.8158 train_time:64529ms step_avg:165.46ms
step:401/1530 train_loss:3.9026 train_time:64696ms step_avg:165.46ms
step:402/1530 train_loss:3.8320 train_time:64864ms step_avg:165.47ms
step:403/1530 train_loss:3.9491 train_time:65031ms step_avg:165.47ms
step:404/1530 train_loss:3.6626 train_time:65198ms step_avg:165.48ms
step:405/1530 train_loss:3.7763 train_time:65365ms step_avg:165.48ms
step:406/1530 train_loss:4.0834 train_time:65532ms step_avg:165.49ms
step:407/1530 train_loss:3.7706 train_time:65699ms step_avg:165.49ms
step:408/1530 train_loss:3.8083 train_time:65866ms step_avg:165.49ms
step:409/1530 train_loss:3.8439 train_time:66033ms step_avg:165.50ms
step:410/1530 train_loss:3.7468 train_time:66199ms step_avg:165.50ms
step:411/1530 train_loss:3.7484 train_time:66367ms step_avg:165.50ms
step:412/1530 train_loss:4.1765 train_time:66535ms step_avg:165.51ms
step:413/1530 train_loss:3.6631 train_time:66701ms step_avg:165.51ms
step:414/1530 train_loss:3.9963 train_time:66869ms step_avg:165.52ms
step:415/1530 train_loss:3.7432 train_time:67036ms step_avg:165.52ms
step:416/1530 train_loss:3.7518 train_time:67204ms step_avg:165.53ms
step:417/1530 train_loss:3.9464 train_time:67371ms step_avg:165.53ms
step:418/1530 train_loss:3.6834 train_time:67537ms step_avg:165.53ms
step:419/1530 train_loss:3.7961 train_time:67705ms step_avg:165.54ms
step:420/1530 train_loss:3.6907 train_time:67873ms step_avg:165.54ms
step:421/1530 train_loss:3.6419 train_time:68039ms step_avg:165.55ms
step:422/1530 train_loss:3.7743 train_time:68208ms step_avg:165.55ms
step:423/1530 train_loss:3.8646 train_time:68375ms step_avg:165.56ms
step:424/1530 train_loss:3.6056 train_time:68542ms step_avg:165.56ms
step:425/1530 train_loss:3.7959 train_time:68710ms step_avg:165.57ms
step:426/1530 train_loss:3.6499 train_time:68877ms step_avg:165.57ms
step:427/1530 train_loss:3.8780 train_time:69046ms step_avg:165.58ms
step:428/1530 train_loss:3.7989 train_time:69214ms step_avg:165.58ms
step:429/1530 train_loss:3.7458 train_time:69381ms step_avg:165.59ms
step:430/1530 train_loss:3.6933 train_time:69548ms step_avg:165.59ms
step:431/1530 train_loss:3.6124 train_time:69715ms step_avg:165.59ms
step:432/1530 train_loss:3.7545 train_time:69883ms step_avg:165.60ms
step:433/1530 train_loss:3.8050 train_time:70050ms step_avg:165.60ms
step:434/1530 train_loss:3.7608 train_time:70216ms step_avg:165.60ms
step:435/1530 train_loss:3.7991 train_time:70383ms step_avg:165.61ms
step:436/1530 train_loss:3.8279 train_time:70550ms step_avg:165.61ms
step:437/1530 train_loss:3.7059 train_time:70716ms step_avg:165.61ms
step:438/1530 train_loss:3.6928 train_time:70884ms step_avg:165.62ms
step:439/1530 train_loss:3.7051 train_time:71052ms step_avg:165.62ms
step:440/1530 train_loss:3.8812 train_time:71218ms step_avg:165.62ms
step:441/1530 train_loss:3.7444 train_time:71386ms step_avg:165.63ms
step:442/1530 train_loss:3.7263 train_time:71553ms step_avg:165.63ms
step:443/1530 train_loss:3.6075 train_time:71719ms step_avg:165.63ms
step:444/1530 train_loss:3.9088 train_time:71887ms step_avg:165.64ms
step:445/1530 train_loss:3.8335 train_time:72052ms step_avg:165.64ms
step:446/1530 train_loss:3.8238 train_time:72219ms step_avg:165.64ms
step:447/1530 train_loss:3.7433 train_time:72388ms step_avg:165.65ms
step:448/1530 train_loss:3.8447 train_time:72554ms step_avg:165.65ms
step:449/1530 train_loss:3.6847 train_time:72720ms step_avg:165.65ms
step:450/1530 train_loss:3.7067 train_time:72889ms step_avg:165.66ms
step:451/1530 train_loss:3.5695 train_time:73056ms step_avg:165.66ms
step:452/1530 train_loss:3.7062 train_time:73222ms step_avg:165.66ms
step:453/1530 train_loss:3.6563 train_time:73390ms step_avg:165.67ms
step:454/1530 train_loss:3.6232 train_time:73556ms step_avg:165.67ms
step:455/1530 train_loss:3.8289 train_time:73726ms step_avg:165.68ms
step:456/1530 train_loss:3.7114 train_time:73896ms step_avg:165.69ms
step:457/1530 train_loss:3.7680 train_time:74065ms step_avg:165.69ms
step:458/1530 train_loss:3.8137 train_time:74235ms step_avg:165.70ms
step:459/1530 train_loss:3.6208 train_time:74408ms step_avg:165.72ms
step:460/1530 train_loss:3.7763 train_time:74577ms step_avg:165.73ms
step:461/1530 train_loss:3.6827 train_time:74749ms step_avg:165.74ms
step:462/1530 train_loss:3.7243 train_time:74918ms step_avg:165.75ms
step:463/1530 train_loss:3.7638 train_time:75089ms step_avg:165.76ms
step:464/1530 train_loss:3.6976 train_time:75258ms step_avg:165.77ms
step:465/1530 train_loss:3.7096 train_time:75427ms step_avg:165.77ms
step:466/1530 train_loss:3.7860 train_time:75596ms step_avg:165.78ms
step:467/1530 train_loss:3.8166 train_time:75768ms step_avg:165.80ms
step:468/1530 train_loss:3.7833 train_time:75937ms step_avg:165.80ms
step:469/1530 train_loss:3.6764 train_time:76109ms step_avg:165.81ms
step:470/1530 train_loss:3.7597 train_time:76278ms step_avg:165.82ms
step:471/1530 train_loss:3.8021 train_time:76449ms step_avg:165.83ms
step:472/1530 train_loss:3.7761 train_time:76618ms step_avg:165.84ms
step:473/1530 train_loss:3.7073 train_time:76789ms step_avg:165.85ms
step:474/1530 train_loss:3.5828 train_time:76958ms step_avg:165.86ms
step:475/1530 train_loss:4.0060 train_time:77128ms step_avg:165.87ms
step:476/1530 train_loss:3.7453 train_time:77297ms step_avg:165.87ms
step:477/1530 train_loss:3.5843 train_time:77470ms step_avg:165.89ms
step:478/1530 train_loss:3.8171 train_time:77639ms step_avg:165.90ms
step:479/1530 train_loss:3.7662 train_time:77810ms step_avg:165.91ms
step:480/1530 train_loss:3.9219 train_time:77979ms step_avg:165.91ms
step:481/1530 train_loss:3.7136 train_time:78149ms step_avg:165.92ms
step:482/1530 train_loss:3.5178 train_time:78317ms step_avg:165.93ms
step:483/1530 train_loss:3.7979 train_time:78488ms step_avg:165.94ms
step:484/1530 train_loss:3.6490 train_time:78658ms step_avg:165.95ms
step:485/1530 train_loss:3.6475 train_time:78828ms step_avg:165.95ms
step:486/1530 train_loss:3.5555 train_time:78999ms step_avg:165.96ms
step:487/1530 train_loss:3.6754 train_time:79168ms step_avg:165.97ms
step:488/1530 train_loss:3.8684 train_time:79338ms step_avg:165.98ms
step:489/1530 train_loss:3.6987 train_time:79507ms step_avg:165.99ms
step:490/1530 train_loss:3.5812 train_time:79676ms step_avg:165.99ms
step:491/1530 train_loss:3.6092 train_time:79846ms step_avg:166.00ms
step:492/1530 train_loss:3.7190 train_time:80018ms step_avg:166.01ms
step:493/1530 train_loss:3.5698 train_time:80189ms step_avg:166.02ms
step:494/1530 train_loss:3.6886 train_time:80358ms step_avg:166.03ms
step:495/1530 train_loss:3.6455 train_time:80529ms step_avg:166.04ms
step:496/1530 train_loss:3.5022 train_time:80700ms step_avg:166.05ms
step:497/1530 train_loss:3.7226 train_time:80869ms step_avg:166.05ms
step:498/1530 train_loss:3.7744 train_time:81039ms step_avg:166.06ms
step:499/1530 train_loss:3.8078 train_time:81211ms step_avg:166.08ms
step:500/1530 train_loss:3.7252 train_time:81381ms step_avg:166.08ms
step:500/1530 val_loss:3.6940 train_time:81429ms step_avg:166.18ms
step:501/1530 train_loss:3.7920 train_time:81552ms step_avg:166.09ms
step:502/1530 train_loss:3.7386 train_time:81723ms step_avg:166.10ms
step:503/1530 train_loss:3.7680 train_time:81892ms step_avg:166.11ms
step:504/1530 train_loss:3.7077 train_time:82061ms step_avg:166.11ms
step:505/1530 train_loss:3.7952 train_time:82230ms step_avg:166.12ms
step:506/1530 train_loss:3.6339 train_time:82398ms step_avg:166.13ms
step:507/1530 train_loss:3.7558 train_time:82568ms step_avg:166.13ms
step:508/1530 train_loss:3.8154 train_time:82739ms step_avg:166.14ms
step:509/1530 train_loss:3.7587 train_time:82909ms step_avg:166.15ms
step:510/1530 train_loss:3.5675 train_time:83077ms step_avg:166.15ms
step:511/1530 train_loss:3.7647 train_time:83248ms step_avg:166.16ms
step:512/1530 train_loss:3.7084 train_time:83417ms step_avg:166.17ms
step:513/1530 train_loss:3.6510 train_time:83586ms step_avg:166.18ms
step:514/1530 train_loss:3.8326 train_time:83756ms step_avg:166.18ms
step:515/1530 train_loss:3.7202 train_time:83924ms step_avg:166.19ms
step:516/1530 train_loss:4.0695 train_time:84094ms step_avg:166.19ms
step:517/1530 train_loss:3.6765 train_time:84262ms step_avg:166.20ms
step:518/1530 train_loss:3.7531 train_time:84431ms step_avg:166.20ms
step:519/1530 train_loss:3.6409 train_time:84599ms step_avg:166.21ms
step:520/1530 train_loss:3.6743 train_time:84768ms step_avg:166.21ms
step:521/1530 train_loss:3.6542 train_time:84938ms step_avg:166.22ms
step:522/1530 train_loss:3.6445 train_time:85109ms step_avg:166.23ms
step:523/1530 train_loss:4.2818 train_time:85279ms step_avg:166.24ms
step:524/1530 train_loss:3.7271 train_time:85448ms step_avg:166.24ms
step:525/1530 train_loss:3.6709 train_time:85616ms step_avg:166.24ms
step:526/1530 train_loss:3.6856 train_time:85785ms step_avg:166.25ms
step:527/1530 train_loss:3.6468 train_time:85955ms step_avg:166.26ms
step:528/1530 train_loss:3.6150 train_time:86124ms step_avg:166.26ms
step:529/1530 train_loss:3.8341 train_time:86291ms step_avg:166.26ms
step:530/1530 train_loss:3.6332 train_time:86460ms step_avg:166.27ms
step:531/1530 train_loss:3.9051 train_time:86630ms step_avg:166.28ms
step:532/1530 train_loss:3.7221 train_time:86798ms step_avg:166.28ms
step:533/1530 train_loss:3.6371 train_time:86968ms step_avg:166.29ms
step:534/1530 train_loss:3.6583 train_time:87136ms step_avg:166.29ms
step:535/1530 train_loss:3.5929 train_time:87306ms step_avg:166.30ms
step:536/1530 train_loss:3.7401 train_time:87477ms step_avg:166.31ms
step:537/1530 train_loss:3.7114 train_time:87647ms step_avg:166.31ms
step:538/1530 train_loss:3.6149 train_time:87815ms step_avg:166.32ms
step:539/1530 train_loss:4.1098 train_time:87985ms step_avg:166.32ms
step:540/1530 train_loss:3.6633 train_time:88154ms step_avg:166.33ms
step:541/1530 train_loss:3.7735 train_time:88322ms step_avg:166.33ms
step:542/1530 train_loss:3.5742 train_time:88491ms step_avg:166.34ms
step:543/1530 train_loss:3.5726 train_time:88659ms step_avg:166.34ms
step:544/1530 train_loss:3.6231 train_time:88827ms step_avg:166.34ms
step:545/1530 train_loss:3.5814 train_time:88996ms step_avg:166.35ms
step:546/1530 train_loss:3.6072 train_time:89166ms step_avg:166.35ms
step:547/1530 train_loss:3.6265 train_time:89334ms step_avg:166.36ms
step:548/1530 train_loss:3.6007 train_time:89503ms step_avg:166.36ms
step:549/1530 train_loss:3.7147 train_time:89671ms step_avg:166.37ms
step:550/1530 train_loss:3.6107 train_time:89840ms step_avg:166.37ms
step:551/1530 train_loss:3.6149 train_time:90008ms step_avg:166.37ms
step:552/1530 train_loss:3.9162 train_time:90177ms step_avg:166.38ms
step:553/1530 train_loss:3.7475 train_time:90347ms step_avg:166.39ms
step:554/1530 train_loss:3.6989 train_time:90515ms step_avg:166.39ms
step:555/1530 train_loss:3.6122 train_time:90685ms step_avg:166.39ms
step:556/1530 train_loss:3.6887 train_time:90853ms step_avg:166.40ms
step:557/1530 train_loss:3.3037 train_time:91023ms step_avg:166.40ms
step:558/1530 train_loss:3.5993 train_time:91190ms step_avg:166.41ms
step:559/1530 train_loss:3.6379 train_time:91360ms step_avg:166.41ms
step:560/1530 train_loss:3.6750 train_time:91530ms step_avg:166.42ms
step:561/1530 train_loss:3.6006 train_time:91698ms step_avg:166.42ms
step:562/1530 train_loss:3.5407 train_time:91868ms step_avg:166.43ms
step:563/1530 train_loss:3.7508 train_time:92038ms step_avg:166.43ms
step:564/1530 train_loss:3.5626 train_time:92208ms step_avg:166.44ms
step:565/1530 train_loss:3.6675 train_time:92376ms step_avg:166.44ms
step:566/1530 train_loss:3.6063 train_time:92679ms step_avg:166.69ms
step:567/1530 train_loss:3.5871 train_time:92857ms step_avg:166.71ms
step:568/1530 train_loss:3.6728 train_time:93029ms step_avg:166.72ms
step:569/1530 train_loss:3.6416 train_time:93356ms step_avg:167.01ms
step:570/1530 train_loss:3.6773 train_time:93529ms step_avg:167.02ms
step:571/1530 train_loss:3.7507 train_time:93698ms step_avg:167.02ms
step:572/1530 train_loss:3.7188 train_time:93869ms step_avg:167.03ms
step:573/1530 train_loss:3.7246 train_time:94041ms step_avg:167.04ms
step:574/1530 train_loss:3.7701 train_time:94214ms step_avg:167.05ms
step:575/1530 train_loss:3.7202 train_time:94385ms step_avg:167.05ms
step:576/1530 train_loss:3.7454 train_time:94556ms step_avg:167.06ms
step:577/1530 train_loss:3.6572 train_time:94728ms step_avg:167.07ms
step:578/1530 train_loss:3.6629 train_time:94899ms step_avg:167.08ms
step:579/1530 train_loss:3.6633 train_time:95071ms step_avg:167.09ms
step:580/1530 train_loss:3.5873 train_time:95242ms step_avg:167.09ms
step:581/1530 train_loss:3.6286 train_time:95413ms step_avg:167.10ms
step:582/1530 train_loss:3.8364 train_time:95583ms step_avg:167.10ms
step:583/1530 train_loss:3.6139 train_time:95754ms step_avg:167.11ms
step:584/1530 train_loss:3.5749 train_time:95928ms step_avg:167.12ms
step:585/1530 train_loss:3.7782 train_time:96097ms step_avg:167.12ms
step:586/1530 train_loss:3.5069 train_time:96269ms step_avg:167.13ms
step:587/1530 train_loss:3.6542 train_time:96440ms step_avg:167.14ms
step:588/1530 train_loss:3.6289 train_time:96611ms step_avg:167.15ms
step:589/1530 train_loss:3.9879 train_time:96783ms step_avg:167.16ms
step:590/1530 train_loss:3.7656 train_time:96955ms step_avg:167.16ms
step:591/1530 train_loss:3.4965 train_time:97126ms step_avg:167.17ms
step:592/1530 train_loss:3.5263 train_time:97299ms step_avg:167.18ms
step:593/1530 train_loss:3.4900 train_time:97471ms step_avg:167.19ms
step:594/1530 train_loss:3.5420 train_time:97642ms step_avg:167.19ms
step:595/1530 train_loss:3.9161 train_time:97815ms step_avg:167.21ms
step:596/1530 train_loss:3.6407 train_time:97988ms step_avg:167.21ms
step:597/1530 train_loss:3.5689 train_time:98159ms step_avg:167.22ms
step:598/1530 train_loss:3.6432 train_time:98330ms step_avg:167.23ms
step:599/1530 train_loss:3.4634 train_time:98500ms step_avg:167.23ms
step:600/1530 train_loss:3.5883 train_time:98671ms step_avg:167.24ms
step:601/1530 train_loss:3.6381 train_time:98845ms step_avg:167.25ms
step:602/1530 train_loss:3.6596 train_time:99016ms step_avg:167.26ms
step:603/1530 train_loss:3.7682 train_time:99187ms step_avg:167.26ms
step:604/1530 train_loss:3.5958 train_time:99358ms step_avg:167.27ms
step:605/1530 train_loss:3.6021 train_time:99531ms step_avg:167.28ms
step:606/1530 train_loss:3.5623 train_time:99704ms step_avg:167.29ms
step:607/1530 train_loss:3.8281 train_time:99876ms step_avg:167.30ms
step:608/1530 train_loss:3.6255 train_time:100050ms step_avg:167.31ms
step:609/1530 train_loss:3.6033 train_time:100222ms step_avg:167.31ms
step:610/1530 train_loss:3.6925 train_time:100392ms step_avg:167.32ms
step:611/1530 train_loss:3.5844 train_time:100562ms step_avg:167.32ms
step:612/1530 train_loss:3.5610 train_time:100734ms step_avg:167.33ms
step:613/1530 train_loss:3.7442 train_time:100905ms step_avg:167.34ms
step:614/1530 train_loss:3.6928 train_time:101076ms step_avg:167.34ms
step:615/1530 train_loss:3.6750 train_time:101247ms step_avg:167.35ms
step:616/1530 train_loss:3.6274 train_time:101416ms step_avg:167.35ms
step:617/1530 train_loss:3.5390 train_time:101588ms step_avg:167.36ms
step:618/1530 train_loss:3.6803 train_time:101758ms step_avg:167.37ms
step:619/1530 train_loss:3.5331 train_time:101930ms step_avg:167.37ms
step:620/1530 train_loss:3.5804 train_time:102100ms step_avg:167.38ms
step:621/1530 train_loss:3.9152 train_time:102274ms step_avg:167.39ms
step:622/1530 train_loss:3.5591 train_time:102447ms step_avg:167.40ms
step:623/1530 train_loss:3.5925 train_time:102618ms step_avg:167.40ms
step:624/1530 train_loss:3.6815 train_time:102789ms step_avg:167.41ms
step:625/1530 train_loss:3.6939 train_time:102958ms step_avg:167.41ms
step:625/1530 val_loss:3.6127 train_time:103008ms step_avg:167.49ms
step:626/1530 train_loss:3.7331 train_time:103130ms step_avg:167.42ms
step:627/1530 train_loss:3.7068 train_time:103300ms step_avg:167.42ms
step:628/1530 train_loss:3.7528 train_time:103470ms step_avg:167.43ms
step:629/1530 train_loss:3.5811 train_time:103641ms step_avg:167.43ms
step:630/1530 train_loss:3.7104 train_time:103811ms step_avg:167.44ms
step:631/1530 train_loss:3.7319 train_time:103983ms step_avg:167.44ms
step:632/1530 train_loss:3.6334 train_time:104155ms step_avg:167.45ms
step:633/1530 train_loss:3.5936 train_time:104326ms step_avg:167.46ms
step:634/1530 train_loss:3.6874 train_time:104495ms step_avg:167.46ms
step:635/1530 train_loss:3.9402 train_time:104666ms step_avg:167.47ms
step:636/1530 train_loss:3.5340 train_time:104837ms step_avg:167.47ms
step:637/1530 train_loss:3.3402 train_time:105009ms step_avg:167.48ms
step:638/1530 train_loss:3.5810 train_time:105178ms step_avg:167.48ms
step:639/1530 train_loss:3.6230 train_time:105348ms step_avg:167.48ms
step:640/1530 train_loss:3.5573 train_time:105518ms step_avg:167.49ms
step:641/1530 train_loss:3.5737 train_time:105688ms step_avg:167.49ms
step:642/1530 train_loss:3.6226 train_time:105858ms step_avg:167.50ms
step:643/1530 train_loss:3.5843 train_time:106028ms step_avg:167.50ms
step:644/1530 train_loss:3.5496 train_time:106197ms step_avg:167.50ms
step:645/1530 train_loss:3.7668 train_time:106368ms step_avg:167.51ms
step:646/1530 train_loss:3.6628 train_time:106539ms step_avg:167.51ms
step:647/1530 train_loss:3.6477 train_time:106710ms step_avg:167.52ms
step:648/1530 train_loss:3.7053 train_time:106882ms step_avg:167.53ms
step:649/1530 train_loss:3.7541 train_time:107052ms step_avg:167.53ms
step:650/1530 train_loss:3.6141 train_time:107224ms step_avg:167.54ms
step:651/1530 train_loss:3.7571 train_time:107395ms step_avg:167.54ms
step:652/1530 train_loss:3.5738 train_time:107567ms step_avg:167.55ms
step:653/1530 train_loss:3.6510 train_time:107736ms step_avg:167.55ms
step:654/1530 train_loss:3.4142 train_time:107908ms step_avg:167.56ms
step:655/1530 train_loss:3.5736 train_time:108078ms step_avg:167.56ms
step:656/1530 train_loss:3.5614 train_time:108248ms step_avg:167.57ms
step:657/1530 train_loss:3.4879 train_time:108418ms step_avg:167.57ms
step:658/1530 train_loss:3.6748 train_time:108590ms step_avg:167.58ms
step:659/1530 train_loss:3.5727 train_time:108760ms step_avg:167.58ms
step:660/1530 train_loss:3.6740 train_time:108930ms step_avg:167.58ms
step:661/1530 train_loss:3.7397 train_time:109101ms step_avg:167.59ms
step:662/1530 train_loss:3.6617 train_time:109271ms step_avg:167.59ms
step:663/1530 train_loss:3.5418 train_time:109441ms step_avg:167.60ms
step:664/1530 train_loss:3.6014 train_time:109612ms step_avg:167.60ms
step:665/1530 train_loss:3.4816 train_time:109784ms step_avg:167.61ms
step:666/1530 train_loss:3.7720 train_time:109954ms step_avg:167.61ms
step:667/1530 train_loss:3.5950 train_time:110125ms step_avg:167.62ms
step:668/1530 train_loss:3.6410 train_time:110296ms step_avg:167.62ms
step:669/1530 train_loss:3.4744 train_time:110468ms step_avg:167.63ms
step:670/1530 train_loss:3.5891 train_time:110638ms step_avg:167.63ms
step:671/1530 train_loss:3.5463 train_time:110808ms step_avg:167.64ms
step:672/1530 train_loss:3.5553 train_time:110979ms step_avg:167.64ms
step:673/1530 train_loss:3.8386 train_time:111149ms step_avg:167.65ms
step:674/1530 train_loss:3.6104 train_time:111319ms step_avg:167.65ms
step:675/1530 train_loss:3.6965 train_time:111491ms step_avg:167.66ms
step:676/1530 train_loss:3.4777 train_time:111662ms step_avg:167.66ms
step:677/1530 train_loss:3.5895 train_time:111832ms step_avg:167.66ms
step:678/1530 train_loss:3.5440 train_time:112004ms step_avg:167.67ms
step:679/1530 train_loss:3.6664 train_time:112175ms step_avg:167.68ms
step:680/1530 train_loss:3.5754 train_time:112346ms step_avg:167.68ms
step:681/1530 train_loss:3.6083 train_time:112518ms step_avg:167.69ms
step:682/1530 train_loss:3.6511 train_time:112693ms step_avg:167.70ms
step:683/1530 train_loss:3.7209 train_time:112867ms step_avg:167.71ms
step:684/1530 train_loss:3.6371 train_time:113038ms step_avg:167.71ms
step:685/1530 train_loss:3.6753 train_time:113213ms step_avg:167.72ms
step:686/1530 train_loss:3.6291 train_time:113387ms step_avg:167.73ms
step:687/1530 train_loss:3.6570 train_time:113558ms step_avg:167.74ms
step:688/1530 train_loss:3.2012 train_time:113733ms step_avg:167.75ms
step:689/1530 train_loss:3.3949 train_time:113907ms step_avg:167.76ms
step:690/1530 train_loss:3.5340 train_time:114082ms step_avg:167.77ms
step:691/1530 train_loss:3.4027 train_time:114253ms step_avg:167.77ms
step:692/1530 train_loss:3.6174 train_time:114425ms step_avg:167.78ms
step:693/1530 train_loss:3.6359 train_time:114597ms step_avg:167.79ms
step:694/1530 train_loss:3.5426 train_time:114770ms step_avg:167.79ms
step:695/1530 train_loss:3.5237 train_time:114941ms step_avg:167.80ms
step:696/1530 train_loss:3.8416 train_time:115113ms step_avg:167.80ms
step:697/1530 train_loss:3.5784 train_time:115288ms step_avg:167.81ms
step:698/1530 train_loss:3.6406 train_time:115459ms step_avg:167.82ms
step:699/1530 train_loss:3.7653 train_time:115634ms step_avg:167.83ms
step:700/1530 train_loss:3.5598 train_time:115807ms step_avg:167.84ms
step:701/1530 train_loss:3.5356 train_time:115979ms step_avg:167.84ms
step:702/1530 train_loss:3.5031 train_time:116152ms step_avg:167.85ms
step:703/1530 train_loss:3.4884 train_time:116326ms step_avg:167.86ms
step:704/1530 train_loss:3.5614 train_time:116497ms step_avg:167.86ms
step:705/1530 train_loss:3.5500 train_time:116674ms step_avg:167.88ms
step:706/1530 train_loss:3.5731 train_time:116849ms step_avg:167.89ms
step:707/1530 train_loss:3.6377 train_time:117024ms step_avg:167.90ms
step:708/1530 train_loss:3.5899 train_time:117196ms step_avg:167.90ms
step:709/1530 train_loss:3.5711 train_time:117370ms step_avg:167.91ms
step:710/1530 train_loss:3.5310 train_time:117541ms step_avg:167.92ms
step:711/1530 train_loss:3.5872 train_time:117715ms step_avg:167.92ms
step:712/1530 train_loss:3.6369 train_time:117891ms step_avg:167.94ms
step:713/1530 train_loss:3.6439 train_time:118067ms step_avg:167.95ms
step:714/1530 train_loss:3.5499 train_time:118239ms step_avg:167.95ms
step:715/1530 train_loss:3.5660 train_time:118412ms step_avg:167.96ms
step:716/1530 train_loss:3.5773 train_time:118585ms step_avg:167.97ms
step:717/1530 train_loss:3.6935 train_time:118759ms step_avg:167.98ms
step:718/1530 train_loss:3.5864 train_time:118929ms step_avg:167.98ms
step:719/1530 train_loss:3.6663 train_time:119102ms step_avg:167.99ms
step:720/1530 train_loss:3.8391 train_time:119276ms step_avg:167.99ms
step:721/1530 train_loss:3.4539 train_time:119449ms step_avg:168.00ms
step:722/1530 train_loss:3.7223 train_time:119620ms step_avg:168.01ms
step:723/1530 train_loss:3.7598 train_time:119792ms step_avg:168.01ms
step:724/1530 train_loss:3.5559 train_time:119966ms step_avg:168.02ms
step:725/1530 train_loss:3.6383 train_time:120138ms step_avg:168.03ms
step:726/1530 train_loss:3.5226 train_time:120312ms step_avg:168.03ms
step:727/1530 train_loss:3.5724 train_time:120487ms step_avg:168.04ms
step:728/1530 train_loss:3.7219 train_time:120659ms step_avg:168.05ms
step:729/1530 train_loss:3.6634 train_time:120831ms step_avg:168.05ms
step:730/1530 train_loss:3.6553 train_time:121005ms step_avg:168.06ms
step:731/1530 train_loss:3.5463 train_time:121177ms step_avg:168.07ms
step:732/1530 train_loss:3.5816 train_time:121348ms step_avg:168.07ms
step:733/1530 train_loss:3.8202 train_time:121522ms step_avg:168.08ms
step:734/1530 train_loss:3.5476 train_time:121695ms step_avg:168.09ms
step:735/1530 train_loss:3.6059 train_time:121868ms step_avg:168.09ms
step:736/1530 train_loss:3.7247 train_time:122041ms step_avg:168.10ms
step:737/1530 train_loss:3.6669 train_time:122213ms step_avg:168.11ms
step:738/1530 train_loss:3.5906 train_time:122386ms step_avg:168.11ms
step:739/1530 train_loss:3.4891 train_time:122556ms step_avg:168.12ms
step:740/1530 train_loss:4.0921 train_time:122732ms step_avg:168.13ms
step:741/1530 train_loss:3.4744 train_time:122904ms step_avg:168.13ms
step:742/1530 train_loss:3.5394 train_time:123077ms step_avg:168.14ms
step:743/1530 train_loss:3.5754 train_time:123249ms step_avg:168.14ms
step:744/1530 train_loss:3.6418 train_time:123421ms step_avg:168.15ms
step:745/1530 train_loss:3.5751 train_time:123594ms step_avg:168.16ms
step:746/1530 train_loss:3.5855 train_time:123767ms step_avg:168.16ms
step:747/1530 train_loss:3.6411 train_time:123940ms step_avg:168.17ms
step:748/1530 train_loss:3.5553 train_time:124116ms step_avg:168.18ms
step:749/1530 train_loss:3.5497 train_time:124290ms step_avg:168.19ms
step:750/1530 train_loss:3.5919 train_time:124461ms step_avg:168.19ms
step:750/1530 val_loss:3.5536 train_time:124509ms step_avg:168.26ms
step:751/1530 train_loss:3.5591 train_time:124634ms step_avg:168.20ms
step:752/1530 train_loss:3.6014 train_time:124806ms step_avg:168.20ms
step:753/1530 train_loss:3.6022 train_time:124979ms step_avg:168.21ms
step:754/1530 train_loss:3.5824 train_time:125151ms step_avg:168.21ms
step:755/1530 train_loss:3.6730 train_time:125457ms step_avg:168.40ms
step:756/1530 train_loss:3.4473 train_time:125641ms step_avg:168.42ms
step:757/1530 train_loss:3.7153 train_time:125815ms step_avg:168.43ms
step:758/1530 train_loss:3.6418 train_time:125984ms step_avg:168.43ms
step:759/1530 train_loss:3.5812 train_time:126313ms step_avg:168.64ms
step:760/1530 train_loss:3.6927 train_time:126483ms step_avg:168.64ms
step:761/1530 train_loss:3.3964 train_time:126655ms step_avg:168.65ms
step:762/1530 train_loss:3.5362 train_time:126826ms step_avg:168.65ms
step:763/1530 train_loss:3.6470 train_time:126999ms step_avg:168.66ms
step:764/1530 train_loss:3.3092 train_time:127171ms step_avg:168.66ms
step:765/1530 train_loss:3.7167 train_time:127344ms step_avg:168.67ms
step:766/1530 train_loss:3.5546 train_time:127519ms step_avg:168.68ms
step:767/1530 train_loss:3.5557 train_time:127692ms step_avg:168.68ms
step:768/1530 train_loss:3.5604 train_time:127864ms step_avg:168.69ms
step:769/1530 train_loss:3.5695 train_time:128038ms step_avg:168.69ms
step:770/1530 train_loss:3.6262 train_time:128210ms step_avg:168.70ms
step:771/1530 train_loss:3.8725 train_time:128382ms step_avg:168.70ms
step:772/1530 train_loss:3.4367 train_time:128555ms step_avg:168.71ms
step:773/1530 train_loss:3.6145 train_time:128725ms step_avg:168.71ms
step:774/1530 train_loss:3.6344 train_time:128897ms step_avg:168.71ms
step:775/1530 train_loss:3.5980 train_time:129069ms step_avg:168.72ms
step:776/1530 train_loss:3.3880 train_time:129243ms step_avg:168.72ms
step:777/1530 train_loss:3.3785 train_time:129418ms step_avg:168.73ms
step:778/1530 train_loss:3.4825 train_time:129590ms step_avg:168.74ms
step:779/1530 train_loss:3.5699 train_time:129762ms step_avg:168.74ms
step:780/1530 train_loss:3.5775 train_time:129935ms step_avg:168.75ms
step:781/1530 train_loss:3.6607 train_time:130105ms step_avg:168.75ms
step:782/1530 train_loss:3.5794 train_time:130278ms step_avg:168.75ms
step:783/1530 train_loss:3.5576 train_time:130449ms step_avg:168.76ms
step:784/1530 train_loss:3.5851 train_time:130621ms step_avg:168.76ms
step:785/1530 train_loss:3.5467 train_time:130793ms step_avg:168.77ms
step:786/1530 train_loss:3.4293 train_time:130965ms step_avg:168.77ms
step:787/1530 train_loss:3.7684 train_time:131138ms step_avg:168.77ms
step:788/1530 train_loss:3.4947 train_time:131314ms step_avg:168.78ms
step:789/1530 train_loss:3.5404 train_time:131485ms step_avg:168.79ms
step:790/1530 train_loss:3.6199 train_time:131658ms step_avg:168.79ms
step:791/1530 train_loss:3.7613 train_time:131833ms step_avg:168.80ms
step:792/1530 train_loss:3.7505 train_time:132007ms step_avg:168.81ms
step:793/1530 train_loss:3.4363 train_time:132177ms step_avg:168.81ms
step:794/1530 train_loss:3.5861 train_time:132350ms step_avg:168.81ms
step:795/1530 train_loss:3.6651 train_time:132524ms step_avg:168.82ms
step:796/1530 train_loss:3.7199 train_time:132702ms step_avg:168.83ms
step:797/1530 train_loss:3.5160 train_time:132876ms step_avg:168.84ms
step:798/1530 train_loss:3.6374 train_time:133050ms step_avg:168.84ms
step:799/1530 train_loss:3.5246 train_time:133226ms step_avg:168.85ms
step:800/1530 train_loss:3.5149 train_time:133399ms step_avg:168.86ms
step:801/1530 train_loss:3.6205 train_time:133574ms step_avg:168.87ms
step:802/1530 train_loss:3.4829 train_time:133749ms step_avg:168.88ms
step:803/1530 train_loss:3.4843 train_time:133922ms step_avg:168.88ms
step:804/1530 train_loss:3.6079 train_time:134097ms step_avg:168.89ms
step:805/1530 train_loss:3.5049 train_time:134274ms step_avg:168.90ms
step:806/1530 train_loss:3.5550 train_time:134446ms step_avg:168.90ms
step:807/1530 train_loss:3.6335 train_time:134620ms step_avg:168.91ms
step:808/1530 train_loss:3.5318 train_time:134796ms step_avg:168.92ms
step:809/1530 train_loss:3.4765 train_time:134969ms step_avg:168.92ms
step:810/1530 train_loss:3.5551 train_time:135142ms step_avg:168.93ms
step:811/1530 train_loss:3.5681 train_time:135317ms step_avg:168.94ms
step:812/1530 train_loss:3.5938 train_time:135490ms step_avg:168.94ms
step:813/1530 train_loss:3.6179 train_time:135660ms step_avg:168.94ms
step:814/1530 train_loss:3.5551 train_time:135836ms step_avg:168.95ms
step:815/1530 train_loss:3.5573 train_time:136010ms step_avg:168.96ms
step:816/1530 train_loss:3.6731 train_time:136185ms step_avg:168.96ms
step:817/1530 train_loss:3.7581 train_time:136358ms step_avg:168.97ms
step:818/1530 train_loss:3.5147 train_time:136530ms step_avg:168.97ms
step:819/1530 train_loss:3.7038 train_time:136705ms step_avg:168.98ms
step:820/1530 train_loss:3.4832 train_time:136880ms step_avg:168.99ms
step:821/1530 train_loss:3.5501 train_time:137053ms step_avg:168.99ms
step:822/1530 train_loss:3.6887 train_time:137230ms step_avg:169.00ms
step:823/1530 train_loss:3.5628 train_time:137403ms step_avg:169.01ms
step:824/1530 train_loss:3.4958 train_time:137577ms step_avg:169.01ms
step:825/1530 train_loss:3.6050 train_time:137751ms step_avg:169.02ms
step:826/1530 train_loss:3.4699 train_time:137927ms step_avg:169.03ms
step:827/1530 train_loss:3.7203 train_time:138101ms step_avg:169.03ms
step:828/1530 train_loss:3.6069 train_time:138275ms step_avg:169.04ms
step:829/1530 train_loss:3.6160 train_time:138451ms step_avg:169.05ms
step:830/1530 train_loss:3.5205 train_time:138626ms step_avg:169.06ms
step:831/1530 train_loss:3.5889 train_time:138799ms step_avg:169.06ms
step:832/1530 train_loss:3.5047 train_time:138975ms step_avg:169.07ms
step:833/1530 train_loss:3.6438 train_time:139150ms step_avg:169.08ms
step:834/1530 train_loss:3.4677 train_time:139323ms step_avg:169.08ms
step:835/1530 train_loss:3.4483 train_time:139498ms step_avg:169.09ms
step:836/1530 train_loss:3.7096 train_time:139674ms step_avg:169.10ms
step:837/1530 train_loss:3.3898 train_time:139848ms step_avg:169.10ms
step:838/1530 train_loss:3.5857 train_time:140022ms step_avg:169.11ms
step:839/1530 train_loss:3.4091 train_time:140198ms step_avg:169.12ms
step:840/1530 train_loss:3.4567 train_time:140370ms step_avg:169.12ms
step:841/1530 train_loss:3.5590 train_time:140542ms step_avg:169.12ms
step:842/1530 train_loss:3.5742 train_time:140719ms step_avg:169.13ms
step:843/1530 train_loss:3.5510 train_time:140890ms step_avg:169.14ms
step:844/1530 train_loss:3.4149 train_time:141063ms step_avg:169.14ms
step:845/1530 train_loss:3.6540 train_time:141237ms step_avg:169.15ms
step:846/1530 train_loss:3.5038 train_time:141412ms step_avg:169.15ms
step:847/1530 train_loss:3.4835 train_time:141586ms step_avg:169.16ms
step:848/1530 train_loss:3.6291 train_time:141758ms step_avg:169.16ms
step:849/1530 train_loss:3.4800 train_time:141932ms step_avg:169.17ms
step:850/1530 train_loss:3.4300 train_time:142106ms step_avg:169.17ms
step:851/1530 train_loss:3.7273 train_time:142279ms step_avg:169.18ms
step:852/1530 train_loss:3.4236 train_time:142452ms step_avg:169.18ms
step:853/1530 train_loss:3.5595 train_time:142625ms step_avg:169.19ms
step:854/1530 train_loss:3.6423 train_time:142800ms step_avg:169.19ms
step:855/1530 train_loss:3.4990 train_time:142974ms step_avg:169.20ms
step:856/1530 train_loss:3.5355 train_time:143148ms step_avg:169.21ms
step:857/1530 train_loss:3.5979 train_time:143323ms step_avg:169.21ms
step:858/1530 train_loss:3.4515 train_time:143500ms step_avg:169.22ms
step:859/1530 train_loss:3.5443 train_time:143674ms step_avg:169.23ms
step:860/1530 train_loss:3.5727 train_time:143844ms step_avg:169.23ms
step:861/1530 train_loss:3.6212 train_time:144023ms step_avg:169.24ms
step:862/1530 train_loss:3.5896 train_time:144201ms step_avg:169.25ms
step:863/1530 train_loss:3.5598 train_time:144376ms step_avg:169.26ms
step:864/1530 train_loss:3.3683 train_time:144550ms step_avg:169.26ms
step:865/1530 train_loss:3.5884 train_time:144722ms step_avg:169.27ms
step:866/1530 train_loss:3.8692 train_time:144900ms step_avg:169.28ms
step:867/1530 train_loss:3.4521 train_time:145072ms step_avg:169.28ms
step:868/1530 train_loss:3.6315 train_time:145245ms step_avg:169.28ms
step:869/1530 train_loss:3.6050 train_time:145418ms step_avg:169.29ms
step:870/1530 train_loss:3.4425 train_time:145593ms step_avg:169.29ms
step:871/1530 train_loss:3.3946 train_time:145767ms step_avg:169.30ms
step:872/1530 train_loss:3.6409 train_time:145941ms step_avg:169.31ms
step:873/1530 train_loss:3.4505 train_time:146116ms step_avg:169.31ms
step:874/1530 train_loss:3.2141 train_time:146295ms step_avg:169.32ms
step:875/1530 train_loss:3.6252 train_time:146468ms step_avg:169.33ms
step:875/1530 val_loss:3.5087 train_time:146518ms step_avg:169.39ms
step:876/1530 train_loss:3.4245 train_time:146643ms step_avg:169.33ms
step:877/1530 train_loss:3.6068 train_time:146817ms step_avg:169.34ms
step:878/1530 train_loss:3.4587 train_time:146990ms step_avg:169.34ms
step:879/1530 train_loss:3.6389 train_time:147163ms step_avg:169.35ms
step:880/1530 train_loss:3.2996 train_time:147335ms step_avg:169.35ms
step:881/1530 train_loss:3.4678 train_time:147508ms step_avg:169.35ms
step:882/1530 train_loss:3.6851 train_time:147680ms step_avg:169.36ms
step:883/1530 train_loss:3.8255 train_time:147853ms step_avg:169.36ms
step:884/1530 train_loss:3.5542 train_time:148028ms step_avg:169.37ms
step:885/1530 train_loss:3.4856 train_time:148200ms step_avg:169.37ms
step:886/1530 train_loss:3.5588 train_time:148375ms step_avg:169.38ms
step:887/1530 train_loss:4.0860 train_time:148549ms step_avg:169.38ms
step:888/1530 train_loss:3.8307 train_time:148728ms step_avg:169.39ms
step:889/1530 train_loss:3.5067 train_time:148901ms step_avg:169.40ms
step:890/1530 train_loss:3.5209 train_time:149073ms step_avg:169.40ms
step:891/1530 train_loss:3.3515 train_time:149247ms step_avg:169.41ms
step:892/1530 train_loss:3.7075 train_time:149420ms step_avg:169.41ms
step:893/1530 train_loss:3.4112 train_time:149593ms step_avg:169.41ms
step:894/1530 train_loss:3.6216 train_time:149768ms step_avg:169.42ms
step:895/1530 train_loss:3.6670 train_time:149942ms step_avg:169.43ms
step:896/1530 train_loss:3.4817 train_time:150115ms step_avg:169.43ms
step:897/1530 train_loss:3.5287 train_time:150290ms step_avg:169.44ms
step:898/1530 train_loss:3.5789 train_time:150467ms step_avg:169.44ms
step:899/1530 train_loss:3.4641 train_time:150641ms step_avg:169.45ms
step:900/1530 train_loss:3.4130 train_time:150814ms step_avg:169.45ms
step:901/1530 train_loss:3.6093 train_time:150986ms step_avg:169.46ms
step:902/1530 train_loss:3.6251 train_time:151158ms step_avg:169.46ms
step:903/1530 train_loss:3.5302 train_time:151334ms step_avg:169.47ms
step:904/1530 train_loss:3.4813 train_time:151506ms step_avg:169.47ms
step:905/1530 train_loss:3.4953 train_time:151678ms step_avg:169.47ms
step:906/1530 train_loss:3.6946 train_time:151852ms step_avg:169.48ms
step:907/1530 train_loss:3.4998 train_time:152026ms step_avg:169.48ms
step:908/1530 train_loss:3.5595 train_time:152199ms step_avg:169.49ms
step:909/1530 train_loss:3.4440 train_time:152375ms step_avg:169.49ms
step:910/1530 train_loss:3.5136 train_time:152554ms step_avg:169.50ms
step:911/1530 train_loss:3.6338 train_time:152729ms step_avg:169.51ms
step:912/1530 train_loss:3.5934 train_time:152905ms step_avg:169.52ms
step:913/1530 train_loss:3.4521 train_time:153083ms step_avg:169.53ms
step:914/1530 train_loss:3.7371 train_time:153261ms step_avg:169.54ms
step:915/1530 train_loss:3.5210 train_time:153441ms step_avg:169.55ms
step:916/1530 train_loss:3.6074 train_time:153616ms step_avg:169.55ms
step:917/1530 train_loss:3.5945 train_time:153790ms step_avg:169.56ms
step:918/1530 train_loss:4.8080 train_time:153969ms step_avg:169.57ms
step:919/1530 train_loss:3.4852 train_time:154147ms step_avg:169.58ms
step:920/1530 train_loss:3.5830 train_time:154322ms step_avg:169.58ms
step:921/1530 train_loss:3.5471 train_time:154497ms step_avg:169.59ms
step:922/1530 train_loss:3.5718 train_time:154673ms step_avg:169.60ms
step:923/1530 train_loss:3.6075 train_time:154850ms step_avg:169.61ms
step:924/1530 train_loss:3.6748 train_time:155027ms step_avg:169.61ms
step:925/1530 train_loss:3.6360 train_time:155202ms step_avg:169.62ms
step:926/1530 train_loss:3.5484 train_time:155375ms step_avg:169.62ms
step:927/1530 train_loss:3.5462 train_time:155551ms step_avg:169.63ms
step:928/1530 train_loss:3.7767 train_time:155729ms step_avg:169.64ms
step:929/1530 train_loss:3.5985 train_time:155903ms step_avg:169.64ms
step:930/1530 train_loss:3.3912 train_time:156080ms step_avg:169.65ms
step:931/1530 train_loss:3.4885 train_time:156254ms step_avg:169.66ms
step:932/1530 train_loss:3.6384 train_time:156432ms step_avg:169.67ms
step:933/1530 train_loss:3.3549 train_time:156608ms step_avg:169.67ms
step:934/1530 train_loss:3.5764 train_time:156785ms step_avg:169.68ms
step:935/1530 train_loss:3.4281 train_time:156963ms step_avg:169.69ms
step:936/1530 train_loss:3.5103 train_time:157141ms step_avg:169.70ms
step:937/1530 train_loss:3.6116 train_time:157318ms step_avg:169.71ms
step:938/1530 train_loss:3.5294 train_time:157492ms step_avg:169.71ms
step:939/1530 train_loss:3.6565 train_time:157671ms step_avg:169.72ms
step:940/1530 train_loss:3.4715 train_time:157845ms step_avg:169.73ms
step:941/1530 train_loss:3.5365 train_time:158021ms step_avg:169.73ms
step:942/1530 train_loss:3.3453 train_time:158198ms step_avg:169.74ms
step:943/1530 train_loss:3.7020 train_time:158377ms step_avg:169.75ms
step:944/1530 train_loss:3.3884 train_time:158690ms step_avg:169.90ms
step:945/1530 train_loss:3.4119 train_time:158872ms step_avg:169.92ms
step:946/1530 train_loss:5.0794 train_time:159053ms step_avg:169.93ms
step:947/1530 train_loss:3.5910 train_time:159230ms step_avg:169.94ms
step:948/1530 train_loss:3.4833 train_time:159405ms step_avg:169.94ms
step:949/1530 train_loss:3.3657 train_time:159730ms step_avg:170.11ms
step:950/1530 train_loss:3.4286 train_time:159905ms step_avg:170.11ms
step:951/1530 train_loss:3.3970 train_time:160082ms step_avg:170.12ms
step:952/1530 train_loss:3.4659 train_time:160259ms step_avg:170.13ms
step:953/1530 train_loss:3.5611 train_time:160436ms step_avg:170.13ms
step:954/1530 train_loss:3.4417 train_time:160614ms step_avg:170.14ms
step:955/1530 train_loss:3.4686 train_time:160789ms step_avg:170.15ms
step:956/1530 train_loss:3.4315 train_time:160966ms step_avg:170.15ms
step:957/1530 train_loss:3.4843 train_time:161146ms step_avg:170.17ms
step:958/1530 train_loss:3.4976 train_time:161326ms step_avg:170.18ms
step:959/1530 train_loss:3.4999 train_time:161503ms step_avg:170.18ms
step:960/1530 train_loss:3.3961 train_time:161680ms step_avg:170.19ms
step:961/1530 train_loss:3.6402 train_time:161855ms step_avg:170.19ms
step:962/1530 train_loss:3.5871 train_time:162030ms step_avg:170.20ms
step:963/1530 train_loss:3.6549 train_time:162207ms step_avg:170.21ms
step:964/1530 train_loss:3.4217 train_time:162384ms step_avg:170.21ms
step:965/1530 train_loss:3.4658 train_time:162558ms step_avg:170.22ms
step:966/1530 train_loss:3.6980 train_time:162733ms step_avg:170.22ms
step:967/1530 train_loss:3.5106 train_time:162907ms step_avg:170.23ms
step:968/1530 train_loss:3.5045 train_time:163081ms step_avg:170.23ms
step:969/1530 train_loss:3.5734 train_time:163257ms step_avg:170.24ms
step:970/1530 train_loss:3.3673 train_time:163430ms step_avg:170.24ms
step:971/1530 train_loss:3.5211 train_time:163603ms step_avg:170.24ms
step:972/1530 train_loss:3.4644 train_time:163777ms step_avg:170.25ms
step:973/1530 train_loss:3.5327 train_time:163951ms step_avg:170.25ms
step:974/1530 train_loss:3.5823 train_time:164128ms step_avg:170.26ms
step:975/1530 train_loss:3.4574 train_time:164304ms step_avg:170.26ms
step:976/1530 train_loss:3.6597 train_time:164479ms step_avg:170.27ms
step:977/1530 train_loss:3.5624 train_time:164652ms step_avg:170.27ms
step:978/1530 train_loss:3.3452 train_time:164827ms step_avg:170.28ms
step:979/1530 train_loss:3.6230 train_time:165003ms step_avg:170.28ms
step:980/1530 train_loss:3.4079 train_time:165179ms step_avg:170.29ms
step:981/1530 train_loss:3.5671 train_time:165358ms step_avg:170.30ms
step:982/1530 train_loss:3.5325 train_time:165532ms step_avg:170.30ms
step:983/1530 train_loss:3.5018 train_time:165708ms step_avg:170.31ms
step:984/1530 train_loss:3.4865 train_time:165882ms step_avg:170.31ms
step:985/1530 train_loss:3.5680 train_time:166061ms step_avg:170.32ms
step:986/1530 train_loss:3.4045 train_time:166236ms step_avg:170.32ms
step:987/1530 train_loss:3.4774 train_time:166408ms step_avg:170.33ms
step:988/1530 train_loss:3.4803 train_time:166582ms step_avg:170.33ms
step:989/1530 train_loss:3.4085 train_time:166755ms step_avg:170.33ms
step:990/1530 train_loss:3.6552 train_time:166932ms step_avg:170.34ms
step:991/1530 train_loss:3.4604 train_time:167107ms step_avg:170.34ms
step:992/1530 train_loss:3.4313 train_time:167288ms step_avg:170.35ms
step:993/1530 train_loss:3.4908 train_time:167467ms step_avg:170.36ms
step:994/1530 train_loss:3.5861 train_time:167642ms step_avg:170.37ms
step:995/1530 train_loss:3.5217 train_time:167814ms step_avg:170.37ms
step:996/1530 train_loss:3.4454 train_time:167987ms step_avg:170.37ms
step:997/1530 train_loss:3.7444 train_time:168161ms step_avg:170.38ms
step:998/1530 train_loss:3.4290 train_time:168334ms step_avg:170.38ms
step:999/1530 train_loss:3.5793 train_time:168508ms step_avg:170.38ms
step:1000/1530 train_loss:3.4303 train_time:168686ms step_avg:170.39ms
step:1000/1530 val_loss:3.4559 train_time:168738ms step_avg:170.44ms
step:1001/1530 train_loss:3.4911 train_time:168863ms step_avg:170.40ms
step:1002/1530 train_loss:3.3722 train_time:169037ms step_avg:170.40ms
step:1003/1530 train_loss:3.5426 train_time:169213ms step_avg:170.41ms
step:1004/1530 train_loss:3.5931 train_time:169390ms step_avg:170.41ms
step:1005/1530 train_loss:3.3861 train_time:169565ms step_avg:170.42ms
step:1006/1530 train_loss:3.4535 train_time:169743ms step_avg:170.42ms
step:1007/1530 train_loss:3.4256 train_time:169917ms step_avg:170.43ms
step:1008/1530 train_loss:3.5537 train_time:170094ms step_avg:170.43ms
step:1009/1530 train_loss:3.6501 train_time:170272ms step_avg:170.44ms
step:1010/1530 train_loss:3.5503 train_time:170444ms step_avg:170.44ms
step:1011/1530 train_loss:3.5226 train_time:170617ms step_avg:170.45ms
step:1012/1530 train_loss:3.3804 train_time:170792ms step_avg:170.45ms
step:1013/1530 train_loss:3.5312 train_time:170968ms step_avg:170.46ms
step:1014/1530 train_loss:3.6111 train_time:171143ms step_avg:170.46ms
step:1015/1530 train_loss:3.3163 train_time:171319ms step_avg:170.47ms
step:1016/1530 train_loss:3.3981 train_time:171494ms step_avg:170.47ms
step:1017/1530 train_loss:3.3830 train_time:171672ms step_avg:170.48ms
step:1018/1530 train_loss:3.3887 train_time:171850ms step_avg:170.49ms
step:1019/1530 train_loss:3.5145 train_time:172024ms step_avg:170.49ms
step:1020/1530 train_loss:3.3688 train_time:172200ms step_avg:170.49ms
step:1021/1530 train_loss:3.3424 train_time:172376ms step_avg:170.50ms
step:1022/1530 train_loss:3.4740 train_time:172553ms step_avg:170.51ms
step:1023/1530 train_loss:3.4953 train_time:172730ms step_avg:170.51ms
step:1024/1530 train_loss:3.4649 train_time:172907ms step_avg:170.52ms
step:1025/1530 train_loss:3.4644 train_time:173087ms step_avg:170.53ms
step:1026/1530 train_loss:3.6046 train_time:173262ms step_avg:170.53ms
step:1027/1530 train_loss:3.3067 train_time:173438ms step_avg:170.54ms
step:1028/1530 train_loss:3.3832 train_time:173618ms step_avg:170.55ms
step:1029/1530 train_loss:3.3028 train_time:173799ms step_avg:170.56ms
step:1030/1530 train_loss:3.5312 train_time:173975ms step_avg:170.56ms
step:1031/1530 train_loss:3.4948 train_time:174154ms step_avg:170.57ms
step:1032/1530 train_loss:3.6842 train_time:174335ms step_avg:170.58ms
step:1033/1530 train_loss:3.4762 train_time:174510ms step_avg:170.59ms
step:1034/1530 train_loss:3.3843 train_time:174686ms step_avg:170.59ms
step:1035/1530 train_loss:3.4348 train_time:174864ms step_avg:170.60ms
step:1036/1530 train_loss:3.4706 train_time:175042ms step_avg:170.61ms
step:1037/1530 train_loss:3.7796 train_time:175220ms step_avg:170.61ms
step:1038/1530 train_loss:3.6100 train_time:175400ms step_avg:170.62ms
step:1039/1530 train_loss:3.5024 train_time:175582ms step_avg:170.63ms
step:1040/1530 train_loss:3.4027 train_time:175756ms step_avg:170.64ms
step:1041/1530 train_loss:3.4740 train_time:175935ms step_avg:170.64ms
step:1042/1530 train_loss:3.5106 train_time:176109ms step_avg:170.65ms
step:1043/1530 train_loss:3.4368 train_time:176284ms step_avg:170.65ms
step:1044/1530 train_loss:3.4452 train_time:176460ms step_avg:170.66ms
step:1045/1530 train_loss:3.5018 train_time:176639ms step_avg:170.67ms
step:1046/1530 train_loss:3.4175 train_time:176814ms step_avg:170.67ms
step:1047/1530 train_loss:3.6260 train_time:176990ms step_avg:170.67ms
step:1048/1530 train_loss:3.4858 train_time:177165ms step_avg:170.68ms
step:1049/1530 train_loss:3.3847 train_time:177341ms step_avg:170.68ms
step:1050/1530 train_loss:3.3860 train_time:177520ms step_avg:170.69ms
step:1051/1530 train_loss:3.4850 train_time:177698ms step_avg:170.70ms
step:1052/1530 train_loss:3.3509 train_time:177876ms step_avg:170.71ms
step:1053/1530 train_loss:3.6762 train_time:178054ms step_avg:170.71ms
step:1054/1530 train_loss:3.5268 train_time:178233ms step_avg:170.72ms
step:1055/1530 train_loss:3.3748 train_time:178409ms step_avg:170.73ms
step:1056/1530 train_loss:3.4852 train_time:178583ms step_avg:170.73ms
step:1057/1530 train_loss:3.5698 train_time:178761ms step_avg:170.74ms
step:1058/1530 train_loss:3.2967 train_time:178939ms step_avg:170.74ms
step:1059/1530 train_loss:3.3512 train_time:179120ms step_avg:170.75ms
step:1060/1530 train_loss:3.4304 train_time:179296ms step_avg:170.76ms
step:1061/1530 train_loss:3.4040 train_time:179471ms step_avg:170.76ms
step:1062/1530 train_loss:3.3729 train_time:179648ms step_avg:170.77ms
step:1063/1530 train_loss:3.4409 train_time:179823ms step_avg:170.77ms
step:1064/1530 train_loss:3.3697 train_time:179996ms step_avg:170.77ms
step:1065/1530 train_loss:3.3533 train_time:180174ms step_avg:170.78ms
step:1066/1530 train_loss:3.4023 train_time:180352ms step_avg:170.79ms
step:1067/1530 train_loss:3.2667 train_time:180529ms step_avg:170.79ms
step:1068/1530 train_loss:3.4267 train_time:180705ms step_avg:170.80ms
step:1069/1530 train_loss:3.2875 train_time:180885ms step_avg:170.81ms
step:1070/1530 train_loss:3.5576 train_time:181060ms step_avg:170.81ms
step:1071/1530 train_loss:3.5043 train_time:181239ms step_avg:170.82ms
step:1072/1530 train_loss:3.4286 train_time:181415ms step_avg:170.82ms
step:1073/1530 train_loss:3.5160 train_time:181589ms step_avg:170.83ms
step:1074/1530 train_loss:3.4239 train_time:181766ms step_avg:170.83ms
step:1075/1530 train_loss:3.3890 train_time:181943ms step_avg:170.84ms
step:1076/1530 train_loss:3.7891 train_time:182120ms step_avg:170.84ms
step:1077/1530 train_loss:3.4228 train_time:182295ms step_avg:170.85ms
step:1078/1530 train_loss:3.0850 train_time:182480ms step_avg:170.86ms
step:1079/1530 train_loss:3.5252 train_time:182656ms step_avg:170.87ms
step:1080/1530 train_loss:3.4151 train_time:182835ms step_avg:170.87ms
step:1081/1530 train_loss:3.4907 train_time:183009ms step_avg:170.88ms
step:1082/1530 train_loss:3.5778 train_time:183185ms step_avg:170.88ms
step:1083/1530 train_loss:3.4821 train_time:183359ms step_avg:170.88ms
step:1084/1530 train_loss:3.4583 train_time:183535ms step_avg:170.89ms
step:1085/1530 train_loss:3.4231 train_time:183711ms step_avg:170.89ms
step:1086/1530 train_loss:3.6153 train_time:183886ms step_avg:170.90ms
step:1087/1530 train_loss:3.4921 train_time:184060ms step_avg:170.90ms
step:1088/1530 train_loss:3.3627 train_time:184239ms step_avg:170.91ms
step:1089/1530 train_loss:3.3664 train_time:184419ms step_avg:170.92ms
step:1090/1530 train_loss:3.4684 train_time:184599ms step_avg:170.92ms
step:1091/1530 train_loss:3.2744 train_time:184776ms step_avg:170.93ms
step:1092/1530 train_loss:3.4753 train_time:184954ms step_avg:170.94ms
step:1093/1530 train_loss:3.5954 train_time:185133ms step_avg:170.94ms
step:1094/1530 train_loss:3.4374 train_time:185309ms step_avg:170.95ms
step:1095/1530 train_loss:3.4172 train_time:185483ms step_avg:170.95ms
step:1096/1530 train_loss:3.4189 train_time:185660ms step_avg:170.96ms
step:1097/1530 train_loss:3.4815 train_time:185838ms step_avg:170.96ms
step:1098/1530 train_loss:3.5520 train_time:186015ms step_avg:170.97ms
step:1099/1530 train_loss:3.5138 train_time:186192ms step_avg:170.97ms
step:1100/1530 train_loss:3.4191 train_time:186371ms step_avg:170.98ms
step:1101/1530 train_loss:3.2803 train_time:186550ms step_avg:170.99ms
step:1102/1530 train_loss:3.2968 train_time:186729ms step_avg:171.00ms
step:1103/1530 train_loss:3.4277 train_time:186910ms step_avg:171.01ms
step:1104/1530 train_loss:3.3082 train_time:187087ms step_avg:171.01ms
step:1105/1530 train_loss:4.0476 train_time:187265ms step_avg:171.02ms
step:1106/1530 train_loss:3.2121 train_time:187439ms step_avg:171.02ms
step:1107/1530 train_loss:3.5564 train_time:187614ms step_avg:171.02ms
step:1108/1530 train_loss:3.3357 train_time:187788ms step_avg:171.03ms
step:1109/1530 train_loss:3.4908 train_time:187962ms step_avg:171.03ms
step:1110/1530 train_loss:3.4183 train_time:188136ms step_avg:171.03ms
step:1111/1530 train_loss:3.4808 train_time:188312ms step_avg:171.04ms
step:1112/1530 train_loss:3.5508 train_time:188491ms step_avg:171.04ms
step:1113/1530 train_loss:3.4208 train_time:188674ms step_avg:171.06ms
step:1114/1530 train_loss:3.3623 train_time:188855ms step_avg:171.06ms
step:1115/1530 train_loss:3.2231 train_time:189035ms step_avg:171.07ms
step:1116/1530 train_loss:3.4184 train_time:189208ms step_avg:171.07ms
step:1117/1530 train_loss:3.5805 train_time:189387ms step_avg:171.08ms
step:1118/1530 train_loss:3.6146 train_time:189564ms step_avg:171.09ms
step:1119/1530 train_loss:3.4740 train_time:189739ms step_avg:171.09ms
step:1120/1530 train_loss:3.4829 train_time:189915ms step_avg:171.09ms
step:1121/1530 train_loss:3.3814 train_time:190092ms step_avg:171.10ms
step:1122/1530 train_loss:3.4485 train_time:190268ms step_avg:171.10ms
step:1123/1530 train_loss:3.5718 train_time:190444ms step_avg:171.11ms
step:1124/1530 train_loss:3.3332 train_time:190619ms step_avg:171.11ms
step:1125/1530 train_loss:3.2382 train_time:190795ms step_avg:171.12ms
step:1125/1530 val_loss:3.4000 train_time:190846ms step_avg:171.16ms
step:1126/1530 train_loss:3.4700 train_time:190972ms step_avg:171.12ms
step:1127/1530 train_loss:3.6631 train_time:191151ms step_avg:171.13ms
step:1128/1530 train_loss:3.2230 train_time:191330ms step_avg:171.14ms
step:1129/1530 train_loss:3.5510 train_time:191511ms step_avg:171.14ms
step:1130/1530 train_loss:3.3667 train_time:191690ms step_avg:171.15ms
step:1131/1530 train_loss:3.3916 train_time:191873ms step_avg:171.16ms
step:1132/1530 train_loss:3.3587 train_time:192045ms step_avg:171.16ms
step:1133/1530 train_loss:3.4764 train_time:192356ms step_avg:171.29ms
step:1134/1530 train_loss:3.4374 train_time:192540ms step_avg:171.30ms
step:1135/1530 train_loss:3.5112 train_time:192716ms step_avg:171.30ms
step:1136/1530 train_loss:3.5535 train_time:192894ms step_avg:171.31ms
step:1137/1530 train_loss:3.4461 train_time:193070ms step_avg:171.31ms
step:1138/1530 train_loss:3.3413 train_time:193249ms step_avg:171.32ms
step:1139/1530 train_loss:3.6457 train_time:193582ms step_avg:171.46ms
step:1140/1530 train_loss:3.4451 train_time:193761ms step_avg:171.47ms
step:1141/1530 train_loss:3.6029 train_time:193942ms step_avg:171.48ms
step:1142/1530 train_loss:3.4393 train_time:194119ms step_avg:171.48ms
step:1143/1530 train_loss:3.3558 train_time:194298ms step_avg:171.49ms
step:1144/1530 train_loss:3.4363 train_time:194473ms step_avg:171.49ms
step:1145/1530 train_loss:3.5789 train_time:194648ms step_avg:171.50ms
step:1146/1530 train_loss:3.5447 train_time:194828ms step_avg:171.50ms
step:1147/1530 train_loss:3.4821 train_time:195006ms step_avg:171.51ms
step:1148/1530 train_loss:3.4940 train_time:195184ms step_avg:171.52ms
step:1149/1530 train_loss:3.3149 train_time:195363ms step_avg:171.52ms
step:1150/1530 train_loss:3.3705 train_time:195540ms step_avg:171.53ms
step:1151/1530 train_loss:3.3116 train_time:195719ms step_avg:171.53ms
step:1152/1530 train_loss:3.3843 train_time:195900ms step_avg:171.54ms
step:1153/1530 train_loss:3.4216 train_time:196081ms step_avg:171.55ms
step:1154/1530 train_loss:3.5069 train_time:196256ms step_avg:171.55ms
step:1155/1530 train_loss:3.3104 train_time:196439ms step_avg:171.56ms
step:1156/1530 train_loss:3.5292 train_time:196621ms step_avg:171.57ms
step:1157/1530 train_loss:3.4907 train_time:196799ms step_avg:171.58ms
step:1158/1530 train_loss:3.2381 train_time:196975ms step_avg:171.58ms
step:1159/1530 train_loss:3.3379 train_time:197154ms step_avg:171.59ms
step:1160/1530 train_loss:3.3274 train_time:197329ms step_avg:171.59ms
step:1161/1530 train_loss:3.0697 train_time:197508ms step_avg:171.60ms
step:1162/1530 train_loss:3.4116 train_time:197685ms step_avg:171.60ms
step:1163/1530 train_loss:3.3765 train_time:197864ms step_avg:171.61ms
step:1164/1530 train_loss:3.2816 train_time:198042ms step_avg:171.61ms
step:1165/1530 train_loss:3.2391 train_time:198218ms step_avg:171.62ms
step:1166/1530 train_loss:3.3811 train_time:198397ms step_avg:171.62ms
step:1167/1530 train_loss:3.3992 train_time:198572ms step_avg:171.63ms
step:1168/1530 train_loss:3.7123 train_time:198748ms step_avg:171.63ms
step:1169/1530 train_loss:3.3631 train_time:198926ms step_avg:171.64ms
step:1170/1530 train_loss:3.3848 train_time:199102ms step_avg:171.64ms
step:1171/1530 train_loss:3.3207 train_time:199280ms step_avg:171.65ms
step:1172/1530 train_loss:3.4138 train_time:199455ms step_avg:171.65ms
step:1173/1530 train_loss:3.5272 train_time:199636ms step_avg:171.66ms
step:1174/1530 train_loss:3.3740 train_time:199820ms step_avg:171.67ms
step:1175/1530 train_loss:3.3527 train_time:199999ms step_avg:171.67ms
step:1176/1530 train_loss:3.4130 train_time:200180ms step_avg:171.68ms
step:1177/1530 train_loss:3.4410 train_time:200361ms step_avg:171.69ms
step:1178/1530 train_loss:3.4871 train_time:200538ms step_avg:171.69ms
step:1179/1530 train_loss:3.3889 train_time:200713ms step_avg:171.70ms
step:1180/1530 train_loss:3.3388 train_time:200900ms step_avg:171.71ms
step:1181/1530 train_loss:3.3270 train_time:201078ms step_avg:171.71ms
step:1182/1530 train_loss:3.3574 train_time:201255ms step_avg:171.72ms
step:1183/1530 train_loss:3.3258 train_time:201430ms step_avg:171.72ms
step:1184/1530 train_loss:3.5023 train_time:201608ms step_avg:171.73ms
step:1185/1530 train_loss:3.5320 train_time:201789ms step_avg:171.74ms
step:1186/1530 train_loss:3.3601 train_time:201968ms step_avg:171.74ms
step:1187/1530 train_loss:3.4065 train_time:202154ms step_avg:171.75ms
step:1188/1530 train_loss:3.4332 train_time:202330ms step_avg:171.76ms
step:1189/1530 train_loss:3.2641 train_time:202511ms step_avg:171.76ms
step:1190/1530 train_loss:3.4362 train_time:202689ms step_avg:171.77ms
step:1191/1530 train_loss:3.5688 train_time:202870ms step_avg:171.78ms
step:1192/1530 train_loss:3.3804 train_time:203045ms step_avg:171.78ms
step:1193/1530 train_loss:3.2691 train_time:203221ms step_avg:171.78ms
step:1194/1530 train_loss:3.5437 train_time:203398ms step_avg:171.79ms
step:1195/1530 train_loss:3.3580 train_time:203580ms step_avg:171.80ms
step:1196/1530 train_loss:3.3749 train_time:203768ms step_avg:171.81ms
step:1197/1530 train_loss:3.2811 train_time:203948ms step_avg:171.82ms
step:1198/1530 train_loss:3.2941 train_time:204134ms step_avg:171.83ms
step:1199/1530 train_loss:3.3330 train_time:204314ms step_avg:171.84ms
step:1200/1530 train_loss:3.4393 train_time:204493ms step_avg:171.84ms
step:1201/1530 train_loss:3.4718 train_time:204671ms step_avg:171.85ms
step:1202/1530 train_loss:3.6288 train_time:204861ms step_avg:171.86ms
step:1203/1530 train_loss:3.3915 train_time:205041ms step_avg:171.87ms
step:1204/1530 train_loss:3.2953 train_time:205222ms step_avg:171.88ms
step:1205/1530 train_loss:3.4272 train_time:205399ms step_avg:171.88ms
step:1206/1530 train_loss:3.4647 train_time:205575ms step_avg:171.89ms
step:1207/1530 train_loss:3.5045 train_time:205753ms step_avg:171.89ms
step:1208/1530 train_loss:3.3878 train_time:205929ms step_avg:171.89ms
step:1209/1530 train_loss:3.2367 train_time:206109ms step_avg:171.90ms
step:1210/1530 train_loss:3.2919 train_time:206289ms step_avg:171.91ms
step:1211/1530 train_loss:3.3876 train_time:206468ms step_avg:171.91ms
step:1212/1530 train_loss:3.3841 train_time:206646ms step_avg:171.92ms
step:1213/1530 train_loss:3.4053 train_time:206826ms step_avg:171.93ms
step:1214/1530 train_loss:3.2391 train_time:207007ms step_avg:171.93ms
step:1215/1530 train_loss:3.3874 train_time:207183ms step_avg:171.94ms
step:1216/1530 train_loss:3.3203 train_time:207361ms step_avg:171.94ms
step:1217/1530 train_loss:3.3088 train_time:207538ms step_avg:171.95ms
step:1218/1530 train_loss:3.3990 train_time:207716ms step_avg:171.95ms
step:1219/1530 train_loss:3.2396 train_time:207900ms step_avg:171.96ms
step:1220/1530 train_loss:3.4639 train_time:208076ms step_avg:171.96ms
step:1221/1530 train_loss:3.4954 train_time:208251ms step_avg:171.97ms
step:1222/1530 train_loss:3.4272 train_time:208425ms step_avg:171.97ms
step:1223/1530 train_loss:3.2862 train_time:208604ms step_avg:171.97ms
step:1224/1530 train_loss:3.2457 train_time:208786ms step_avg:171.98ms
step:1225/1530 train_loss:3.3575 train_time:208964ms step_avg:171.99ms
step:1226/1530 train_loss:3.3213 train_time:209145ms step_avg:171.99ms
step:1227/1530 train_loss:3.2659 train_time:209324ms step_avg:172.00ms
step:1228/1530 train_loss:3.4392 train_time:209499ms step_avg:172.00ms
step:1229/1530 train_loss:3.3624 train_time:209679ms step_avg:172.01ms
step:1230/1530 train_loss:3.3892 train_time:209863ms step_avg:172.02ms
step:1231/1530 train_loss:3.5673 train_time:210043ms step_avg:172.03ms
step:1232/1530 train_loss:3.4894 train_time:210222ms step_avg:172.03ms
step:1233/1530 train_loss:3.4198 train_time:210396ms step_avg:172.03ms
step:1234/1530 train_loss:3.5782 train_time:210574ms step_avg:172.04ms
step:1235/1530 train_loss:3.3111 train_time:210757ms step_avg:172.05ms
step:1236/1530 train_loss:3.2816 train_time:210933ms step_avg:172.05ms
step:1237/1530 train_loss:3.2654 train_time:211110ms step_avg:172.05ms
step:1238/1530 train_loss:3.2668 train_time:211294ms step_avg:172.06ms
step:1239/1530 train_loss:3.3232 train_time:211472ms step_avg:172.07ms
step:1240/1530 train_loss:3.3706 train_time:211649ms step_avg:172.07ms
step:1241/1530 train_loss:3.4167 train_time:211828ms step_avg:172.08ms
step:1242/1530 train_loss:3.2938 train_time:212006ms step_avg:172.08ms
step:1243/1530 train_loss:3.3953 train_time:212186ms step_avg:172.09ms
step:1244/1530 train_loss:3.3946 train_time:212361ms step_avg:172.09ms
step:1245/1530 train_loss:3.4010 train_time:212538ms step_avg:172.10ms
step:1246/1530 train_loss:3.2406 train_time:212714ms step_avg:172.10ms
step:1247/1530 train_loss:3.3665 train_time:212889ms step_avg:172.10ms
step:1248/1530 train_loss:3.4172 train_time:213066ms step_avg:172.11ms
step:1249/1530 train_loss:3.4145 train_time:213245ms step_avg:172.11ms
step:1250/1530 train_loss:3.2957 train_time:213424ms step_avg:172.12ms
step:1250/1530 val_loss:3.3467 train_time:213478ms step_avg:172.16ms
step:1251/1530 train_loss:3.4806 train_time:213613ms step_avg:172.13ms
step:1252/1530 train_loss:3.3542 train_time:213789ms step_avg:172.13ms
step:1253/1530 train_loss:3.3010 train_time:213967ms step_avg:172.14ms
step:1254/1530 train_loss:3.4065 train_time:214148ms step_avg:172.14ms
step:1255/1530 train_loss:3.5062 train_time:214337ms step_avg:172.16ms
step:1256/1530 train_loss:3.2944 train_time:214519ms step_avg:172.17ms
step:1257/1530 train_loss:3.3685 train_time:214696ms step_avg:172.17ms
step:1258/1530 train_loss:3.3550 train_time:214879ms step_avg:172.18ms
step:1259/1530 train_loss:3.3228 train_time:215056ms step_avg:172.18ms
step:1260/1530 train_loss:3.2010 train_time:215233ms step_avg:172.19ms
step:1261/1530 train_loss:3.2960 train_time:215412ms step_avg:172.19ms
step:1262/1530 train_loss:3.3183 train_time:215593ms step_avg:172.20ms
step:1263/1530 train_loss:3.2316 train_time:215773ms step_avg:172.21ms
step:1264/1530 train_loss:3.4364 train_time:215948ms step_avg:172.21ms
step:1265/1530 train_loss:3.4208 train_time:216122ms step_avg:172.21ms
step:1266/1530 train_loss:3.4336 train_time:216302ms step_avg:172.22ms
step:1267/1530 train_loss:3.3642 train_time:216485ms step_avg:172.22ms
step:1268/1530 train_loss:3.4038 train_time:216666ms step_avg:172.23ms
step:1269/1530 train_loss:3.2429 train_time:216854ms step_avg:172.24ms
step:1270/1530 train_loss:3.0954 train_time:217033ms step_avg:172.25ms
step:1271/1530 train_loss:3.3941 train_time:217214ms step_avg:172.25ms
step:1272/1530 train_loss:3.3463 train_time:217389ms step_avg:172.26ms
step:1273/1530 train_loss:3.3643 train_time:217569ms step_avg:172.26ms
step:1274/1530 train_loss:3.3538 train_time:217751ms step_avg:172.27ms
step:1275/1530 train_loss:3.4228 train_time:217927ms step_avg:172.27ms
step:1276/1530 train_loss:3.4647 train_time:218102ms step_avg:172.28ms
step:1277/1530 train_loss:3.4031 train_time:218282ms step_avg:172.28ms
step:1278/1530 train_loss:3.3979 train_time:218459ms step_avg:172.29ms
step:1279/1530 train_loss:3.2568 train_time:218640ms step_avg:172.29ms
step:1280/1530 train_loss:3.3554 train_time:218824ms step_avg:172.30ms
step:1281/1530 train_loss:3.4164 train_time:219001ms step_avg:172.31ms
step:1282/1530 train_loss:3.4599 train_time:219177ms step_avg:172.31ms
step:1283/1530 train_loss:3.3217 train_time:219358ms step_avg:172.32ms
step:1284/1530 train_loss:3.3577 train_time:219537ms step_avg:172.32ms
step:1285/1530 train_loss:3.3536 train_time:219715ms step_avg:172.33ms
step:1286/1530 train_loss:3.3236 train_time:219891ms step_avg:172.33ms
step:1287/1530 train_loss:3.4805 train_time:220069ms step_avg:172.33ms
step:1288/1530 train_loss:3.2877 train_time:220250ms step_avg:172.34ms
step:1289/1530 train_loss:3.3774 train_time:220436ms step_avg:172.35ms
step:1290/1530 train_loss:3.4510 train_time:220620ms step_avg:172.36ms
step:1291/1530 train_loss:3.3738 train_time:220800ms step_avg:172.37ms
step:1292/1530 train_loss:3.4713 train_time:220982ms step_avg:172.37ms
step:1293/1530 train_loss:3.5080 train_time:221162ms step_avg:172.38ms
step:1294/1530 train_loss:3.4495 train_time:221342ms step_avg:172.38ms
step:1295/1530 train_loss:3.2783 train_time:221521ms step_avg:172.39ms
step:1296/1530 train_loss:3.3708 train_time:221704ms step_avg:172.40ms
step:1297/1530 train_loss:3.2696 train_time:221886ms step_avg:172.41ms
step:1298/1530 train_loss:3.2600 train_time:222067ms step_avg:172.41ms
step:1299/1530 train_loss:3.3897 train_time:222245ms step_avg:172.42ms
step:1300/1530 train_loss:3.3948 train_time:222420ms step_avg:172.42ms
step:1301/1530 train_loss:3.3986 train_time:222597ms step_avg:172.42ms
step:1302/1530 train_loss:3.5719 train_time:222780ms step_avg:172.43ms
step:1303/1530 train_loss:3.2956 train_time:222962ms step_avg:172.44ms
step:1304/1530 train_loss:3.5027 train_time:223142ms step_avg:172.44ms
step:1305/1530 train_loss:3.2510 train_time:223319ms step_avg:172.45ms
step:1306/1530 train_loss:3.4420 train_time:223501ms step_avg:172.45ms
step:1307/1530 train_loss:3.4476 train_time:223676ms step_avg:172.46ms
step:1308/1530 train_loss:3.2763 train_time:223855ms step_avg:172.46ms
step:1309/1530 train_loss:3.3052 train_time:224035ms step_avg:172.47ms
step:1310/1530 train_loss:3.2779 train_time:224212ms step_avg:172.47ms
step:1311/1530 train_loss:3.2892 train_time:224389ms step_avg:172.47ms
step:1312/1530 train_loss:3.3682 train_time:224569ms step_avg:172.48ms
step:1313/1530 train_loss:3.3368 train_time:224745ms step_avg:172.48ms
step:1314/1530 train_loss:3.0330 train_time:224928ms step_avg:172.49ms
step:1315/1530 train_loss:3.2676 train_time:225106ms step_avg:172.49ms
step:1316/1530 train_loss:3.3908 train_time:225282ms step_avg:172.50ms
step:1317/1530 train_loss:3.4141 train_time:225461ms step_avg:172.50ms
step:1318/1530 train_loss:3.2983 train_time:225647ms step_avg:172.51ms
step:1319/1530 train_loss:3.4248 train_time:225827ms step_avg:172.52ms
step:1320/1530 train_loss:3.4518 train_time:226009ms step_avg:172.53ms
step:1321/1530 train_loss:3.3591 train_time:226188ms step_avg:172.53ms
step:1322/1530 train_loss:3.3182 train_time:226500ms step_avg:172.64ms
step:1323/1530 train_loss:3.3136 train_time:226691ms step_avg:172.65ms
step:1324/1530 train_loss:3.4297 train_time:226871ms step_avg:172.66ms
step:1325/1530 train_loss:3.4866 train_time:227055ms step_avg:172.67ms
step:1326/1530 train_loss:3.2035 train_time:227236ms step_avg:172.67ms
step:1327/1530 train_loss:3.1614 train_time:227413ms step_avg:172.67ms
step:1328/1530 train_loss:3.4833 train_time:227591ms step_avg:172.68ms
step:1329/1530 train_loss:3.2901 train_time:227937ms step_avg:172.81ms
step:1330/1530 train_loss:3.4207 train_time:228119ms step_avg:172.82ms
step:1331/1530 train_loss:3.3249 train_time:228295ms step_avg:172.82ms
step:1332/1530 train_loss:3.7333 train_time:228476ms step_avg:172.83ms
step:1333/1530 train_loss:3.4727 train_time:228656ms step_avg:172.83ms
step:1334/1530 train_loss:3.3645 train_time:228835ms step_avg:172.84ms
step:1335/1530 train_loss:3.2834 train_time:229014ms step_avg:172.84ms
step:1336/1530 train_loss:3.2913 train_time:229197ms step_avg:172.85ms
step:1337/1530 train_loss:3.5431 train_time:229378ms step_avg:172.85ms
step:1338/1530 train_loss:3.5173 train_time:229559ms step_avg:172.86ms
step:1339/1530 train_loss:3.3313 train_time:229739ms step_avg:172.87ms
step:1340/1530 train_loss:3.2767 train_time:229918ms step_avg:172.87ms
step:1341/1530 train_loss:3.5823 train_time:230095ms step_avg:172.87ms
step:1342/1530 train_loss:3.3464 train_time:230276ms step_avg:172.88ms
step:1343/1530 train_loss:3.3573 train_time:230453ms step_avg:172.88ms
step:1344/1530 train_loss:3.4089 train_time:230633ms step_avg:172.89ms
step:1345/1530 train_loss:3.3745 train_time:230814ms step_avg:172.89ms
step:1346/1530 train_loss:3.2922 train_time:230990ms step_avg:172.90ms
step:1347/1530 train_loss:3.2733 train_time:231167ms step_avg:172.90ms
step:1348/1530 train_loss:3.3410 train_time:231343ms step_avg:172.90ms
step:1349/1530 train_loss:3.2685 train_time:231519ms step_avg:172.90ms
step:1350/1530 train_loss:3.3856 train_time:231700ms step_avg:172.91ms
step:1351/1530 train_loss:3.2353 train_time:231876ms step_avg:172.91ms
step:1352/1530 train_loss:3.3027 train_time:232055ms step_avg:172.92ms
step:1353/1530 train_loss:3.3935 train_time:232235ms step_avg:172.92ms
step:1354/1530 train_loss:3.2545 train_time:232411ms step_avg:172.93ms
step:1355/1530 train_loss:3.1859 train_time:232588ms step_avg:172.93ms
step:1356/1530 train_loss:3.5043 train_time:232767ms step_avg:172.93ms
step:1357/1530 train_loss:3.4170 train_time:232948ms step_avg:172.94ms
step:1358/1530 train_loss:3.1789 train_time:233125ms step_avg:172.94ms
step:1359/1530 train_loss:3.4367 train_time:233301ms step_avg:172.94ms
step:1360/1530 train_loss:3.3417 train_time:233482ms step_avg:172.95ms
step:1361/1530 train_loss:3.1196 train_time:233667ms step_avg:172.96ms
step:1362/1530 train_loss:3.3842 train_time:233848ms step_avg:172.96ms
step:1363/1530 train_loss:3.2765 train_time:234035ms step_avg:172.97ms
step:1364/1530 train_loss:3.2948 train_time:234211ms step_avg:172.98ms
step:1365/1530 train_loss:3.3062 train_time:234387ms step_avg:172.98ms
step:1366/1530 train_loss:3.4174 train_time:234567ms step_avg:172.98ms
step:1367/1530 train_loss:3.3913 train_time:234747ms step_avg:172.99ms
step:1368/1530 train_loss:3.3376 train_time:234927ms step_avg:172.99ms
step:1369/1530 train_loss:3.2706 train_time:235115ms step_avg:173.01ms
step:1370/1530 train_loss:3.6017 train_time:235295ms step_avg:173.01ms
step:1371/1530 train_loss:3.3060 train_time:235476ms step_avg:173.02ms
step:1372/1530 train_loss:3.3698 train_time:235660ms step_avg:173.02ms
step:1373/1530 train_loss:3.3615 train_time:235839ms step_avg:173.03ms
step:1374/1530 train_loss:3.1449 train_time:236018ms step_avg:173.03ms
step:1375/1530 train_loss:3.5344 train_time:236197ms step_avg:173.04ms
step:1375/1530 val_loss:3.3048 train_time:236248ms step_avg:173.08ms
step:1376/1530 train_loss:3.3416 train_time:236376ms step_avg:173.04ms
step:1377/1530 train_loss:3.4729 train_time:236554ms step_avg:173.05ms
step:1378/1530 train_loss:3.4555 train_time:236733ms step_avg:173.05ms
step:1379/1530 train_loss:3.1124 train_time:236914ms step_avg:173.06ms
step:1380/1530 train_loss:3.3087 train_time:237094ms step_avg:173.06ms
step:1381/1530 train_loss:3.6895 train_time:237281ms step_avg:173.07ms
step:1382/1530 train_loss:3.2064 train_time:237459ms step_avg:173.08ms
step:1383/1530 train_loss:3.3860 train_time:237642ms step_avg:173.08ms
step:1384/1530 train_loss:3.4682 train_time:237823ms step_avg:173.09ms
step:1385/1530 train_loss:3.3991 train_time:237998ms step_avg:173.09ms
step:1386/1530 train_loss:3.3370 train_time:238177ms step_avg:173.09ms
step:1387/1530 train_loss:3.1960 train_time:238354ms step_avg:173.10ms
step:1388/1530 train_loss:3.3408 train_time:238532ms step_avg:173.10ms
step:1389/1530 train_loss:3.3116 train_time:238711ms step_avg:173.10ms
step:1390/1530 train_loss:3.5600 train_time:238888ms step_avg:173.11ms
step:1391/1530 train_loss:3.2877 train_time:239066ms step_avg:173.11ms
step:1392/1530 train_loss:3.2805 train_time:239246ms step_avg:173.12ms
step:1393/1530 train_loss:3.2353 train_time:239425ms step_avg:173.12ms
step:1394/1530 train_loss:3.4950 train_time:239603ms step_avg:173.12ms
step:1395/1530 train_loss:3.3838 train_time:239781ms step_avg:173.13ms
step:1396/1530 train_loss:3.3927 train_time:239959ms step_avg:173.13ms
step:1397/1530 train_loss:3.3028 train_time:240136ms step_avg:173.13ms
step:1398/1530 train_loss:3.2475 train_time:240310ms step_avg:173.13ms
step:1399/1530 train_loss:3.3097 train_time:240488ms step_avg:173.14ms
step:1400/1530 train_loss:3.3120 train_time:240670ms step_avg:173.14ms
step:1401/1530 train_loss:3.3394 train_time:240846ms step_avg:173.15ms
step:1402/1530 train_loss:3.2906 train_time:241025ms step_avg:173.15ms
step:1403/1530 train_loss:3.4862 train_time:241210ms step_avg:173.16ms
step:1404/1530 train_loss:3.2723 train_time:241386ms step_avg:173.16ms
step:1405/1530 train_loss:3.3108 train_time:241568ms step_avg:173.17ms
step:1406/1530 train_loss:3.3066 train_time:241750ms step_avg:173.17ms
step:1407/1530 train_loss:3.1682 train_time:241927ms step_avg:173.18ms
step:1408/1530 train_loss:3.3059 train_time:242106ms step_avg:173.18ms
step:1409/1530 train_loss:3.2938 train_time:242294ms step_avg:173.19ms
step:1410/1530 train_loss:3.2811 train_time:242472ms step_avg:173.19ms
step:1411/1530 train_loss:3.3596 train_time:242649ms step_avg:173.20ms
step:1412/1530 train_loss:3.3294 train_time:242827ms step_avg:173.20ms
step:1413/1530 train_loss:3.3541 train_time:243007ms step_avg:173.21ms
step:1414/1530 train_loss:3.3221 train_time:243188ms step_avg:173.21ms
step:1415/1530 train_loss:3.3963 train_time:243373ms step_avg:173.22ms
step:1416/1530 train_loss:3.2227 train_time:243562ms step_avg:173.23ms
step:1417/1530 train_loss:3.2740 train_time:243745ms step_avg:173.24ms
step:1418/1530 train_loss:3.3834 train_time:243924ms step_avg:173.24ms
step:1419/1530 train_loss:3.3374 train_time:244107ms step_avg:173.25ms
step:1420/1530 train_loss:3.3550 train_time:244288ms step_avg:173.25ms
step:1421/1530 train_loss:3.3631 train_time:244468ms step_avg:173.26ms
step:1422/1530 train_loss:3.3268 train_time:244646ms step_avg:173.26ms
step:1423/1530 train_loss:3.3069 train_time:244826ms step_avg:173.27ms
step:1424/1530 train_loss:3.3280 train_time:245009ms step_avg:173.27ms
step:1425/1530 train_loss:3.1832 train_time:245195ms step_avg:173.28ms
step:1426/1530 train_loss:3.3165 train_time:245371ms step_avg:173.28ms
step:1427/1530 train_loss:3.2785 train_time:245554ms step_avg:173.29ms
step:1428/1530 train_loss:3.3671 train_time:245731ms step_avg:173.29ms
step:1429/1530 train_loss:3.3491 train_time:245907ms step_avg:173.30ms
step:1430/1530 train_loss:3.2528 train_time:246089ms step_avg:173.30ms
step:1431/1530 train_loss:3.3199 train_time:246271ms step_avg:173.31ms
step:1432/1530 train_loss:3.3332 train_time:246453ms step_avg:173.31ms
step:1433/1530 train_loss:3.1281 train_time:246637ms step_avg:173.32ms
step:1434/1530 train_loss:3.2798 train_time:246822ms step_avg:173.33ms
step:1435/1530 train_loss:3.1099 train_time:247003ms step_avg:173.34ms
step:1436/1530 train_loss:3.2252 train_time:247182ms step_avg:173.34ms
step:1437/1530 train_loss:3.3995 train_time:247360ms step_avg:173.34ms
step:1438/1530 train_loss:3.3771 train_time:247537ms step_avg:173.34ms
step:1439/1530 train_loss:3.3084 train_time:247716ms step_avg:173.35ms
step:1440/1530 train_loss:3.1866 train_time:247892ms step_avg:173.35ms
step:1441/1530 train_loss:3.3317 train_time:248071ms step_avg:173.35ms
step:1442/1530 train_loss:3.3815 train_time:248255ms step_avg:173.36ms
step:1443/1530 train_loss:3.4885 train_time:248444ms step_avg:173.37ms
step:1444/1530 train_loss:3.4439 train_time:248621ms step_avg:173.38ms
step:1445/1530 train_loss:3.3314 train_time:248798ms step_avg:173.38ms
step:1446/1530 train_loss:3.1931 train_time:248977ms step_avg:173.38ms
step:1447/1530 train_loss:3.2923 train_time:249157ms step_avg:173.39ms
step:1448/1530 train_loss:3.2860 train_time:249335ms step_avg:173.39ms
step:1449/1530 train_loss:3.3889 train_time:249512ms step_avg:173.39ms
step:1450/1530 train_loss:3.3799 train_time:249693ms step_avg:173.40ms
step:1451/1530 train_loss:3.1952 train_time:249871ms step_avg:173.40ms
step:1452/1530 train_loss:3.3213 train_time:250050ms step_avg:173.41ms
step:1453/1530 train_loss:3.2524 train_time:250225ms step_avg:173.41ms
step:1454/1530 train_loss:3.2855 train_time:250403ms step_avg:173.41ms
step:1455/1530 train_loss:3.3230 train_time:250584ms step_avg:173.41ms
step:1456/1530 train_loss:3.2796 train_time:250761ms step_avg:173.42ms
step:1457/1530 train_loss:3.1482 train_time:250939ms step_avg:173.42ms
step:1458/1530 train_loss:3.4189 train_time:251117ms step_avg:173.42ms
step:1459/1530 train_loss:3.2625 train_time:251299ms step_avg:173.43ms
step:1460/1530 train_loss:3.3046 train_time:251478ms step_avg:173.43ms
step:1461/1530 train_loss:3.4205 train_time:251659ms step_avg:173.44ms
step:1462/1530 train_loss:3.2539 train_time:251835ms step_avg:173.44ms
step:1463/1530 train_loss:3.4588 train_time:252017ms step_avg:173.45ms
step:1464/1530 train_loss:3.3558 train_time:252196ms step_avg:173.45ms
step:1465/1530 train_loss:3.3504 train_time:252378ms step_avg:173.46ms
step:1466/1530 train_loss:3.2775 train_time:252556ms step_avg:173.46ms
step:1467/1530 train_loss:3.3849 train_time:252736ms step_avg:173.46ms
step:1468/1530 train_loss:3.2816 train_time:252912ms step_avg:173.47ms
step:1469/1530 train_loss:3.2663 train_time:253093ms step_avg:173.47ms
step:1470/1530 train_loss:3.3292 train_time:253276ms step_avg:173.48ms
step:1471/1530 train_loss:3.2505 train_time:253462ms step_avg:173.49ms
step:1472/1530 train_loss:3.2392 train_time:253646ms step_avg:173.49ms
step:1473/1530 train_loss:3.4314 train_time:253823ms step_avg:173.50ms
step:1474/1530 train_loss:3.3055 train_time:254005ms step_avg:173.50ms
step:1475/1530 train_loss:3.1448 train_time:254190ms step_avg:173.51ms
step:1476/1530 train_loss:3.2590 train_time:254368ms step_avg:173.51ms
step:1477/1530 train_loss:3.2348 train_time:254556ms step_avg:173.52ms
step:1478/1530 train_loss:3.2995 train_time:254742ms step_avg:173.53ms
step:1479/1530 train_loss:3.3935 train_time:254924ms step_avg:173.54ms
step:1480/1530 train_loss:3.2677 train_time:255102ms step_avg:173.54ms
step:1481/1530 train_loss:3.4419 train_time:255284ms step_avg:173.54ms
step:1482/1530 train_loss:3.3602 train_time:255470ms step_avg:173.55ms
step:1483/1530 train_loss:3.2726 train_time:255662ms step_avg:173.57ms
step:1484/1530 train_loss:3.2551 train_time:255848ms step_avg:173.57ms
step:1485/1530 train_loss:3.2745 train_time:256028ms step_avg:173.58ms
step:1486/1530 train_loss:3.2187 train_time:256213ms step_avg:173.59ms
step:1487/1530 train_loss:3.3354 train_time:256395ms step_avg:173.59ms
step:1488/1530 train_loss:3.2355 train_time:256575ms step_avg:173.60ms
step:1489/1530 train_loss:3.3063 train_time:256755ms step_avg:173.60ms
step:1490/1530 train_loss:3.2493 train_time:256936ms step_avg:173.61ms
step:1491/1530 train_loss:3.1513 train_time:257116ms step_avg:173.61ms
step:1492/1530 train_loss:3.2642 train_time:257296ms step_avg:173.61ms
step:1493/1530 train_loss:3.4291 train_time:257475ms step_avg:173.62ms
step:1494/1530 train_loss:3.2931 train_time:257654ms step_avg:173.62ms
step:1495/1530 train_loss:3.0233 train_time:257840ms step_avg:173.63ms
step:1496/1530 train_loss:3.3554 train_time:258024ms step_avg:173.64ms
step:1497/1530 train_loss:3.3068 train_time:258208ms step_avg:173.64ms
step:1498/1530 train_loss:3.3374 train_time:258393ms step_avg:173.65ms
step:1499/1530 train_loss:3.3107 train_time:258580ms step_avg:173.66ms
step:1500/1530 train_loss:3.2879 train_time:258771ms step_avg:173.67ms
step:1500/1530 val_loss:3.2734 train_time:258826ms step_avg:173.71ms
step:1501/1530 train_loss:3.0819 train_time:258962ms step_avg:173.68ms
step:1502/1530 train_loss:3.3531 train_time:259156ms step_avg:173.70ms
step:1503/1530 train_loss:3.2379 train_time:259336ms step_avg:173.70ms
step:1504/1530 train_loss:3.2453 train_time:259516ms step_avg:173.71ms
step:1505/1530 train_loss:3.2068 train_time:259696ms step_avg:173.71ms
step:1506/1530 train_loss:3.2737 train_time:259878ms step_avg:173.72ms
step:1507/1530 train_loss:3.1697 train_time:260075ms step_avg:173.73ms
step:1508/1530 train_loss:3.4738 train_time:260258ms step_avg:173.74ms
step:1509/1530 train_loss:3.2737 train_time:260436ms step_avg:173.74ms
step:1510/1530 train_loss:3.2655 train_time:260615ms step_avg:173.74ms
step:1511/1530 train_loss:3.4094 train_time:260926ms step_avg:173.83ms
step:1512/1530 train_loss:3.4163 train_time:261113ms step_avg:173.84ms
step:1513/1530 train_loss:3.2597 train_time:261296ms step_avg:173.85ms
step:1514/1530 train_loss:3.0778 train_time:261477ms step_avg:173.85ms
step:1515/1530 train_loss:3.2324 train_time:261658ms step_avg:173.86ms
step:1516/1530 train_loss:3.2476 train_time:261844ms step_avg:173.87ms
step:1517/1530 train_loss:3.2954 train_time:262026ms step_avg:173.87ms
step:1518/1530 train_loss:3.2006 train_time:262210ms step_avg:173.88ms
step:1519/1530 train_loss:3.4915 train_time:262544ms step_avg:173.99ms
step:1520/1530 train_loss:3.1187 train_time:262728ms step_avg:173.99ms
step:1521/1530 train_loss:3.1996 train_time:262903ms step_avg:173.99ms
step:1522/1530 train_loss:3.3478 train_time:263086ms step_avg:174.00ms
step:1523/1530 train_loss:3.2223 train_time:263264ms step_avg:174.00ms
step:1524/1530 train_loss:3.3373 train_time:263442ms step_avg:174.00ms
step:1525/1530 train_loss:3.3302 train_time:263631ms step_avg:174.01ms
step:1526/1530 train_loss:3.2719 train_time:263820ms step_avg:174.02ms
step:1527/1530 train_loss:3.2868 train_time:264001ms step_avg:174.03ms
step:1528/1530 train_loss:3.4010 train_time:264181ms step_avg:174.03ms
step:1529/1530 train_loss:3.4040 train_time:264358ms step_avg:174.03ms
step:1530/1530 train_loss:3.2304 train_time:264537ms step_avg:174.04ms
step:1530/1530 val_loss:3.2710 train_time:264592ms step_avg:174.07ms