records/120424_ValueEmbed/92b1541a-a6d6-4ddf-8932-ea4bcd31ba3b.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 02:44:46 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   38C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   30C    P0              99W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   30C    P0             118W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   37C    P0             118W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   38C    P0             111W / 700W |     23MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   29C    P0             110W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   38C    P0             127W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   29C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31645ms step_avg:nanms
step:2/1530 train_loss:10.0800 train_time:31756ms step_avg:nanms
step:3/1530 train_loss:8.3835 train_time:31917ms step_avg:nanms
step:4/1530 train_loss:7.5695 train_time:32077ms step_avg:nanms
step:5/1530 train_loss:7.4778 train_time:32237ms step_avg:nanms
step:6/1530 train_loss:6.9739 train_time:32398ms step_avg:nanms
step:7/1530 train_loss:7.2121 train_time:32559ms step_avg:nanms
step:8/1530 train_loss:6.7230 train_time:32721ms step_avg:nanms
step:9/1530 train_loss:6.6272 train_time:32881ms step_avg:nanms
step:10/1530 train_loss:6.5475 train_time:33042ms step_avg:nanms
step:11/1530 train_loss:6.4750 train_time:115ms step_avg:nanms
step:12/1530 train_loss:6.3663 train_time:275ms step_avg:nanms
step:13/1530 train_loss:6.2313 train_time:435ms step_avg:145.07ms
step:14/1530 train_loss:6.2046 train_time:595ms step_avg:148.86ms
step:15/1530 train_loss:6.1490 train_time:756ms step_avg:151.30ms
step:16/1530 train_loss:6.1130 train_time:917ms step_avg:152.85ms
step:17/1530 train_loss:6.1672 train_time:1077ms step_avg:153.87ms
step:18/1530 train_loss:5.9912 train_time:1238ms step_avg:154.79ms
step:19/1530 train_loss:5.9822 train_time:1399ms step_avg:155.46ms
step:20/1530 train_loss:5.6826 train_time:1560ms step_avg:155.97ms
step:21/1530 train_loss:5.9410 train_time:1721ms step_avg:156.41ms
step:22/1530 train_loss:6.1715 train_time:1880ms step_avg:156.69ms
step:23/1530 train_loss:5.8489 train_time:2040ms step_avg:156.93ms
step:24/1530 train_loss:5.9971 train_time:2200ms step_avg:157.16ms
step:25/1530 train_loss:5.6823 train_time:2361ms step_avg:157.41ms
step:26/1530 train_loss:5.6008 train_time:2522ms step_avg:157.62ms
step:27/1530 train_loss:5.7466 train_time:2682ms step_avg:157.76ms
step:28/1530 train_loss:5.4171 train_time:2841ms step_avg:157.84ms
step:29/1530 train_loss:5.6728 train_time:3001ms step_avg:157.97ms
step:30/1530 train_loss:5.4645 train_time:3162ms step_avg:158.08ms
step:31/1530 train_loss:5.4292 train_time:3321ms step_avg:158.16ms
step:32/1530 train_loss:5.2919 train_time:3482ms step_avg:158.26ms
step:33/1530 train_loss:5.5634 train_time:3641ms step_avg:158.31ms
step:34/1530 train_loss:5.4925 train_time:3802ms step_avg:158.40ms
step:35/1530 train_loss:5.6081 train_time:3961ms step_avg:158.45ms
step:36/1530 train_loss:5.5460 train_time:4123ms step_avg:158.56ms
step:37/1530 train_loss:5.4602 train_time:4282ms step_avg:158.60ms
step:38/1530 train_loss:5.3154 train_time:4441ms step_avg:158.62ms
step:39/1530 train_loss:5.3141 train_time:4602ms step_avg:158.68ms
step:40/1530 train_loss:5.2359 train_time:4762ms step_avg:158.72ms
step:41/1530 train_loss:5.2215 train_time:4922ms step_avg:158.76ms
step:42/1530 train_loss:5.1639 train_time:5081ms step_avg:158.78ms
step:43/1530 train_loss:5.2620 train_time:5241ms step_avg:158.83ms
step:44/1530 train_loss:5.2436 train_time:5402ms step_avg:158.88ms
step:45/1530 train_loss:5.3821 train_time:5561ms step_avg:158.89ms
step:46/1530 train_loss:5.1786 train_time:5722ms step_avg:158.94ms
step:47/1530 train_loss:5.0650 train_time:5881ms step_avg:158.93ms
step:48/1530 train_loss:5.2039 train_time:6040ms step_avg:158.95ms
step:49/1530 train_loss:5.1383 train_time:6200ms step_avg:158.98ms
step:50/1530 train_loss:5.2500 train_time:6360ms step_avg:159.01ms
step:51/1530 train_loss:5.1424 train_time:6521ms step_avg:159.05ms
step:52/1530 train_loss:5.0292 train_time:6681ms step_avg:159.06ms
step:53/1530 train_loss:5.1651 train_time:6841ms step_avg:159.10ms
step:54/1530 train_loss:5.0070 train_time:7001ms step_avg:159.12ms
step:55/1530 train_loss:5.4237 train_time:7162ms step_avg:159.15ms
step:56/1530 train_loss:5.0287 train_time:7322ms step_avg:159.17ms
step:57/1530 train_loss:4.8666 train_time:7482ms step_avg:159.19ms
step:58/1530 train_loss:5.0395 train_time:7642ms step_avg:159.21ms
step:59/1530 train_loss:5.0119 train_time:7802ms step_avg:159.22ms
step:60/1530 train_loss:5.1381 train_time:7962ms step_avg:159.25ms
step:61/1530 train_loss:4.8431 train_time:8123ms step_avg:159.27ms
step:62/1530 train_loss:4.9924 train_time:8282ms step_avg:159.27ms
step:63/1530 train_loss:4.9994 train_time:8442ms step_avg:159.29ms
step:64/1530 train_loss:4.9571 train_time:8602ms step_avg:159.30ms
step:65/1530 train_loss:4.8012 train_time:8762ms step_avg:159.31ms
step:66/1530 train_loss:4.9091 train_time:8921ms step_avg:159.31ms
step:67/1530 train_loss:4.8213 train_time:9082ms step_avg:159.33ms
step:68/1530 train_loss:5.0808 train_time:9242ms step_avg:159.35ms
step:69/1530 train_loss:4.7074 train_time:9402ms step_avg:159.36ms
step:70/1530 train_loss:4.8324 train_time:9563ms step_avg:159.38ms
step:71/1530 train_loss:4.9747 train_time:9722ms step_avg:159.38ms
step:72/1530 train_loss:4.8903 train_time:9882ms step_avg:159.39ms
step:73/1530 train_loss:4.7743 train_time:10042ms step_avg:159.39ms
step:74/1530 train_loss:4.9081 train_time:10202ms step_avg:159.40ms
step:75/1530 train_loss:4.8747 train_time:10362ms step_avg:159.41ms
step:76/1530 train_loss:4.7962 train_time:10522ms step_avg:159.42ms
step:77/1530 train_loss:4.9126 train_time:10682ms step_avg:159.43ms
step:78/1530 train_loss:5.1353 train_time:10841ms step_avg:159.43ms
step:79/1530 train_loss:4.8310 train_time:11002ms step_avg:159.44ms
step:80/1530 train_loss:4.8635 train_time:11161ms step_avg:159.44ms
step:81/1530 train_loss:4.6689 train_time:11323ms step_avg:159.47ms
step:82/1530 train_loss:4.8199 train_time:11483ms step_avg:159.48ms
step:83/1530 train_loss:4.7765 train_time:11642ms step_avg:159.48ms
step:84/1530 train_loss:4.7748 train_time:11802ms step_avg:159.49ms
step:85/1530 train_loss:4.6255 train_time:11962ms step_avg:159.50ms
step:86/1530 train_loss:4.8451 train_time:12122ms step_avg:159.50ms
step:87/1530 train_loss:4.7491 train_time:12281ms step_avg:159.49ms
step:88/1530 train_loss:4.7398 train_time:12441ms step_avg:159.51ms
step:89/1530 train_loss:4.6918 train_time:12603ms step_avg:159.53ms
step:90/1530 train_loss:4.6446 train_time:12762ms step_avg:159.53ms
step:91/1530 train_loss:4.6256 train_time:12923ms step_avg:159.54ms
step:92/1530 train_loss:4.7947 train_time:13083ms step_avg:159.54ms
step:93/1530 train_loss:4.6251 train_time:13242ms step_avg:159.55ms
step:94/1530 train_loss:4.6453 train_time:13402ms step_avg:159.54ms
step:95/1530 train_loss:4.6861 train_time:13562ms step_avg:159.56ms
step:96/1530 train_loss:4.5841 train_time:13723ms step_avg:159.57ms
step:97/1530 train_loss:4.6397 train_time:13883ms step_avg:159.57ms
step:98/1530 train_loss:4.5807 train_time:14042ms step_avg:159.57ms
step:99/1530 train_loss:4.6579 train_time:14202ms step_avg:159.58ms
step:100/1530 train_loss:4.6853 train_time:14363ms step_avg:159.58ms
step:101/1530 train_loss:4.5651 train_time:14522ms step_avg:159.58ms
step:102/1530 train_loss:4.7044 train_time:14682ms step_avg:159.58ms
step:103/1530 train_loss:4.5694 train_time:14841ms step_avg:159.58ms
step:104/1530 train_loss:4.5349 train_time:15001ms step_avg:159.59ms
step:105/1530 train_loss:4.5631 train_time:15161ms step_avg:159.59ms
step:106/1530 train_loss:4.6151 train_time:15322ms step_avg:159.61ms
step:107/1530 train_loss:4.4993 train_time:15482ms step_avg:159.61ms
step:108/1530 train_loss:4.3534 train_time:15642ms step_avg:159.61ms
step:109/1530 train_loss:4.4740 train_time:15802ms step_avg:159.62ms
step:110/1530 train_loss:4.4841 train_time:15962ms step_avg:159.62ms
step:111/1530 train_loss:4.4243 train_time:16122ms step_avg:159.63ms
step:112/1530 train_loss:4.5873 train_time:16282ms step_avg:159.63ms
step:113/1530 train_loss:4.4816 train_time:16442ms step_avg:159.63ms
step:114/1530 train_loss:4.3552 train_time:16602ms step_avg:159.63ms
step:115/1530 train_loss:4.5023 train_time:16764ms step_avg:159.65ms
step:116/1530 train_loss:4.4686 train_time:16929ms step_avg:159.71ms
step:117/1530 train_loss:4.3567 train_time:17094ms step_avg:159.76ms
step:118/1530 train_loss:4.5759 train_time:17258ms step_avg:159.80ms
step:119/1530 train_loss:4.4425 train_time:17422ms step_avg:159.83ms
step:120/1530 train_loss:4.3298 train_time:17586ms step_avg:159.88ms
step:121/1530 train_loss:4.2903 train_time:17749ms step_avg:159.90ms
step:122/1530 train_loss:4.4378 train_time:17915ms step_avg:159.95ms
step:123/1530 train_loss:4.2858 train_time:18078ms step_avg:159.98ms
step:124/1530 train_loss:4.5841 train_time:18242ms step_avg:160.02ms
step:125/1530 train_loss:4.4448 train_time:18405ms step_avg:160.05ms
step:125/1530 val_loss:4.3968 train_time:18452ms step_avg:160.45ms
step:126/1530 train_loss:4.4079 train_time:18572ms step_avg:160.10ms
step:127/1530 train_loss:4.4206 train_time:18738ms step_avg:160.15ms
step:128/1530 train_loss:4.3705 train_time:18901ms step_avg:160.18ms
step:129/1530 train_loss:4.6758 train_time:19066ms step_avg:160.22ms
step:130/1530 train_loss:4.3569 train_time:19231ms step_avg:160.26ms
step:131/1530 train_loss:4.3875 train_time:19394ms step_avg:160.28ms
step:132/1530 train_loss:4.3259 train_time:19558ms step_avg:160.31ms
step:133/1530 train_loss:4.4397 train_time:19722ms step_avg:160.34ms
step:134/1530 train_loss:4.2560 train_time:19885ms step_avg:160.37ms
step:135/1530 train_loss:4.4341 train_time:20050ms step_avg:160.40ms
step:136/1530 train_loss:4.1989 train_time:20214ms step_avg:160.43ms
step:137/1530 train_loss:4.3632 train_time:20378ms step_avg:160.46ms
step:138/1530 train_loss:4.2721 train_time:20543ms step_avg:160.49ms
step:139/1530 train_loss:4.3646 train_time:20707ms step_avg:160.52ms
step:140/1530 train_loss:4.4780 train_time:20871ms step_avg:160.55ms
step:141/1530 train_loss:4.3096 train_time:21035ms step_avg:160.57ms
step:142/1530 train_loss:4.2962 train_time:21199ms step_avg:160.60ms
step:143/1530 train_loss:4.2402 train_time:21363ms step_avg:160.63ms
step:144/1530 train_loss:4.3336 train_time:21527ms step_avg:160.65ms
step:145/1530 train_loss:4.2913 train_time:21691ms step_avg:160.68ms
step:146/1530 train_loss:4.1595 train_time:21854ms step_avg:160.69ms
step:147/1530 train_loss:4.3216 train_time:22018ms step_avg:160.71ms
step:148/1530 train_loss:4.3558 train_time:22180ms step_avg:160.73ms
step:149/1530 train_loss:4.2893 train_time:22343ms step_avg:160.74ms
step:150/1530 train_loss:4.4220 train_time:22508ms step_avg:160.77ms
step:151/1530 train_loss:4.2596 train_time:22671ms step_avg:160.79ms
step:152/1530 train_loss:4.2744 train_time:22835ms step_avg:160.81ms
step:153/1530 train_loss:4.3613 train_time:22999ms step_avg:160.83ms
step:154/1530 train_loss:4.3552 train_time:23162ms step_avg:160.85ms
step:155/1530 train_loss:4.2557 train_time:23327ms step_avg:160.87ms
step:156/1530 train_loss:4.3511 train_time:23490ms step_avg:160.89ms
step:157/1530 train_loss:4.4002 train_time:23653ms step_avg:160.91ms
step:158/1530 train_loss:4.2362 train_time:23817ms step_avg:160.92ms
step:159/1530 train_loss:4.2959 train_time:23980ms step_avg:160.94ms
step:160/1530 train_loss:4.1186 train_time:24143ms step_avg:160.95ms
step:161/1530 train_loss:4.3441 train_time:24308ms step_avg:160.98ms
step:162/1530 train_loss:4.3477 train_time:24472ms step_avg:161.00ms
step:163/1530 train_loss:4.3281 train_time:24635ms step_avg:161.01ms
step:164/1530 train_loss:4.1888 train_time:24799ms step_avg:161.03ms
step:165/1530 train_loss:4.2722 train_time:24963ms step_avg:161.05ms
step:166/1530 train_loss:4.3268 train_time:25126ms step_avg:161.07ms
step:167/1530 train_loss:4.1820 train_time:25291ms step_avg:161.09ms
step:168/1530 train_loss:4.2747 train_time:25454ms step_avg:161.10ms
step:169/1530 train_loss:4.1555 train_time:25617ms step_avg:161.12ms
step:170/1530 train_loss:4.0198 train_time:25781ms step_avg:161.13ms
step:171/1530 train_loss:4.1938 train_time:25945ms step_avg:161.15ms
step:172/1530 train_loss:4.2006 train_time:26109ms step_avg:161.17ms
step:173/1530 train_loss:4.2522 train_time:26272ms step_avg:161.18ms
step:174/1530 train_loss:4.3978 train_time:26435ms step_avg:161.19ms
step:175/1530 train_loss:4.2338 train_time:26597ms step_avg:161.19ms
step:176/1530 train_loss:4.0925 train_time:26760ms step_avg:161.20ms
step:177/1530 train_loss:4.0611 train_time:26924ms step_avg:161.22ms
step:178/1530 train_loss:4.1738 train_time:27087ms step_avg:161.23ms
step:179/1530 train_loss:4.1102 train_time:27249ms step_avg:161.24ms
step:180/1530 train_loss:4.1040 train_time:27412ms step_avg:161.25ms
step:181/1530 train_loss:4.2895 train_time:27575ms step_avg:161.26ms
step:182/1530 train_loss:4.1561 train_time:27737ms step_avg:161.26ms
step:183/1530 train_loss:4.1173 train_time:27900ms step_avg:161.27ms
step:184/1530 train_loss:4.1136 train_time:28062ms step_avg:161.28ms
step:185/1530 train_loss:4.1957 train_time:28224ms step_avg:161.28ms
step:186/1530 train_loss:4.1722 train_time:28388ms step_avg:161.29ms
step:187/1530 train_loss:4.2221 train_time:28550ms step_avg:161.30ms
step:188/1530 train_loss:4.1572 train_time:28849ms step_avg:162.07ms
step:189/1530 train_loss:4.1000 train_time:29177ms step_avg:163.00ms
step:190/1530 train_loss:4.2003 train_time:29339ms step_avg:162.99ms
step:191/1530 train_loss:4.0708 train_time:29503ms step_avg:163.00ms
step:192/1530 train_loss:4.0313 train_time:29666ms step_avg:163.00ms
step:193/1530 train_loss:4.2357 train_time:29829ms step_avg:163.00ms
step:194/1530 train_loss:4.1678 train_time:29992ms step_avg:163.00ms
step:195/1530 train_loss:4.3540 train_time:30154ms step_avg:162.99ms
step:196/1530 train_loss:4.1657 train_time:30316ms step_avg:162.99ms
step:197/1530 train_loss:4.0382 train_time:30479ms step_avg:162.99ms
step:198/1530 train_loss:4.1748 train_time:30642ms step_avg:162.99ms
step:199/1530 train_loss:4.0300 train_time:30804ms step_avg:162.98ms
step:200/1530 train_loss:4.0991 train_time:30968ms step_avg:162.99ms
step:201/1530 train_loss:4.0020 train_time:31131ms step_avg:162.99ms
step:202/1530 train_loss:4.2443 train_time:31293ms step_avg:162.99ms
step:203/1530 train_loss:4.0543 train_time:31456ms step_avg:162.98ms
step:204/1530 train_loss:4.1803 train_time:31618ms step_avg:162.98ms
step:205/1530 train_loss:4.2363 train_time:31780ms step_avg:162.97ms
step:206/1530 train_loss:3.9424 train_time:31943ms step_avg:162.97ms
step:207/1530 train_loss:4.0745 train_time:32106ms step_avg:162.97ms
step:208/1530 train_loss:4.0908 train_time:32268ms step_avg:162.97ms
step:209/1530 train_loss:4.2306 train_time:32431ms step_avg:162.97ms
step:210/1530 train_loss:4.1734 train_time:32594ms step_avg:162.97ms
step:211/1530 train_loss:4.0460 train_time:32755ms step_avg:162.96ms
step:212/1530 train_loss:4.1046 train_time:32918ms step_avg:162.96ms
step:213/1530 train_loss:4.0397 train_time:33081ms step_avg:162.96ms
step:214/1530 train_loss:4.1054 train_time:33243ms step_avg:162.96ms
step:215/1530 train_loss:3.9377 train_time:33407ms step_avg:162.96ms
step:216/1530 train_loss:3.9916 train_time:33569ms step_avg:162.96ms
step:217/1530 train_loss:3.9899 train_time:33732ms step_avg:162.96ms
step:218/1530 train_loss:4.0675 train_time:33894ms step_avg:162.95ms
step:219/1530 train_loss:4.0664 train_time:34057ms step_avg:162.95ms
step:220/1530 train_loss:4.0740 train_time:34218ms step_avg:162.94ms
step:221/1530 train_loss:4.0880 train_time:34382ms step_avg:162.95ms
step:222/1530 train_loss:3.9908 train_time:34545ms step_avg:162.95ms
step:223/1530 train_loss:3.9891 train_time:34710ms step_avg:162.96ms
step:224/1530 train_loss:4.2915 train_time:34873ms step_avg:162.96ms
step:225/1530 train_loss:3.9227 train_time:35036ms step_avg:162.96ms
step:226/1530 train_loss:3.9830 train_time:35198ms step_avg:162.95ms
step:227/1530 train_loss:3.9681 train_time:35361ms step_avg:162.96ms
step:228/1530 train_loss:4.1316 train_time:35526ms step_avg:162.96ms
step:229/1530 train_loss:3.9207 train_time:35693ms step_avg:162.98ms
step:230/1530 train_loss:4.0281 train_time:35858ms step_avg:162.99ms
step:231/1530 train_loss:3.8991 train_time:36024ms step_avg:163.00ms
step:232/1530 train_loss:3.9694 train_time:36190ms step_avg:163.02ms
step:233/1530 train_loss:4.0808 train_time:36355ms step_avg:163.03ms
step:234/1530 train_loss:4.0170 train_time:36520ms step_avg:163.04ms
step:235/1530 train_loss:3.8869 train_time:36688ms step_avg:163.06ms
step:236/1530 train_loss:4.0783 train_time:36853ms step_avg:163.07ms
step:237/1530 train_loss:4.0670 train_time:37019ms step_avg:163.08ms
step:238/1530 train_loss:3.9294 train_time:37186ms step_avg:163.10ms
step:239/1530 train_loss:4.0724 train_time:37352ms step_avg:163.11ms
step:240/1530 train_loss:4.1112 train_time:37517ms step_avg:163.12ms
step:241/1530 train_loss:3.9535 train_time:37683ms step_avg:163.13ms
step:242/1530 train_loss:4.1347 train_time:37850ms step_avg:163.15ms
step:243/1530 train_loss:4.0041 train_time:38015ms step_avg:163.15ms
step:244/1530 train_loss:4.0752 train_time:38181ms step_avg:163.17ms
step:245/1530 train_loss:4.1313 train_time:38347ms step_avg:163.18ms
step:246/1530 train_loss:4.0506 train_time:38513ms step_avg:163.19ms
step:247/1530 train_loss:4.0021 train_time:38679ms step_avg:163.20ms
step:248/1530 train_loss:4.0932 train_time:38845ms step_avg:163.21ms
step:249/1530 train_loss:3.9064 train_time:39011ms step_avg:163.22ms
step:250/1530 train_loss:3.9613 train_time:39176ms step_avg:163.23ms
step:250/1530 val_loss:3.9934 train_time:39224ms step_avg:163.43ms
step:251/1530 train_loss:4.0637 train_time:39345ms step_avg:163.26ms
step:252/1530 train_loss:4.1536 train_time:39511ms step_avg:163.27ms
step:253/1530 train_loss:3.9251 train_time:39677ms step_avg:163.28ms
step:254/1530 train_loss:3.8710 train_time:39844ms step_avg:163.29ms
step:255/1530 train_loss:4.0671 train_time:40009ms step_avg:163.30ms
step:256/1530 train_loss:3.9675 train_time:40174ms step_avg:163.31ms
step:257/1530 train_loss:3.9813 train_time:40341ms step_avg:163.32ms
step:258/1530 train_loss:3.9817 train_time:40506ms step_avg:163.33ms
step:259/1530 train_loss:4.0189 train_time:40673ms step_avg:163.34ms
step:260/1530 train_loss:4.0475 train_time:40840ms step_avg:163.36ms
step:261/1530 train_loss:4.0190 train_time:41005ms step_avg:163.37ms
step:262/1530 train_loss:3.9852 train_time:41171ms step_avg:163.38ms
step:263/1530 train_loss:3.8798 train_time:41338ms step_avg:163.39ms
step:264/1530 train_loss:3.9769 train_time:41504ms step_avg:163.40ms
step:265/1530 train_loss:3.8678 train_time:41670ms step_avg:163.41ms
step:266/1530 train_loss:3.9207 train_time:41836ms step_avg:163.42ms
step:267/1530 train_loss:3.9311 train_time:42002ms step_avg:163.43ms
step:268/1530 train_loss:3.9508 train_time:42168ms step_avg:163.44ms
step:269/1530 train_loss:3.8485 train_time:42335ms step_avg:163.45ms
step:270/1530 train_loss:4.0977 train_time:42502ms step_avg:163.47ms
step:271/1530 train_loss:3.9640 train_time:42668ms step_avg:163.48ms
step:272/1530 train_loss:3.9206 train_time:42835ms step_avg:163.49ms
step:273/1530 train_loss:3.9306 train_time:43000ms step_avg:163.50ms
step:274/1530 train_loss:4.0395 train_time:43166ms step_avg:163.51ms
step:275/1530 train_loss:4.0521 train_time:43332ms step_avg:163.52ms
step:276/1530 train_loss:4.2215 train_time:43498ms step_avg:163.53ms
step:277/1530 train_loss:4.0280 train_time:43665ms step_avg:163.54ms
step:278/1530 train_loss:4.0764 train_time:43830ms step_avg:163.54ms
step:279/1530 train_loss:3.9878 train_time:43996ms step_avg:163.55ms
step:280/1530 train_loss:4.1644 train_time:44164ms step_avg:163.57ms
step:281/1530 train_loss:3.9721 train_time:44329ms step_avg:163.58ms
step:282/1530 train_loss:3.9332 train_time:44496ms step_avg:163.59ms
step:283/1530 train_loss:3.8999 train_time:44663ms step_avg:163.60ms
step:284/1530 train_loss:4.0386 train_time:44829ms step_avg:163.61ms
step:285/1530 train_loss:4.0504 train_time:44995ms step_avg:163.62ms
step:286/1530 train_loss:4.0837 train_time:45163ms step_avg:163.63ms
step:287/1530 train_loss:3.8944 train_time:45329ms step_avg:163.64ms
step:288/1530 train_loss:4.0028 train_time:45494ms step_avg:163.65ms
step:289/1530 train_loss:3.8570 train_time:45659ms step_avg:163.65ms
step:290/1530 train_loss:3.8485 train_time:45824ms step_avg:163.66ms
step:291/1530 train_loss:3.9049 train_time:45991ms step_avg:163.67ms
step:292/1530 train_loss:3.8553 train_time:46156ms step_avg:163.67ms
step:293/1530 train_loss:3.8899 train_time:46322ms step_avg:163.68ms
step:294/1530 train_loss:3.9334 train_time:46487ms step_avg:163.69ms
step:295/1530 train_loss:3.8304 train_time:46652ms step_avg:163.69ms
step:296/1530 train_loss:3.8485 train_time:46817ms step_avg:163.70ms
step:297/1530 train_loss:3.8549 train_time:46982ms step_avg:163.70ms
step:298/1530 train_loss:3.9626 train_time:47147ms step_avg:163.70ms
step:299/1530 train_loss:3.8173 train_time:47311ms step_avg:163.71ms
step:300/1530 train_loss:3.9488 train_time:47475ms step_avg:163.71ms
step:301/1530 train_loss:3.9513 train_time:47641ms step_avg:163.71ms
step:302/1530 train_loss:3.9262 train_time:47806ms step_avg:163.72ms
step:303/1530 train_loss:3.9674 train_time:47970ms step_avg:163.72ms
step:304/1530 train_loss:3.9603 train_time:48136ms step_avg:163.73ms
step:305/1530 train_loss:4.4445 train_time:48302ms step_avg:163.73ms
step:306/1530 train_loss:3.9304 train_time:48467ms step_avg:163.74ms
step:307/1530 train_loss:3.8263 train_time:48631ms step_avg:163.74ms
step:308/1530 train_loss:3.9630 train_time:48797ms step_avg:163.75ms
step:309/1530 train_loss:3.8670 train_time:48963ms step_avg:163.76ms
step:310/1530 train_loss:4.0812 train_time:49128ms step_avg:163.76ms
step:311/1530 train_loss:3.9197 train_time:49292ms step_avg:163.76ms
step:312/1530 train_loss:3.8589 train_time:49458ms step_avg:163.77ms
step:313/1530 train_loss:3.9283 train_time:49624ms step_avg:163.78ms
step:314/1530 train_loss:4.0552 train_time:49789ms step_avg:163.78ms
step:315/1530 train_loss:3.9269 train_time:49954ms step_avg:163.79ms
step:316/1530 train_loss:3.7859 train_time:50120ms step_avg:163.79ms
step:317/1530 train_loss:3.8620 train_time:50285ms step_avg:163.80ms
step:318/1530 train_loss:3.9179 train_time:50450ms step_avg:163.80ms
step:319/1530 train_loss:3.8844 train_time:50615ms step_avg:163.80ms
step:320/1530 train_loss:4.0052 train_time:50781ms step_avg:163.81ms
step:321/1530 train_loss:3.9534 train_time:50946ms step_avg:163.81ms
step:322/1530 train_loss:3.9300 train_time:51110ms step_avg:163.81ms
step:323/1530 train_loss:3.9948 train_time:51276ms step_avg:163.82ms
step:324/1530 train_loss:3.9298 train_time:51442ms step_avg:163.83ms
step:325/1530 train_loss:4.0031 train_time:51606ms step_avg:163.83ms
step:326/1530 train_loss:3.8882 train_time:51773ms step_avg:163.84ms
step:327/1530 train_loss:4.3810 train_time:51938ms step_avg:163.84ms
step:328/1530 train_loss:4.0616 train_time:52103ms step_avg:163.85ms
step:329/1530 train_loss:3.7813 train_time:52268ms step_avg:163.85ms
step:330/1530 train_loss:3.7322 train_time:52434ms step_avg:163.86ms
step:331/1530 train_loss:3.9683 train_time:52600ms step_avg:163.86ms
step:332/1530 train_loss:3.8957 train_time:52765ms step_avg:163.87ms
step:333/1530 train_loss:3.8762 train_time:52929ms step_avg:163.87ms
step:334/1530 train_loss:3.8277 train_time:53094ms step_avg:163.87ms
step:335/1530 train_loss:4.0012 train_time:53261ms step_avg:163.88ms
step:336/1530 train_loss:3.9499 train_time:53425ms step_avg:163.88ms
step:337/1530 train_loss:4.4172 train_time:53591ms step_avg:163.89ms
step:338/1530 train_loss:3.9372 train_time:53757ms step_avg:163.89ms
step:339/1530 train_loss:3.8547 train_time:53923ms step_avg:163.90ms
step:340/1530 train_loss:3.9246 train_time:54088ms step_avg:163.90ms
step:341/1530 train_loss:3.8456 train_time:54255ms step_avg:163.91ms
step:342/1530 train_loss:3.8043 train_time:54423ms step_avg:163.92ms
step:343/1530 train_loss:3.8276 train_time:54591ms step_avg:163.94ms
step:344/1530 train_loss:3.9817 train_time:54759ms step_avg:163.95ms
step:345/1530 train_loss:3.8029 train_time:54928ms step_avg:163.97ms
step:346/1530 train_loss:3.7572 train_time:55096ms step_avg:163.98ms
step:347/1530 train_loss:3.7854 train_time:55266ms step_avg:163.99ms
step:348/1530 train_loss:3.8478 train_time:55432ms step_avg:164.00ms
step:349/1530 train_loss:3.8215 train_time:55602ms step_avg:164.02ms
step:350/1530 train_loss:3.5554 train_time:55771ms step_avg:164.03ms
step:351/1530 train_loss:3.8145 train_time:55941ms step_avg:164.05ms
step:352/1530 train_loss:4.1772 train_time:56108ms step_avg:164.06ms
step:353/1530 train_loss:3.6521 train_time:56275ms step_avg:164.07ms
step:354/1530 train_loss:3.9194 train_time:56443ms step_avg:164.08ms
step:355/1530 train_loss:3.7775 train_time:56610ms step_avg:164.09ms
step:356/1530 train_loss:3.8748 train_time:56779ms step_avg:164.10ms
step:357/1530 train_loss:3.7480 train_time:56948ms step_avg:164.11ms
step:358/1530 train_loss:3.8533 train_time:57116ms step_avg:164.13ms
step:359/1530 train_loss:3.7614 train_time:57285ms step_avg:164.14ms
step:360/1530 train_loss:3.4165 train_time:57455ms step_avg:164.16ms
step:361/1530 train_loss:4.0082 train_time:57623ms step_avg:164.17ms
step:362/1530 train_loss:3.9115 train_time:57791ms step_avg:164.18ms
step:363/1530 train_loss:3.8398 train_time:57959ms step_avg:164.19ms
step:364/1530 train_loss:3.7383 train_time:58128ms step_avg:164.20ms
step:365/1530 train_loss:3.9013 train_time:58296ms step_avg:164.21ms
step:366/1530 train_loss:3.8502 train_time:58465ms step_avg:164.23ms
step:367/1530 train_loss:3.8493 train_time:58632ms step_avg:164.23ms
step:368/1530 train_loss:3.8454 train_time:58800ms step_avg:164.24ms
step:369/1530 train_loss:3.7364 train_time:58968ms step_avg:164.26ms
step:370/1530 train_loss:3.8728 train_time:59135ms step_avg:164.26ms
step:371/1530 train_loss:3.7223 train_time:59303ms step_avg:164.28ms
step:372/1530 train_loss:3.6845 train_time:59472ms step_avg:164.29ms
step:373/1530 train_loss:3.8982 train_time:59640ms step_avg:164.30ms
step:374/1530 train_loss:3.8177 train_time:59807ms step_avg:164.31ms
step:375/1530 train_loss:3.7951 train_time:59975ms step_avg:164.32ms
step:375/1530 val_loss:3.8219 train_time:60024ms step_avg:164.45ms
step:376/1530 train_loss:3.8606 train_time:60145ms step_avg:164.33ms
step:377/1530 train_loss:3.7830 train_time:60448ms step_avg:164.71ms
step:378/1530 train_loss:3.8458 train_time:60624ms step_avg:164.74ms
step:379/1530 train_loss:3.8607 train_time:60948ms step_avg:165.17ms
step:380/1530 train_loss:3.9456 train_time:61115ms step_avg:165.18ms
step:381/1530 train_loss:3.8339 train_time:61282ms step_avg:165.18ms
step:382/1530 train_loss:3.7902 train_time:61451ms step_avg:165.19ms
step:383/1530 train_loss:3.7917 train_time:61619ms step_avg:165.20ms
step:384/1530 train_loss:3.8687 train_time:61785ms step_avg:165.20ms
step:385/1530 train_loss:3.7889 train_time:61953ms step_avg:165.21ms
step:386/1530 train_loss:3.8824 train_time:62120ms step_avg:165.21ms
step:387/1530 train_loss:4.0486 train_time:62288ms step_avg:165.22ms
step:388/1530 train_loss:3.7842 train_time:62455ms step_avg:165.23ms
step:389/1530 train_loss:3.7887 train_time:62622ms step_avg:165.23ms
step:390/1530 train_loss:3.8870 train_time:62792ms step_avg:165.24ms
step:391/1530 train_loss:3.8021 train_time:62959ms step_avg:165.25ms
step:392/1530 train_loss:3.9130 train_time:63127ms step_avg:165.25ms
step:393/1530 train_loss:3.7602 train_time:63296ms step_avg:165.26ms
step:394/1530 train_loss:3.8808 train_time:63463ms step_avg:165.27ms
step:395/1530 train_loss:3.6255 train_time:63631ms step_avg:165.28ms
step:396/1530 train_loss:3.8360 train_time:63799ms step_avg:165.28ms
step:397/1530 train_loss:3.8551 train_time:63967ms step_avg:165.29ms
step:398/1530 train_loss:3.8740 train_time:64134ms step_avg:165.29ms
step:399/1530 train_loss:3.7587 train_time:64300ms step_avg:165.30ms
step:400/1530 train_loss:3.8160 train_time:64469ms step_avg:165.30ms
step:401/1530 train_loss:3.9051 train_time:64636ms step_avg:165.31ms
step:402/1530 train_loss:3.8316 train_time:64804ms step_avg:165.32ms
step:403/1530 train_loss:3.9579 train_time:64972ms step_avg:165.32ms
step:404/1530 train_loss:3.6748 train_time:65138ms step_avg:165.33ms
step:405/1530 train_loss:3.7807 train_time:65306ms step_avg:165.33ms
step:406/1530 train_loss:4.0836 train_time:65474ms step_avg:165.34ms
step:407/1530 train_loss:3.7648 train_time:65640ms step_avg:165.34ms
step:408/1530 train_loss:3.8124 train_time:65809ms step_avg:165.35ms
step:409/1530 train_loss:3.8451 train_time:65975ms step_avg:165.35ms
step:410/1530 train_loss:3.7491 train_time:66142ms step_avg:165.35ms
step:411/1530 train_loss:3.7552 train_time:66310ms step_avg:165.36ms
step:412/1530 train_loss:4.1716 train_time:66477ms step_avg:165.37ms
step:413/1530 train_loss:3.7015 train_time:66643ms step_avg:165.37ms
step:414/1530 train_loss:4.0025 train_time:66812ms step_avg:165.38ms
step:415/1530 train_loss:3.7440 train_time:66979ms step_avg:165.38ms
step:416/1530 train_loss:3.7585 train_time:67146ms step_avg:165.38ms
step:417/1530 train_loss:3.9421 train_time:67314ms step_avg:165.39ms
step:418/1530 train_loss:3.6812 train_time:67481ms step_avg:165.39ms
step:419/1530 train_loss:3.7982 train_time:67646ms step_avg:165.39ms
step:420/1530 train_loss:3.6927 train_time:67815ms step_avg:165.40ms
step:421/1530 train_loss:3.6389 train_time:67981ms step_avg:165.40ms
step:422/1530 train_loss:3.7762 train_time:68149ms step_avg:165.41ms
step:423/1530 train_loss:3.8631 train_time:68316ms step_avg:165.41ms
step:424/1530 train_loss:3.6043 train_time:68482ms step_avg:165.42ms
step:425/1530 train_loss:3.7864 train_time:68651ms step_avg:165.42ms
step:426/1530 train_loss:3.6584 train_time:68818ms step_avg:165.43ms
step:427/1530 train_loss:3.8823 train_time:68986ms step_avg:165.43ms
step:428/1530 train_loss:3.8007 train_time:69154ms step_avg:165.44ms
step:429/1530 train_loss:3.7522 train_time:69320ms step_avg:165.44ms
step:430/1530 train_loss:3.6952 train_time:69488ms step_avg:165.45ms
step:431/1530 train_loss:3.6177 train_time:69655ms step_avg:165.45ms
step:432/1530 train_loss:3.7578 train_time:69823ms step_avg:165.46ms
step:433/1530 train_loss:3.8107 train_time:69991ms step_avg:165.46ms
step:434/1530 train_loss:3.7678 train_time:70157ms step_avg:165.47ms
step:435/1530 train_loss:3.7984 train_time:70325ms step_avg:165.47ms
step:436/1530 train_loss:3.8201 train_time:70493ms step_avg:165.48ms
step:437/1530 train_loss:3.7096 train_time:70659ms step_avg:165.48ms
step:438/1530 train_loss:3.6959 train_time:70825ms step_avg:165.48ms
step:439/1530 train_loss:3.7055 train_time:70994ms step_avg:165.49ms
step:440/1530 train_loss:3.8819 train_time:71160ms step_avg:165.49ms
step:441/1530 train_loss:3.7442 train_time:71327ms step_avg:165.49ms
step:442/1530 train_loss:3.7308 train_time:71496ms step_avg:165.50ms
step:443/1530 train_loss:3.6168 train_time:71663ms step_avg:165.50ms
step:444/1530 train_loss:3.9149 train_time:71831ms step_avg:165.51ms
step:445/1530 train_loss:3.8360 train_time:71998ms step_avg:165.51ms
step:446/1530 train_loss:3.8269 train_time:72165ms step_avg:165.52ms
step:447/1530 train_loss:3.7441 train_time:72332ms step_avg:165.52ms
step:448/1530 train_loss:3.8468 train_time:72500ms step_avg:165.52ms
step:449/1530 train_loss:3.6852 train_time:72668ms step_avg:165.53ms
step:450/1530 train_loss:3.7161 train_time:72835ms step_avg:165.53ms
step:451/1530 train_loss:3.5782 train_time:73002ms step_avg:165.54ms
step:452/1530 train_loss:3.7043 train_time:73169ms step_avg:165.54ms
step:453/1530 train_loss:3.6630 train_time:73336ms step_avg:165.54ms
step:454/1530 train_loss:3.6277 train_time:73503ms step_avg:165.55ms
step:455/1530 train_loss:3.8328 train_time:73673ms step_avg:165.56ms
step:456/1530 train_loss:3.7203 train_time:73842ms step_avg:165.56ms
step:457/1530 train_loss:3.7758 train_time:74013ms step_avg:165.58ms
step:458/1530 train_loss:3.8171 train_time:74183ms step_avg:165.59ms
step:459/1530 train_loss:3.6203 train_time:74353ms step_avg:165.60ms
step:460/1530 train_loss:3.7827 train_time:74522ms step_avg:165.60ms
step:461/1530 train_loss:3.6919 train_time:74694ms step_avg:165.62ms
step:462/1530 train_loss:3.7314 train_time:74863ms step_avg:165.63ms
step:463/1530 train_loss:3.7738 train_time:75033ms step_avg:165.64ms
step:464/1530 train_loss:3.7073 train_time:75202ms step_avg:165.64ms
step:465/1530 train_loss:3.7106 train_time:75372ms step_avg:165.65ms
step:466/1530 train_loss:3.7870 train_time:75542ms step_avg:165.66ms
step:467/1530 train_loss:3.8250 train_time:75715ms step_avg:165.68ms
step:468/1530 train_loss:3.7858 train_time:75884ms step_avg:165.69ms
step:469/1530 train_loss:3.6782 train_time:76053ms step_avg:165.69ms
step:470/1530 train_loss:3.7526 train_time:76224ms step_avg:165.70ms
step:471/1530 train_loss:3.8038 train_time:76394ms step_avg:165.71ms
step:472/1530 train_loss:3.7840 train_time:76564ms step_avg:165.72ms
step:473/1530 train_loss:3.7109 train_time:76733ms step_avg:165.73ms
step:474/1530 train_loss:3.5812 train_time:76903ms step_avg:165.74ms
step:475/1530 train_loss:4.0145 train_time:77073ms step_avg:165.75ms
step:476/1530 train_loss:3.7447 train_time:77242ms step_avg:165.75ms
step:477/1530 train_loss:3.5803 train_time:77414ms step_avg:165.77ms
step:478/1530 train_loss:3.8180 train_time:77583ms step_avg:165.77ms
step:479/1530 train_loss:3.7655 train_time:77753ms step_avg:165.78ms
step:480/1530 train_loss:3.9089 train_time:77922ms step_avg:165.79ms
step:481/1530 train_loss:3.7186 train_time:78092ms step_avg:165.80ms
step:482/1530 train_loss:3.5233 train_time:78260ms step_avg:165.81ms
step:483/1530 train_loss:3.7950 train_time:78429ms step_avg:165.81ms
step:484/1530 train_loss:3.6524 train_time:78599ms step_avg:165.82ms
step:485/1530 train_loss:3.6507 train_time:78768ms step_avg:165.83ms
step:486/1530 train_loss:3.5666 train_time:78938ms step_avg:165.84ms
step:487/1530 train_loss:3.6736 train_time:79108ms step_avg:165.84ms
step:488/1530 train_loss:3.8661 train_time:79277ms step_avg:165.85ms
step:489/1530 train_loss:3.7028 train_time:79446ms step_avg:165.86ms
step:490/1530 train_loss:3.5873 train_time:79615ms step_avg:165.87ms
step:491/1530 train_loss:3.6092 train_time:79785ms step_avg:165.87ms
step:492/1530 train_loss:3.7244 train_time:79954ms step_avg:165.88ms
step:493/1530 train_loss:3.5701 train_time:80124ms step_avg:165.89ms
step:494/1530 train_loss:3.6924 train_time:80293ms step_avg:165.90ms
step:495/1530 train_loss:3.6548 train_time:80462ms step_avg:165.90ms
step:496/1530 train_loss:3.5080 train_time:80633ms step_avg:165.91ms
step:497/1530 train_loss:3.7311 train_time:80802ms step_avg:165.92ms
step:498/1530 train_loss:3.7763 train_time:80973ms step_avg:165.93ms
step:499/1530 train_loss:3.8105 train_time:81143ms step_avg:165.94ms
step:500/1530 train_loss:3.7281 train_time:81314ms step_avg:165.95ms
step:500/1530 val_loss:3.7011 train_time:81362ms step_avg:166.04ms
step:501/1530 train_loss:3.7965 train_time:81484ms step_avg:165.96ms
step:502/1530 train_loss:3.7490 train_time:81656ms step_avg:165.97ms
step:503/1530 train_loss:3.7735 train_time:81827ms step_avg:165.98ms
step:504/1530 train_loss:3.7205 train_time:81995ms step_avg:165.98ms
step:505/1530 train_loss:3.8020 train_time:82165ms step_avg:165.99ms
step:506/1530 train_loss:3.6420 train_time:82334ms step_avg:166.00ms
step:507/1530 train_loss:3.7583 train_time:82503ms step_avg:166.00ms
step:508/1530 train_loss:3.8233 train_time:82674ms step_avg:166.01ms
step:509/1530 train_loss:3.7738 train_time:82844ms step_avg:166.02ms
step:510/1530 train_loss:3.5759 train_time:83014ms step_avg:166.03ms
step:511/1530 train_loss:3.7699 train_time:83182ms step_avg:166.03ms
step:512/1530 train_loss:3.7099 train_time:83354ms step_avg:166.04ms
step:513/1530 train_loss:3.6634 train_time:83523ms step_avg:166.05ms
step:514/1530 train_loss:3.8443 train_time:83691ms step_avg:166.05ms
step:515/1530 train_loss:3.7294 train_time:83859ms step_avg:166.06ms
step:516/1530 train_loss:4.0725 train_time:84031ms step_avg:166.07ms
step:517/1530 train_loss:3.6932 train_time:84199ms step_avg:166.07ms
step:518/1530 train_loss:3.7658 train_time:84368ms step_avg:166.08ms
step:519/1530 train_loss:3.6532 train_time:84537ms step_avg:166.08ms
step:520/1530 train_loss:3.6820 train_time:84707ms step_avg:166.09ms
step:521/1530 train_loss:3.6597 train_time:84876ms step_avg:166.10ms
step:522/1530 train_loss:3.6529 train_time:85047ms step_avg:166.11ms
step:523/1530 train_loss:4.2809 train_time:85217ms step_avg:166.11ms
step:524/1530 train_loss:3.7396 train_time:85385ms step_avg:166.12ms
step:525/1530 train_loss:3.6791 train_time:85554ms step_avg:166.12ms
step:526/1530 train_loss:3.6899 train_time:85722ms step_avg:166.13ms
step:527/1530 train_loss:3.6541 train_time:85891ms step_avg:166.13ms
step:528/1530 train_loss:3.6224 train_time:86059ms step_avg:166.14ms
step:529/1530 train_loss:3.8413 train_time:86230ms step_avg:166.15ms
step:530/1530 train_loss:3.6401 train_time:86399ms step_avg:166.15ms
step:531/1530 train_loss:3.9079 train_time:86570ms step_avg:166.16ms
step:532/1530 train_loss:3.7292 train_time:86738ms step_avg:166.16ms
step:533/1530 train_loss:3.6469 train_time:86906ms step_avg:166.17ms
step:534/1530 train_loss:3.6644 train_time:87074ms step_avg:166.17ms
step:535/1530 train_loss:3.6049 train_time:87243ms step_avg:166.18ms
step:536/1530 train_loss:3.7441 train_time:87413ms step_avg:166.19ms
step:537/1530 train_loss:3.7225 train_time:87583ms step_avg:166.19ms
step:538/1530 train_loss:3.6190 train_time:87753ms step_avg:166.20ms
step:539/1530 train_loss:4.1087 train_time:87924ms step_avg:166.21ms
step:540/1530 train_loss:3.6680 train_time:88092ms step_avg:166.21ms
step:541/1530 train_loss:3.7791 train_time:88260ms step_avg:166.21ms
step:542/1530 train_loss:3.5815 train_time:88429ms step_avg:166.22ms
step:543/1530 train_loss:3.5792 train_time:88597ms step_avg:166.22ms
step:544/1530 train_loss:3.6337 train_time:88766ms step_avg:166.23ms
step:545/1530 train_loss:3.5895 train_time:88935ms step_avg:166.23ms
step:546/1530 train_loss:3.6222 train_time:89104ms step_avg:166.24ms
step:547/1530 train_loss:3.6311 train_time:89272ms step_avg:166.24ms
step:548/1530 train_loss:3.5976 train_time:89442ms step_avg:166.25ms
step:549/1530 train_loss:3.7147 train_time:89610ms step_avg:166.25ms
step:550/1530 train_loss:3.6122 train_time:89779ms step_avg:166.26ms
step:551/1530 train_loss:3.6181 train_time:89949ms step_avg:166.26ms
step:552/1530 train_loss:3.9202 train_time:90117ms step_avg:166.27ms
step:553/1530 train_loss:3.7464 train_time:90287ms step_avg:166.27ms
step:554/1530 train_loss:3.7042 train_time:90456ms step_avg:166.28ms
step:555/1530 train_loss:3.6187 train_time:90624ms step_avg:166.28ms
step:556/1530 train_loss:3.6918 train_time:90791ms step_avg:166.28ms
step:557/1530 train_loss:3.3015 train_time:90960ms step_avg:166.29ms
step:558/1530 train_loss:3.6055 train_time:91131ms step_avg:166.30ms
step:559/1530 train_loss:3.6420 train_time:91299ms step_avg:166.30ms
step:560/1530 train_loss:3.6830 train_time:91468ms step_avg:166.31ms
step:561/1530 train_loss:3.6032 train_time:91636ms step_avg:166.31ms
step:562/1530 train_loss:3.5503 train_time:91806ms step_avg:166.32ms
step:563/1530 train_loss:3.7454 train_time:91975ms step_avg:166.32ms
step:564/1530 train_loss:3.5702 train_time:92145ms step_avg:166.33ms
step:565/1530 train_loss:3.6741 train_time:92314ms step_avg:166.33ms
step:566/1530 train_loss:3.6154 train_time:92617ms step_avg:166.58ms
step:567/1530 train_loss:3.5962 train_time:92796ms step_avg:166.60ms
step:568/1530 train_loss:3.6780 train_time:92969ms step_avg:166.61ms
step:569/1530 train_loss:3.6448 train_time:93298ms step_avg:166.90ms
step:570/1530 train_loss:3.6783 train_time:93468ms step_avg:166.91ms
step:571/1530 train_loss:3.7511 train_time:93637ms step_avg:166.91ms
step:572/1530 train_loss:3.7190 train_time:93810ms step_avg:166.92ms
step:573/1530 train_loss:3.7339 train_time:93982ms step_avg:166.93ms
step:574/1530 train_loss:3.7733 train_time:94157ms step_avg:166.94ms
step:575/1530 train_loss:3.7204 train_time:94329ms step_avg:166.95ms
step:576/1530 train_loss:3.7581 train_time:94499ms step_avg:166.96ms
step:577/1530 train_loss:3.6614 train_time:94670ms step_avg:166.97ms
step:578/1530 train_loss:3.6676 train_time:94843ms step_avg:166.98ms
step:579/1530 train_loss:3.6686 train_time:95014ms step_avg:166.98ms
step:580/1530 train_loss:3.5820 train_time:95185ms step_avg:166.99ms
step:581/1530 train_loss:3.6297 train_time:95356ms step_avg:167.00ms
step:582/1530 train_loss:3.8455 train_time:95528ms step_avg:167.01ms
step:583/1530 train_loss:3.6178 train_time:95698ms step_avg:167.01ms
step:584/1530 train_loss:3.5834 train_time:95871ms step_avg:167.02ms
step:585/1530 train_loss:3.7819 train_time:96042ms step_avg:167.03ms
step:586/1530 train_loss:3.5204 train_time:96213ms step_avg:167.04ms
step:587/1530 train_loss:3.6594 train_time:96384ms step_avg:167.04ms
step:588/1530 train_loss:3.6354 train_time:96554ms step_avg:167.05ms
step:589/1530 train_loss:3.9895 train_time:96727ms step_avg:167.06ms
step:590/1530 train_loss:3.7776 train_time:96897ms step_avg:167.06ms
step:591/1530 train_loss:3.5034 train_time:97070ms step_avg:167.07ms
step:592/1530 train_loss:3.5235 train_time:97245ms step_avg:167.09ms
step:593/1530 train_loss:3.4934 train_time:97417ms step_avg:167.10ms
step:594/1530 train_loss:3.5495 train_time:97590ms step_avg:167.11ms
step:595/1530 train_loss:3.9058 train_time:97762ms step_avg:167.11ms
step:596/1530 train_loss:3.6409 train_time:97935ms step_avg:167.12ms
step:597/1530 train_loss:3.5791 train_time:98105ms step_avg:167.13ms
step:598/1530 train_loss:3.6464 train_time:98275ms step_avg:167.13ms
step:599/1530 train_loss:3.4745 train_time:98446ms step_avg:167.14ms
step:600/1530 train_loss:3.5959 train_time:98617ms step_avg:167.15ms
step:601/1530 train_loss:3.6464 train_time:98792ms step_avg:167.16ms
step:602/1530 train_loss:3.6603 train_time:98965ms step_avg:167.17ms
step:603/1530 train_loss:3.7795 train_time:99136ms step_avg:167.18ms
step:604/1530 train_loss:3.6052 train_time:99307ms step_avg:167.18ms
step:605/1530 train_loss:3.6074 train_time:99479ms step_avg:167.19ms
step:606/1530 train_loss:3.5682 train_time:99654ms step_avg:167.20ms
step:607/1530 train_loss:3.8292 train_time:99826ms step_avg:167.21ms
step:608/1530 train_loss:3.6229 train_time:99997ms step_avg:167.22ms
step:609/1530 train_loss:3.6100 train_time:100167ms step_avg:167.22ms
step:610/1530 train_loss:3.6952 train_time:100337ms step_avg:167.23ms
step:611/1530 train_loss:3.5899 train_time:100509ms step_avg:167.24ms
step:612/1530 train_loss:3.5639 train_time:100680ms step_avg:167.24ms
step:613/1530 train_loss:3.7577 train_time:100853ms step_avg:167.25ms
step:614/1530 train_loss:3.6941 train_time:101025ms step_avg:167.26ms
step:615/1530 train_loss:3.6922 train_time:101195ms step_avg:167.26ms
step:616/1530 train_loss:3.6202 train_time:101366ms step_avg:167.27ms
step:617/1530 train_loss:3.5586 train_time:101538ms step_avg:167.28ms
step:618/1530 train_loss:3.6814 train_time:101710ms step_avg:167.29ms
step:619/1530 train_loss:3.5483 train_time:101879ms step_avg:167.29ms
step:620/1530 train_loss:3.5829 train_time:102052ms step_avg:167.30ms
step:621/1530 train_loss:3.9147 train_time:102224ms step_avg:167.31ms
step:622/1530 train_loss:3.5631 train_time:102397ms step_avg:167.32ms
step:623/1530 train_loss:3.5941 train_time:102570ms step_avg:167.32ms
step:624/1530 train_loss:3.6851 train_time:102742ms step_avg:167.33ms
step:625/1530 train_loss:3.6971 train_time:102912ms step_avg:167.34ms
step:625/1530 val_loss:3.6146 train_time:102961ms step_avg:167.42ms
step:626/1530 train_loss:3.7260 train_time:103085ms step_avg:167.35ms
step:627/1530 train_loss:3.7071 train_time:103257ms step_avg:167.35ms
step:628/1530 train_loss:3.7541 train_time:103427ms step_avg:167.36ms
step:629/1530 train_loss:3.5899 train_time:103599ms step_avg:167.37ms
step:630/1530 train_loss:3.7200 train_time:103769ms step_avg:167.37ms
step:631/1530 train_loss:3.7325 train_time:103941ms step_avg:167.38ms
step:632/1530 train_loss:3.6401 train_time:104112ms step_avg:167.38ms
step:633/1530 train_loss:3.5943 train_time:104284ms step_avg:167.39ms
step:634/1530 train_loss:3.6894 train_time:104454ms step_avg:167.39ms
step:635/1530 train_loss:3.9482 train_time:104623ms step_avg:167.40ms
step:636/1530 train_loss:3.5416 train_time:104794ms step_avg:167.40ms
step:637/1530 train_loss:3.3494 train_time:104965ms step_avg:167.41ms
step:638/1530 train_loss:3.5856 train_time:105135ms step_avg:167.41ms
step:639/1530 train_loss:3.6259 train_time:105305ms step_avg:167.42ms
step:640/1530 train_loss:3.5602 train_time:105476ms step_avg:167.42ms
step:641/1530 train_loss:3.5866 train_time:105646ms step_avg:167.43ms
step:642/1530 train_loss:3.6249 train_time:105816ms step_avg:167.43ms
step:643/1530 train_loss:3.5911 train_time:105986ms step_avg:167.43ms
step:644/1530 train_loss:3.5518 train_time:106158ms step_avg:167.44ms
step:645/1530 train_loss:3.7663 train_time:106328ms step_avg:167.45ms
step:646/1530 train_loss:3.6650 train_time:106500ms step_avg:167.45ms
step:647/1530 train_loss:3.6604 train_time:106669ms step_avg:167.46ms
step:648/1530 train_loss:3.7062 train_time:106843ms step_avg:167.47ms
step:649/1530 train_loss:3.7641 train_time:107013ms step_avg:167.47ms
step:650/1530 train_loss:3.6140 train_time:107184ms step_avg:167.48ms
step:651/1530 train_loss:3.7596 train_time:107356ms step_avg:167.48ms
step:652/1530 train_loss:3.5831 train_time:107525ms step_avg:167.49ms
step:653/1530 train_loss:3.6565 train_time:107697ms step_avg:167.49ms
step:654/1530 train_loss:3.4200 train_time:107868ms step_avg:167.50ms
step:655/1530 train_loss:3.5736 train_time:108037ms step_avg:167.50ms
step:656/1530 train_loss:3.5684 train_time:108207ms step_avg:167.50ms
step:657/1530 train_loss:3.4887 train_time:108376ms step_avg:167.51ms
step:658/1530 train_loss:3.6820 train_time:108547ms step_avg:167.51ms
step:659/1530 train_loss:3.5781 train_time:108718ms step_avg:167.52ms
step:660/1530 train_loss:3.6769 train_time:108889ms step_avg:167.52ms
step:661/1530 train_loss:3.7535 train_time:109061ms step_avg:167.53ms
step:662/1530 train_loss:3.6696 train_time:109230ms step_avg:167.53ms
step:663/1530 train_loss:3.5444 train_time:109400ms step_avg:167.53ms
step:664/1530 train_loss:3.5990 train_time:109571ms step_avg:167.54ms
step:665/1530 train_loss:3.4823 train_time:109743ms step_avg:167.55ms
step:666/1530 train_loss:3.7722 train_time:109913ms step_avg:167.55ms
step:667/1530 train_loss:3.6039 train_time:110084ms step_avg:167.56ms
step:668/1530 train_loss:3.6372 train_time:110255ms step_avg:167.56ms
step:669/1530 train_loss:3.4820 train_time:110425ms step_avg:167.57ms
step:670/1530 train_loss:3.5974 train_time:110595ms step_avg:167.57ms
step:671/1530 train_loss:3.5603 train_time:110767ms step_avg:167.57ms
step:672/1530 train_loss:3.5595 train_time:110939ms step_avg:167.58ms
step:673/1530 train_loss:3.8451 train_time:111109ms step_avg:167.59ms
step:674/1530 train_loss:3.6164 train_time:111281ms step_avg:167.59ms
step:675/1530 train_loss:3.6988 train_time:111451ms step_avg:167.60ms
step:676/1530 train_loss:3.4883 train_time:111622ms step_avg:167.60ms
step:677/1530 train_loss:3.5921 train_time:111793ms step_avg:167.61ms
step:678/1530 train_loss:3.5512 train_time:111964ms step_avg:167.61ms
step:679/1530 train_loss:3.6718 train_time:112135ms step_avg:167.62ms
step:680/1530 train_loss:3.5721 train_time:112305ms step_avg:167.62ms
step:681/1530 train_loss:3.6098 train_time:112478ms step_avg:167.63ms
step:682/1530 train_loss:3.6567 train_time:112652ms step_avg:167.64ms
step:683/1530 train_loss:3.7295 train_time:112824ms step_avg:167.64ms
step:684/1530 train_loss:3.6427 train_time:112996ms step_avg:167.65ms
step:685/1530 train_loss:3.6760 train_time:113170ms step_avg:167.66ms
step:686/1530 train_loss:3.6273 train_time:113342ms step_avg:167.67ms
step:687/1530 train_loss:3.6526 train_time:113514ms step_avg:167.67ms
step:688/1530 train_loss:3.2032 train_time:113689ms step_avg:167.68ms
step:689/1530 train_loss:3.4080 train_time:113863ms step_avg:167.69ms
step:690/1530 train_loss:3.5322 train_time:114039ms step_avg:167.71ms
step:691/1530 train_loss:3.4074 train_time:114211ms step_avg:167.71ms
step:692/1530 train_loss:3.6204 train_time:114384ms step_avg:167.72ms
step:693/1530 train_loss:3.6446 train_time:114559ms step_avg:167.73ms
step:694/1530 train_loss:3.5538 train_time:114731ms step_avg:167.73ms
step:695/1530 train_loss:3.5212 train_time:114902ms step_avg:167.74ms
step:696/1530 train_loss:3.8430 train_time:115075ms step_avg:167.75ms
step:697/1530 train_loss:3.5789 train_time:115248ms step_avg:167.76ms
step:698/1530 train_loss:3.6381 train_time:115420ms step_avg:167.76ms
step:699/1530 train_loss:3.7639 train_time:115593ms step_avg:167.77ms
step:700/1530 train_loss:3.5680 train_time:115765ms step_avg:167.78ms
step:701/1530 train_loss:3.5352 train_time:115939ms step_avg:167.78ms
step:702/1530 train_loss:3.5057 train_time:116111ms step_avg:167.79ms
step:703/1530 train_loss:3.4940 train_time:116284ms step_avg:167.80ms
step:704/1530 train_loss:3.5635 train_time:116457ms step_avg:167.81ms
step:705/1530 train_loss:3.5591 train_time:116632ms step_avg:167.82ms
step:706/1530 train_loss:3.5672 train_time:116807ms step_avg:167.83ms
step:707/1530 train_loss:3.6450 train_time:116982ms step_avg:167.84ms
step:708/1530 train_loss:3.5971 train_time:117154ms step_avg:167.84ms
step:709/1530 train_loss:3.5757 train_time:117326ms step_avg:167.85ms
step:710/1530 train_loss:3.5356 train_time:117499ms step_avg:167.86ms
step:711/1530 train_loss:3.5872 train_time:117672ms step_avg:167.86ms
step:712/1530 train_loss:3.6396 train_time:117847ms step_avg:167.87ms
step:713/1530 train_loss:3.6457 train_time:118022ms step_avg:167.88ms
step:714/1530 train_loss:3.5601 train_time:118193ms step_avg:167.89ms
step:715/1530 train_loss:3.5622 train_time:118367ms step_avg:167.90ms
step:716/1530 train_loss:3.5834 train_time:118539ms step_avg:167.90ms
step:717/1530 train_loss:3.6977 train_time:118713ms step_avg:167.91ms
step:718/1530 train_loss:3.5890 train_time:118885ms step_avg:167.92ms
step:719/1530 train_loss:3.6685 train_time:119057ms step_avg:167.92ms
step:720/1530 train_loss:3.8382 train_time:119231ms step_avg:167.93ms
step:721/1530 train_loss:3.4594 train_time:119404ms step_avg:167.94ms
step:722/1530 train_loss:3.7279 train_time:119575ms step_avg:167.94ms
step:723/1530 train_loss:3.7634 train_time:119746ms step_avg:167.95ms
step:724/1530 train_loss:3.5601 train_time:119921ms step_avg:167.96ms
step:725/1530 train_loss:3.6470 train_time:120094ms step_avg:167.96ms
step:726/1530 train_loss:3.5268 train_time:120269ms step_avg:167.97ms
step:727/1530 train_loss:3.5723 train_time:120444ms step_avg:167.98ms
step:728/1530 train_loss:3.7276 train_time:120617ms step_avg:167.99ms
step:729/1530 train_loss:3.6658 train_time:120788ms step_avg:167.99ms
step:730/1530 train_loss:3.6543 train_time:120963ms step_avg:168.00ms
step:731/1530 train_loss:3.5504 train_time:121135ms step_avg:168.01ms
step:732/1530 train_loss:3.5912 train_time:121306ms step_avg:168.01ms
step:733/1530 train_loss:3.8282 train_time:121482ms step_avg:168.02ms
step:734/1530 train_loss:3.5512 train_time:121656ms step_avg:168.03ms
step:735/1530 train_loss:3.6144 train_time:121827ms step_avg:168.04ms
step:736/1530 train_loss:3.7285 train_time:122000ms step_avg:168.04ms
step:737/1530 train_loss:3.6694 train_time:122172ms step_avg:168.05ms
step:738/1530 train_loss:3.5945 train_time:122343ms step_avg:168.05ms
step:739/1530 train_loss:3.4972 train_time:122515ms step_avg:168.06ms
step:740/1530 train_loss:4.1058 train_time:122691ms step_avg:168.07ms
step:741/1530 train_loss:3.4851 train_time:122863ms step_avg:168.08ms
step:742/1530 train_loss:3.5427 train_time:123036ms step_avg:168.08ms
step:743/1530 train_loss:3.5762 train_time:123207ms step_avg:168.09ms
step:744/1530 train_loss:3.6378 train_time:123382ms step_avg:168.09ms
step:745/1530 train_loss:3.5729 train_time:123557ms step_avg:168.10ms
step:746/1530 train_loss:3.5868 train_time:123728ms step_avg:168.11ms
step:747/1530 train_loss:3.6388 train_time:123902ms step_avg:168.12ms
step:748/1530 train_loss:3.5627 train_time:124081ms step_avg:168.13ms
step:749/1530 train_loss:3.5600 train_time:124252ms step_avg:168.13ms
step:750/1530 train_loss:3.5936 train_time:124422ms step_avg:168.14ms
step:750/1530 val_loss:3.5593 train_time:124471ms step_avg:168.20ms
step:751/1530 train_loss:3.5598 train_time:124595ms step_avg:168.14ms
step:752/1530 train_loss:3.6171 train_time:124766ms step_avg:168.15ms
step:753/1530 train_loss:3.6081 train_time:124940ms step_avg:168.16ms
step:754/1530 train_loss:3.5926 train_time:125111ms step_avg:168.16ms
step:755/1530 train_loss:3.6781 train_time:125418ms step_avg:168.35ms
step:756/1530 train_loss:3.4499 train_time:125601ms step_avg:168.37ms
step:757/1530 train_loss:3.7147 train_time:125773ms step_avg:168.37ms
step:758/1530 train_loss:3.6374 train_time:125944ms step_avg:168.37ms
step:759/1530 train_loss:3.5845 train_time:126269ms step_avg:168.58ms
step:760/1530 train_loss:3.7021 train_time:126440ms step_avg:168.59ms
step:761/1530 train_loss:3.3934 train_time:126612ms step_avg:168.59ms
step:762/1530 train_loss:3.5477 train_time:126786ms step_avg:168.60ms
step:763/1530 train_loss:3.6575 train_time:126959ms step_avg:168.60ms
step:764/1530 train_loss:3.3103 train_time:127132ms step_avg:168.61ms
step:765/1530 train_loss:3.7188 train_time:127306ms step_avg:168.62ms
step:766/1530 train_loss:3.5594 train_time:127479ms step_avg:168.62ms
step:767/1530 train_loss:3.5567 train_time:127651ms step_avg:168.63ms
step:768/1530 train_loss:3.5629 train_time:127826ms step_avg:168.64ms
step:769/1530 train_loss:3.5820 train_time:127999ms step_avg:168.64ms
step:770/1530 train_loss:3.6376 train_time:128170ms step_avg:168.64ms
step:771/1530 train_loss:3.8743 train_time:128345ms step_avg:168.65ms
step:772/1530 train_loss:3.4458 train_time:128515ms step_avg:168.65ms
step:773/1530 train_loss:3.6203 train_time:128688ms step_avg:168.66ms
step:774/1530 train_loss:3.6325 train_time:128861ms step_avg:168.67ms
step:775/1530 train_loss:3.5993 train_time:129033ms step_avg:168.67ms
step:776/1530 train_loss:3.4009 train_time:129207ms step_avg:168.68ms
step:777/1530 train_loss:3.3838 train_time:129381ms step_avg:168.68ms
step:778/1530 train_loss:3.4869 train_time:129552ms step_avg:168.69ms
step:779/1530 train_loss:3.5769 train_time:129724ms step_avg:168.69ms
step:780/1530 train_loss:3.5778 train_time:129897ms step_avg:168.70ms
step:781/1530 train_loss:3.6680 train_time:130068ms step_avg:168.70ms
step:782/1530 train_loss:3.5869 train_time:130241ms step_avg:168.71ms
step:783/1530 train_loss:3.5566 train_time:130412ms step_avg:168.71ms
step:784/1530 train_loss:3.5944 train_time:130585ms step_avg:168.71ms
step:785/1530 train_loss:3.5573 train_time:130755ms step_avg:168.72ms
step:786/1530 train_loss:3.4309 train_time:130929ms step_avg:168.72ms
step:787/1530 train_loss:3.7081 train_time:131101ms step_avg:168.73ms
step:788/1530 train_loss:3.4969 train_time:131274ms step_avg:168.73ms
step:789/1530 train_loss:3.5436 train_time:131445ms step_avg:168.74ms
step:790/1530 train_loss:3.6214 train_time:131618ms step_avg:168.74ms
step:791/1530 train_loss:3.7696 train_time:131794ms step_avg:168.75ms
step:792/1530 train_loss:3.7482 train_time:131967ms step_avg:168.76ms
step:793/1530 train_loss:3.4457 train_time:132138ms step_avg:168.76ms
step:794/1530 train_loss:3.5854 train_time:132310ms step_avg:168.76ms
step:795/1530 train_loss:3.6640 train_time:132486ms step_avg:168.77ms
step:796/1530 train_loss:3.7503 train_time:132664ms step_avg:168.78ms
step:797/1530 train_loss:3.5167 train_time:132838ms step_avg:168.79ms
step:798/1530 train_loss:3.6399 train_time:133014ms step_avg:168.80ms
step:799/1530 train_loss:3.5258 train_time:133192ms step_avg:168.81ms
step:800/1530 train_loss:3.5190 train_time:133366ms step_avg:168.82ms
step:801/1530 train_loss:3.6217 train_time:133539ms step_avg:168.82ms
step:802/1530 train_loss:3.4830 train_time:133715ms step_avg:168.83ms
step:803/1530 train_loss:3.4779 train_time:133888ms step_avg:168.84ms
step:804/1530 train_loss:3.6163 train_time:134061ms step_avg:168.84ms
step:805/1530 train_loss:3.5107 train_time:134237ms step_avg:168.85ms
step:806/1530 train_loss:3.5511 train_time:134410ms step_avg:168.86ms
step:807/1530 train_loss:3.6396 train_time:134584ms step_avg:168.86ms
step:808/1530 train_loss:3.5339 train_time:134760ms step_avg:168.87ms
step:809/1530 train_loss:3.4841 train_time:134933ms step_avg:168.88ms
step:810/1530 train_loss:3.5557 train_time:135106ms step_avg:168.88ms
step:811/1530 train_loss:3.5720 train_time:135283ms step_avg:168.89ms
step:812/1530 train_loss:3.5993 train_time:135455ms step_avg:168.90ms
step:813/1530 train_loss:3.6191 train_time:135627ms step_avg:168.90ms
step:814/1530 train_loss:3.5585 train_time:135800ms step_avg:168.91ms
step:815/1530 train_loss:3.5527 train_time:135975ms step_avg:168.91ms
step:816/1530 train_loss:3.6784 train_time:136149ms step_avg:168.92ms
step:817/1530 train_loss:3.7613 train_time:136324ms step_avg:168.93ms
step:818/1530 train_loss:3.5201 train_time:136495ms step_avg:168.93ms
step:819/1530 train_loss:3.7171 train_time:136670ms step_avg:168.94ms
step:820/1530 train_loss:3.4900 train_time:136846ms step_avg:168.95ms
step:821/1530 train_loss:3.5536 train_time:137019ms step_avg:168.95ms
step:822/1530 train_loss:3.6939 train_time:137195ms step_avg:168.96ms
step:823/1530 train_loss:3.5697 train_time:137370ms step_avg:168.97ms
step:824/1530 train_loss:3.5044 train_time:137542ms step_avg:168.97ms
step:825/1530 train_loss:3.6058 train_time:137716ms step_avg:168.98ms
step:826/1530 train_loss:3.4753 train_time:137892ms step_avg:168.99ms
step:827/1530 train_loss:3.7279 train_time:138067ms step_avg:168.99ms
step:828/1530 train_loss:3.6133 train_time:138240ms step_avg:169.00ms
step:829/1530 train_loss:3.6281 train_time:138415ms step_avg:169.00ms
step:830/1530 train_loss:3.5328 train_time:138589ms step_avg:169.01ms
step:831/1530 train_loss:3.5929 train_time:138762ms step_avg:169.02ms
step:832/1530 train_loss:3.5062 train_time:138936ms step_avg:169.02ms
step:833/1530 train_loss:3.6518 train_time:139111ms step_avg:169.03ms
step:834/1530 train_loss:3.4624 train_time:139286ms step_avg:169.04ms
step:835/1530 train_loss:3.4548 train_time:139460ms step_avg:169.04ms
step:836/1530 train_loss:3.7062 train_time:139635ms step_avg:169.05ms
step:837/1530 train_loss:3.3926 train_time:139809ms step_avg:169.06ms
step:838/1530 train_loss:3.5820 train_time:139982ms step_avg:169.06ms
step:839/1530 train_loss:3.4120 train_time:140155ms step_avg:169.07ms
step:840/1530 train_loss:3.4577 train_time:140328ms step_avg:169.07ms
step:841/1530 train_loss:3.5630 train_time:140501ms step_avg:169.07ms
step:842/1530 train_loss:3.5726 train_time:140675ms step_avg:169.08ms
step:843/1530 train_loss:3.5551 train_time:140847ms step_avg:169.08ms
step:844/1530 train_loss:3.4263 train_time:141019ms step_avg:169.09ms
step:845/1530 train_loss:3.6494 train_time:141194ms step_avg:169.09ms
step:846/1530 train_loss:3.5067 train_time:141369ms step_avg:169.10ms
step:847/1530 train_loss:3.4892 train_time:141545ms step_avg:169.11ms
step:848/1530 train_loss:3.6379 train_time:141716ms step_avg:169.11ms
step:849/1530 train_loss:3.4901 train_time:141889ms step_avg:169.12ms
step:850/1530 train_loss:3.4411 train_time:142062ms step_avg:169.12ms
step:851/1530 train_loss:3.7253 train_time:142234ms step_avg:169.13ms
step:852/1530 train_loss:3.4319 train_time:142409ms step_avg:169.13ms
step:853/1530 train_loss:3.5630 train_time:142582ms step_avg:169.14ms
step:854/1530 train_loss:3.6453 train_time:142755ms step_avg:169.14ms
step:855/1530 train_loss:3.5098 train_time:142928ms step_avg:169.15ms
step:856/1530 train_loss:3.5366 train_time:143102ms step_avg:169.15ms
step:857/1530 train_loss:3.6059 train_time:143275ms step_avg:169.16ms
step:858/1530 train_loss:3.4574 train_time:143449ms step_avg:169.16ms
step:859/1530 train_loss:3.5535 train_time:143623ms step_avg:169.17ms
step:860/1530 train_loss:3.5821 train_time:143795ms step_avg:169.17ms
step:861/1530 train_loss:3.6208 train_time:143972ms step_avg:169.18ms
step:862/1530 train_loss:3.5972 train_time:144150ms step_avg:169.19ms
step:863/1530 train_loss:3.5625 train_time:144326ms step_avg:169.20ms
step:864/1530 train_loss:3.3821 train_time:144499ms step_avg:169.20ms
step:865/1530 train_loss:3.5921 train_time:144671ms step_avg:169.21ms
step:866/1530 train_loss:3.8860 train_time:144847ms step_avg:169.21ms
step:867/1530 train_loss:3.4604 train_time:145019ms step_avg:169.22ms
step:868/1530 train_loss:3.6406 train_time:145191ms step_avg:169.22ms
step:869/1530 train_loss:3.6043 train_time:145366ms step_avg:169.23ms
step:870/1530 train_loss:3.4458 train_time:145542ms step_avg:169.23ms
step:871/1530 train_loss:3.3979 train_time:145714ms step_avg:169.24ms
step:872/1530 train_loss:3.6411 train_time:145889ms step_avg:169.24ms
step:873/1530 train_loss:3.4577 train_time:146063ms step_avg:169.25ms
step:874/1530 train_loss:3.2174 train_time:146241ms step_avg:169.26ms
step:875/1530 train_loss:3.6234 train_time:146414ms step_avg:169.26ms
step:875/1530 val_loss:3.5154 train_time:146464ms step_avg:169.32ms
step:876/1530 train_loss:3.4299 train_time:146588ms step_avg:169.27ms
step:877/1530 train_loss:3.6095 train_time:146764ms step_avg:169.28ms
step:878/1530 train_loss:3.4607 train_time:146938ms step_avg:169.28ms
step:879/1530 train_loss:3.6418 train_time:147110ms step_avg:169.29ms
step:880/1530 train_loss:3.3098 train_time:147284ms step_avg:169.29ms
step:881/1530 train_loss:3.4693 train_time:147456ms step_avg:169.30ms
step:882/1530 train_loss:3.6863 train_time:147629ms step_avg:169.30ms
step:883/1530 train_loss:3.8316 train_time:147802ms step_avg:169.30ms
step:884/1530 train_loss:3.5613 train_time:147978ms step_avg:169.31ms
step:885/1530 train_loss:3.4929 train_time:148152ms step_avg:169.32ms
step:886/1530 train_loss:3.5630 train_time:148326ms step_avg:169.32ms
step:887/1530 train_loss:4.0847 train_time:148502ms step_avg:169.33ms
step:888/1530 train_loss:3.8328 train_time:148682ms step_avg:169.34ms
step:889/1530 train_loss:3.5117 train_time:148855ms step_avg:169.35ms
step:890/1530 train_loss:3.5230 train_time:149026ms step_avg:169.35ms
step:891/1530 train_loss:3.3509 train_time:149201ms step_avg:169.35ms
step:892/1530 train_loss:3.7117 train_time:149375ms step_avg:169.36ms
step:893/1530 train_loss:3.4136 train_time:149546ms step_avg:169.36ms
step:894/1530 train_loss:3.6265 train_time:149723ms step_avg:169.37ms
step:895/1530 train_loss:3.6729 train_time:149897ms step_avg:169.38ms
step:896/1530 train_loss:3.4913 train_time:150070ms step_avg:169.38ms
step:897/1530 train_loss:3.5374 train_time:150244ms step_avg:169.38ms
step:898/1530 train_loss:3.5890 train_time:150421ms step_avg:169.39ms
step:899/1530 train_loss:3.4710 train_time:150593ms step_avg:169.40ms
step:900/1530 train_loss:3.4189 train_time:150765ms step_avg:169.40ms
step:901/1530 train_loss:3.6174 train_time:150939ms step_avg:169.40ms
step:902/1530 train_loss:3.6305 train_time:151113ms step_avg:169.41ms
step:903/1530 train_loss:3.5356 train_time:151288ms step_avg:169.42ms
step:904/1530 train_loss:3.4850 train_time:151461ms step_avg:169.42ms
step:905/1530 train_loss:3.4963 train_time:151633ms step_avg:169.42ms
step:906/1530 train_loss:3.6983 train_time:151809ms step_avg:169.43ms
step:907/1530 train_loss:3.5097 train_time:151983ms step_avg:169.44ms
step:908/1530 train_loss:3.5589 train_time:152155ms step_avg:169.44ms
step:909/1530 train_loss:3.4491 train_time:152331ms step_avg:169.45ms
step:910/1530 train_loss:3.5211 train_time:152512ms step_avg:169.46ms
step:911/1530 train_loss:3.6374 train_time:152687ms step_avg:169.46ms
step:912/1530 train_loss:3.5947 train_time:152865ms step_avg:169.47ms
step:913/1530 train_loss:3.4600 train_time:153045ms step_avg:169.49ms
step:914/1530 train_loss:3.7363 train_time:153224ms step_avg:169.50ms
step:915/1530 train_loss:3.5310 train_time:153404ms step_avg:169.51ms
step:916/1530 train_loss:3.6150 train_time:153579ms step_avg:169.51ms
step:917/1530 train_loss:3.5937 train_time:153752ms step_avg:169.52ms
step:918/1530 train_loss:4.8203 train_time:153930ms step_avg:169.53ms
step:919/1530 train_loss:3.4929 train_time:154109ms step_avg:169.54ms
step:920/1530 train_loss:3.5825 train_time:154283ms step_avg:169.54ms
step:921/1530 train_loss:3.5456 train_time:154461ms step_avg:169.55ms
step:922/1530 train_loss:3.5799 train_time:154638ms step_avg:169.56ms
step:923/1530 train_loss:3.6065 train_time:154813ms step_avg:169.57ms
step:924/1530 train_loss:3.6717 train_time:154990ms step_avg:169.57ms
step:925/1530 train_loss:3.6405 train_time:155164ms step_avg:169.58ms
step:926/1530 train_loss:3.5505 train_time:155337ms step_avg:169.58ms
step:927/1530 train_loss:3.5450 train_time:155511ms step_avg:169.59ms
step:928/1530 train_loss:3.7796 train_time:155689ms step_avg:169.60ms
step:929/1530 train_loss:3.6070 train_time:155862ms step_avg:169.60ms
step:930/1530 train_loss:3.3972 train_time:156040ms step_avg:169.61ms
step:931/1530 train_loss:3.4922 train_time:156213ms step_avg:169.61ms
step:932/1530 train_loss:3.6460 train_time:156391ms step_avg:169.62ms
step:933/1530 train_loss:3.3581 train_time:156565ms step_avg:169.63ms
step:934/1530 train_loss:3.5781 train_time:156743ms step_avg:169.64ms
step:935/1530 train_loss:3.4351 train_time:156921ms step_avg:169.64ms
step:936/1530 train_loss:3.5092 train_time:157099ms step_avg:169.65ms
step:937/1530 train_loss:3.6155 train_time:157277ms step_avg:169.66ms
step:938/1530 train_loss:3.5330 train_time:157449ms step_avg:169.67ms
step:939/1530 train_loss:3.6636 train_time:157630ms step_avg:169.68ms
step:940/1530 train_loss:3.4780 train_time:157805ms step_avg:169.68ms
step:941/1530 train_loss:3.5417 train_time:157981ms step_avg:169.69ms
step:942/1530 train_loss:3.3468 train_time:158158ms step_avg:169.70ms
step:943/1530 train_loss:3.7091 train_time:158337ms step_avg:169.71ms
step:944/1530 train_loss:3.3953 train_time:158650ms step_avg:169.86ms
step:945/1530 train_loss:3.4214 train_time:158832ms step_avg:169.87ms
step:946/1530 train_loss:5.0650 train_time:159013ms step_avg:169.89ms
step:947/1530 train_loss:3.5975 train_time:159189ms step_avg:169.89ms
step:948/1530 train_loss:3.4827 train_time:159364ms step_avg:169.90ms
step:949/1530 train_loss:3.3704 train_time:159693ms step_avg:170.07ms
step:950/1530 train_loss:3.4389 train_time:159867ms step_avg:170.07ms
step:951/1530 train_loss:3.3950 train_time:160046ms step_avg:170.08ms
step:952/1530 train_loss:3.4737 train_time:160222ms step_avg:170.09ms
step:953/1530 train_loss:3.5627 train_time:160398ms step_avg:170.09ms
step:954/1530 train_loss:3.4421 train_time:160576ms step_avg:170.10ms
step:955/1530 train_loss:3.4682 train_time:160750ms step_avg:170.11ms
step:956/1530 train_loss:3.4346 train_time:160926ms step_avg:170.11ms
step:957/1530 train_loss:3.4893 train_time:161107ms step_avg:170.12ms
step:958/1530 train_loss:3.5021 train_time:161287ms step_avg:170.13ms
step:959/1530 train_loss:3.5110 train_time:161463ms step_avg:170.14ms
step:960/1530 train_loss:3.4036 train_time:161641ms step_avg:170.15ms
step:961/1530 train_loss:3.6396 train_time:161815ms step_avg:170.15ms
step:962/1530 train_loss:3.5874 train_time:161991ms step_avg:170.16ms
step:963/1530 train_loss:3.7176 train_time:162167ms step_avg:170.16ms
step:964/1530 train_loss:3.4272 train_time:162345ms step_avg:170.17ms
step:965/1530 train_loss:3.4755 train_time:162519ms step_avg:170.18ms
step:966/1530 train_loss:3.7072 train_time:162693ms step_avg:170.18ms
step:967/1530 train_loss:3.5148 train_time:162867ms step_avg:170.19ms
step:968/1530 train_loss:3.5148 train_time:163042ms step_avg:170.19ms
step:969/1530 train_loss:3.5807 train_time:163215ms step_avg:170.19ms
step:970/1530 train_loss:3.3717 train_time:163388ms step_avg:170.20ms
step:971/1530 train_loss:3.5305 train_time:163562ms step_avg:170.20ms
step:972/1530 train_loss:3.4663 train_time:163736ms step_avg:170.20ms
step:973/1530 train_loss:3.5333 train_time:163910ms step_avg:170.21ms
step:974/1530 train_loss:3.5845 train_time:164087ms step_avg:170.21ms
step:975/1530 train_loss:3.4626 train_time:164262ms step_avg:170.22ms
step:976/1530 train_loss:3.6680 train_time:164436ms step_avg:170.22ms
step:977/1530 train_loss:3.5655 train_time:164610ms step_avg:170.23ms
step:978/1530 train_loss:3.3507 train_time:164785ms step_avg:170.23ms
step:979/1530 train_loss:3.6180 train_time:164961ms step_avg:170.24ms
step:980/1530 train_loss:3.4108 train_time:165137ms step_avg:170.24ms
step:981/1530 train_loss:3.5706 train_time:165317ms step_avg:170.25ms
step:982/1530 train_loss:3.5356 train_time:165489ms step_avg:170.26ms
step:983/1530 train_loss:3.5059 train_time:165664ms step_avg:170.26ms
step:984/1530 train_loss:3.4909 train_time:165839ms step_avg:170.27ms
step:985/1530 train_loss:3.5656 train_time:166017ms step_avg:170.27ms
step:986/1530 train_loss:3.4108 train_time:166192ms step_avg:170.28ms
step:987/1530 train_loss:3.4811 train_time:166365ms step_avg:170.28ms
step:988/1530 train_loss:3.4805 train_time:166541ms step_avg:170.29ms
step:989/1530 train_loss:3.4173 train_time:166713ms step_avg:170.29ms
step:990/1530 train_loss:3.6521 train_time:166892ms step_avg:170.30ms
step:991/1530 train_loss:3.4629 train_time:167066ms step_avg:170.30ms
step:992/1530 train_loss:3.4388 train_time:167247ms step_avg:170.31ms
step:993/1530 train_loss:3.4961 train_time:167427ms step_avg:170.32ms
step:994/1530 train_loss:3.5891 train_time:167602ms step_avg:170.33ms
step:995/1530 train_loss:3.5250 train_time:167775ms step_avg:170.33ms
step:996/1530 train_loss:3.4503 train_time:167946ms step_avg:170.33ms
step:997/1530 train_loss:3.7439 train_time:168122ms step_avg:170.34ms
step:998/1530 train_loss:3.4362 train_time:168294ms step_avg:170.34ms
step:999/1530 train_loss:3.5839 train_time:168468ms step_avg:170.34ms
step:1000/1530 train_loss:3.4336 train_time:168644ms step_avg:170.35ms
step:1000/1530 val_loss:3.4618 train_time:168695ms step_avg:170.40ms
step:1001/1530 train_loss:3.4967 train_time:168819ms step_avg:170.35ms
step:1002/1530 train_loss:3.3673 train_time:168993ms step_avg:170.36ms
step:1003/1530 train_loss:3.5471 train_time:169169ms step_avg:170.36ms
step:1004/1530 train_loss:3.6001 train_time:169342ms step_avg:170.36ms
step:1005/1530 train_loss:3.3855 train_time:169518ms step_avg:170.37ms
step:1006/1530 train_loss:3.4607 train_time:169693ms step_avg:170.37ms
step:1007/1530 train_loss:3.4376 train_time:169868ms step_avg:170.38ms
step:1008/1530 train_loss:3.5536 train_time:170043ms step_avg:170.38ms
step:1009/1530 train_loss:3.6548 train_time:170223ms step_avg:170.39ms
step:1010/1530 train_loss:3.5548 train_time:170397ms step_avg:170.40ms
step:1011/1530 train_loss:3.5298 train_time:170572ms step_avg:170.40ms
step:1012/1530 train_loss:3.3842 train_time:170746ms step_avg:170.41ms
step:1013/1530 train_loss:3.5260 train_time:170923ms step_avg:170.41ms
step:1014/1530 train_loss:3.6145 train_time:171098ms step_avg:170.42ms
step:1015/1530 train_loss:3.3228 train_time:171275ms step_avg:170.42ms
step:1016/1530 train_loss:3.4081 train_time:171449ms step_avg:170.43ms
step:1017/1530 train_loss:3.3852 train_time:171625ms step_avg:170.43ms
step:1018/1530 train_loss:3.3911 train_time:171800ms step_avg:170.44ms
step:1019/1530 train_loss:3.5153 train_time:171976ms step_avg:170.44ms
step:1020/1530 train_loss:3.3749 train_time:172154ms step_avg:170.45ms
step:1021/1530 train_loss:3.3527 train_time:172330ms step_avg:170.45ms
step:1022/1530 train_loss:3.4713 train_time:172506ms step_avg:170.46ms
step:1023/1530 train_loss:3.5016 train_time:172681ms step_avg:170.47ms
step:1024/1530 train_loss:3.4722 train_time:172859ms step_avg:170.47ms
step:1025/1530 train_loss:3.4680 train_time:173036ms step_avg:170.48ms
step:1026/1530 train_loss:3.6175 train_time:173212ms step_avg:170.48ms
step:1027/1530 train_loss:3.3118 train_time:173387ms step_avg:170.49ms
step:1028/1530 train_loss:3.3916 train_time:173567ms step_avg:170.50ms
step:1029/1530 train_loss:3.3063 train_time:173747ms step_avg:170.51ms
step:1030/1530 train_loss:3.5308 train_time:173924ms step_avg:170.51ms
step:1031/1530 train_loss:3.5046 train_time:174099ms step_avg:170.52ms
step:1032/1530 train_loss:3.6867 train_time:174280ms step_avg:170.53ms
step:1033/1530 train_loss:3.4838 train_time:174456ms step_avg:170.53ms
step:1034/1530 train_loss:3.3874 train_time:174634ms step_avg:170.54ms
step:1035/1530 train_loss:3.4353 train_time:174813ms step_avg:170.55ms
step:1036/1530 train_loss:3.4793 train_time:174989ms step_avg:170.55ms
step:1037/1530 train_loss:3.7801 train_time:175166ms step_avg:170.56ms
step:1038/1530 train_loss:3.6088 train_time:175345ms step_avg:170.57ms
step:1039/1530 train_loss:3.4981 train_time:175526ms step_avg:170.58ms
step:1040/1530 train_loss:3.4071 train_time:175701ms step_avg:170.58ms
step:1041/1530 train_loss:3.4824 train_time:175878ms step_avg:170.59ms
step:1042/1530 train_loss:3.5156 train_time:176053ms step_avg:170.59ms
step:1043/1530 train_loss:3.4407 train_time:176228ms step_avg:170.60ms
step:1044/1530 train_loss:3.4511 train_time:176404ms step_avg:170.60ms
step:1045/1530 train_loss:3.5098 train_time:176582ms step_avg:170.61ms
step:1046/1530 train_loss:3.4197 train_time:176758ms step_avg:170.62ms
step:1047/1530 train_loss:3.6277 train_time:176935ms step_avg:170.62ms
step:1048/1530 train_loss:3.4910 train_time:177111ms step_avg:170.63ms
step:1049/1530 train_loss:3.3974 train_time:177287ms step_avg:170.63ms
step:1050/1530 train_loss:3.3863 train_time:177463ms step_avg:170.64ms
step:1051/1530 train_loss:3.4906 train_time:177640ms step_avg:170.64ms
step:1052/1530 train_loss:3.3594 train_time:177818ms step_avg:170.65ms
step:1053/1530 train_loss:3.6872 train_time:177996ms step_avg:170.66ms
step:1054/1530 train_loss:3.5319 train_time:178172ms step_avg:170.66ms
step:1055/1530 train_loss:3.3817 train_time:178347ms step_avg:170.67ms
step:1056/1530 train_loss:3.4927 train_time:178522ms step_avg:170.67ms
step:1057/1530 train_loss:3.5741 train_time:178697ms step_avg:170.67ms
step:1058/1530 train_loss:3.2979 train_time:178875ms step_avg:170.68ms
step:1059/1530 train_loss:3.3700 train_time:179056ms step_avg:170.69ms
step:1060/1530 train_loss:3.4326 train_time:179233ms step_avg:170.70ms
step:1061/1530 train_loss:3.4121 train_time:179406ms step_avg:170.70ms
step:1062/1530 train_loss:3.3747 train_time:179581ms step_avg:170.70ms
step:1063/1530 train_loss:3.4514 train_time:179756ms step_avg:170.71ms
step:1064/1530 train_loss:3.3790 train_time:179931ms step_avg:170.71ms
step:1065/1530 train_loss:3.3520 train_time:180108ms step_avg:170.72ms
step:1066/1530 train_loss:3.4105 train_time:180283ms step_avg:170.72ms
step:1067/1530 train_loss:3.2737 train_time:180460ms step_avg:170.73ms
step:1068/1530 train_loss:3.4350 train_time:180636ms step_avg:170.73ms
step:1069/1530 train_loss:3.2953 train_time:180817ms step_avg:170.74ms
step:1070/1530 train_loss:3.5632 train_time:180992ms step_avg:170.75ms
step:1071/1530 train_loss:3.5080 train_time:181171ms step_avg:170.75ms
step:1072/1530 train_loss:3.4323 train_time:181345ms step_avg:170.76ms
step:1073/1530 train_loss:3.5184 train_time:181519ms step_avg:170.76ms
step:1074/1530 train_loss:3.4231 train_time:181696ms step_avg:170.77ms
step:1075/1530 train_loss:3.3977 train_time:181873ms step_avg:170.77ms
step:1076/1530 train_loss:3.7959 train_time:182050ms step_avg:170.78ms
step:1077/1530 train_loss:3.4265 train_time:182224ms step_avg:170.78ms
step:1078/1530 train_loss:3.0888 train_time:182409ms step_avg:170.79ms
step:1079/1530 train_loss:3.5300 train_time:182586ms step_avg:170.80ms
step:1080/1530 train_loss:3.4212 train_time:182763ms step_avg:170.81ms
step:1081/1530 train_loss:3.4934 train_time:182937ms step_avg:170.81ms
step:1082/1530 train_loss:3.5813 train_time:183113ms step_avg:170.81ms
step:1083/1530 train_loss:3.4948 train_time:183288ms step_avg:170.82ms
step:1084/1530 train_loss:3.4624 train_time:183464ms step_avg:170.82ms
step:1085/1530 train_loss:3.4259 train_time:183638ms step_avg:170.83ms
step:1086/1530 train_loss:3.6195 train_time:183814ms step_avg:170.83ms
step:1087/1530 train_loss:3.4954 train_time:183989ms step_avg:170.83ms
step:1088/1530 train_loss:3.3662 train_time:184164ms step_avg:170.84ms
step:1089/1530 train_loss:3.3653 train_time:184342ms step_avg:170.85ms
step:1090/1530 train_loss:3.4726 train_time:184520ms step_avg:170.85ms
step:1091/1530 train_loss:3.2764 train_time:184696ms step_avg:170.86ms
step:1092/1530 train_loss:3.4804 train_time:184872ms step_avg:170.86ms
step:1093/1530 train_loss:3.6009 train_time:185049ms step_avg:170.87ms
step:1094/1530 train_loss:3.4427 train_time:185224ms step_avg:170.87ms
step:1095/1530 train_loss:3.4158 train_time:185398ms step_avg:170.87ms
step:1096/1530 train_loss:3.4212 train_time:185577ms step_avg:170.88ms
step:1097/1530 train_loss:3.4846 train_time:185756ms step_avg:170.89ms
step:1098/1530 train_loss:3.5573 train_time:185935ms step_avg:170.90ms
step:1099/1530 train_loss:3.5220 train_time:186112ms step_avg:170.90ms
step:1100/1530 train_loss:3.4259 train_time:186291ms step_avg:170.91ms
step:1101/1530 train_loss:3.2848 train_time:186469ms step_avg:170.92ms
step:1102/1530 train_loss:3.3060 train_time:186647ms step_avg:170.92ms
step:1103/1530 train_loss:3.4381 train_time:186831ms step_avg:170.93ms
step:1104/1530 train_loss:3.3165 train_time:187007ms step_avg:170.94ms
step:1105/1530 train_loss:4.0591 train_time:187185ms step_avg:170.95ms
step:1106/1530 train_loss:3.2171 train_time:187360ms step_avg:170.95ms
step:1107/1530 train_loss:3.5581 train_time:187535ms step_avg:170.95ms
step:1108/1530 train_loss:3.3428 train_time:187710ms step_avg:170.96ms
step:1109/1530 train_loss:3.4951 train_time:187884ms step_avg:170.96ms
step:1110/1530 train_loss:3.4218 train_time:188058ms step_avg:170.96ms
step:1111/1530 train_loss:3.4774 train_time:188234ms step_avg:170.97ms
step:1112/1530 train_loss:3.5508 train_time:188413ms step_avg:170.97ms
step:1113/1530 train_loss:3.4276 train_time:188596ms step_avg:170.98ms
step:1114/1530 train_loss:3.3626 train_time:188776ms step_avg:170.99ms
step:1115/1530 train_loss:3.2297 train_time:188956ms step_avg:171.00ms
step:1116/1530 train_loss:3.4200 train_time:189130ms step_avg:171.00ms
step:1117/1530 train_loss:3.5854 train_time:189308ms step_avg:171.01ms
step:1118/1530 train_loss:3.6128 train_time:189485ms step_avg:171.02ms
step:1119/1530 train_loss:3.4739 train_time:189660ms step_avg:171.02ms
step:1120/1530 train_loss:3.4847 train_time:189837ms step_avg:171.02ms
step:1121/1530 train_loss:3.3870 train_time:190015ms step_avg:171.03ms
step:1122/1530 train_loss:3.4561 train_time:190192ms step_avg:171.04ms
step:1123/1530 train_loss:3.5742 train_time:190368ms step_avg:171.04ms
step:1124/1530 train_loss:3.3365 train_time:190542ms step_avg:171.04ms
step:1125/1530 train_loss:3.2197 train_time:190719ms step_avg:171.05ms
step:1125/1530 val_loss:3.4043 train_time:190769ms step_avg:171.09ms
step:1126/1530 train_loss:3.4728 train_time:190896ms step_avg:171.05ms
step:1127/1530 train_loss:3.6654 train_time:191075ms step_avg:171.06ms
step:1128/1530 train_loss:3.2249 train_time:191250ms step_avg:171.06ms
step:1129/1530 train_loss:3.5514 train_time:191428ms step_avg:171.07ms
step:1130/1530 train_loss:3.3722 train_time:191605ms step_avg:171.08ms
step:1131/1530 train_loss:3.3955 train_time:191785ms step_avg:171.08ms
step:1132/1530 train_loss:3.3601 train_time:191959ms step_avg:171.09ms
step:1133/1530 train_loss:3.4829 train_time:192270ms step_avg:171.21ms
step:1134/1530 train_loss:3.4435 train_time:192457ms step_avg:171.22ms
step:1135/1530 train_loss:3.5140 train_time:192634ms step_avg:171.23ms
step:1136/1530 train_loss:3.5573 train_time:192811ms step_avg:171.24ms
step:1137/1530 train_loss:3.4542 train_time:192987ms step_avg:171.24ms
step:1138/1530 train_loss:3.3508 train_time:193166ms step_avg:171.25ms
step:1139/1530 train_loss:3.6486 train_time:193497ms step_avg:171.39ms
step:1140/1530 train_loss:3.4508 train_time:193672ms step_avg:171.39ms
step:1141/1530 train_loss:3.5880 train_time:193853ms step_avg:171.40ms
step:1142/1530 train_loss:3.4356 train_time:194030ms step_avg:171.41ms
step:1143/1530 train_loss:3.3563 train_time:194210ms step_avg:171.41ms
step:1144/1530 train_loss:3.4367 train_time:194386ms step_avg:171.42ms
step:1145/1530 train_loss:3.5831 train_time:194561ms step_avg:171.42ms
step:1146/1530 train_loss:3.5492 train_time:194743ms step_avg:171.43ms
step:1147/1530 train_loss:3.4797 train_time:194920ms step_avg:171.43ms
step:1148/1530 train_loss:3.4956 train_time:195097ms step_avg:171.44ms
step:1149/1530 train_loss:3.3205 train_time:195277ms step_avg:171.45ms
step:1150/1530 train_loss:3.3690 train_time:195453ms step_avg:171.45ms
step:1151/1530 train_loss:3.3179 train_time:195632ms step_avg:171.46ms
step:1152/1530 train_loss:3.3985 train_time:195814ms step_avg:171.47ms
step:1153/1530 train_loss:3.4206 train_time:195996ms step_avg:171.47ms
step:1154/1530 train_loss:3.5110 train_time:196172ms step_avg:171.48ms
step:1155/1530 train_loss:3.3136 train_time:196356ms step_avg:171.49ms
step:1156/1530 train_loss:3.5350 train_time:196539ms step_avg:171.50ms
step:1157/1530 train_loss:3.4883 train_time:196718ms step_avg:171.51ms
step:1158/1530 train_loss:3.2459 train_time:196895ms step_avg:171.51ms
step:1159/1530 train_loss:3.3441 train_time:197073ms step_avg:171.52ms
step:1160/1530 train_loss:3.3349 train_time:197246ms step_avg:171.52ms
step:1161/1530 train_loss:3.0777 train_time:197426ms step_avg:171.53ms
step:1162/1530 train_loss:3.4205 train_time:197604ms step_avg:171.53ms
step:1163/1530 train_loss:3.3856 train_time:197781ms step_avg:171.54ms
step:1164/1530 train_loss:3.2874 train_time:197959ms step_avg:171.54ms
step:1165/1530 train_loss:3.2408 train_time:198136ms step_avg:171.55ms
step:1166/1530 train_loss:3.3845 train_time:198317ms step_avg:171.55ms
step:1167/1530 train_loss:3.4094 train_time:198490ms step_avg:171.56ms
step:1168/1530 train_loss:3.7141 train_time:198665ms step_avg:171.56ms
step:1169/1530 train_loss:3.3738 train_time:198842ms step_avg:171.56ms
step:1170/1530 train_loss:3.3884 train_time:199019ms step_avg:171.57ms
step:1171/1530 train_loss:3.3116 train_time:199195ms step_avg:171.57ms
step:1172/1530 train_loss:3.4195 train_time:199369ms step_avg:171.57ms
step:1173/1530 train_loss:3.5320 train_time:199548ms step_avg:171.58ms
step:1174/1530 train_loss:3.3731 train_time:199734ms step_avg:171.59ms
step:1175/1530 train_loss:3.3600 train_time:199913ms step_avg:171.60ms
step:1176/1530 train_loss:3.4240 train_time:200091ms step_avg:171.60ms
step:1177/1530 train_loss:3.4447 train_time:200274ms step_avg:171.61ms
step:1178/1530 train_loss:3.4949 train_time:200451ms step_avg:171.62ms
step:1179/1530 train_loss:3.3930 train_time:200627ms step_avg:171.62ms
step:1180/1530 train_loss:3.3465 train_time:200812ms step_avg:171.63ms
step:1181/1530 train_loss:3.3334 train_time:200989ms step_avg:171.64ms
step:1182/1530 train_loss:3.3705 train_time:201165ms step_avg:171.64ms
step:1183/1530 train_loss:3.3310 train_time:201344ms step_avg:171.65ms
step:1184/1530 train_loss:3.5045 train_time:201521ms step_avg:171.65ms
step:1185/1530 train_loss:3.5361 train_time:201703ms step_avg:171.66ms
step:1186/1530 train_loss:3.3610 train_time:201882ms step_avg:171.67ms
step:1187/1530 train_loss:3.4132 train_time:202067ms step_avg:171.68ms
step:1188/1530 train_loss:3.4378 train_time:202244ms step_avg:171.68ms
step:1189/1530 train_loss:3.2751 train_time:202424ms step_avg:171.69ms
step:1190/1530 train_loss:3.4405 train_time:202603ms step_avg:171.70ms
step:1191/1530 train_loss:3.5768 train_time:202784ms step_avg:171.70ms
step:1192/1530 train_loss:3.3872 train_time:202959ms step_avg:171.71ms
step:1193/1530 train_loss:3.2689 train_time:203136ms step_avg:171.71ms
step:1194/1530 train_loss:3.5513 train_time:203314ms step_avg:171.72ms
step:1195/1530 train_loss:3.3615 train_time:203493ms step_avg:171.72ms
step:1196/1530 train_loss:3.3797 train_time:203680ms step_avg:171.74ms
step:1197/1530 train_loss:3.2898 train_time:203860ms step_avg:171.74ms
step:1198/1530 train_loss:3.2980 train_time:204044ms step_avg:171.75ms
step:1199/1530 train_loss:3.3383 train_time:204223ms step_avg:171.76ms
step:1200/1530 train_loss:3.4463 train_time:204399ms step_avg:171.76ms
step:1201/1530 train_loss:3.4741 train_time:204577ms step_avg:171.77ms
step:1202/1530 train_loss:3.6256 train_time:204766ms step_avg:171.78ms
step:1203/1530 train_loss:3.4018 train_time:204945ms step_avg:171.79ms
step:1204/1530 train_loss:3.3021 train_time:205126ms step_avg:171.80ms
step:1205/1530 train_loss:3.4300 train_time:205302ms step_avg:171.80ms
step:1206/1530 train_loss:3.4776 train_time:205479ms step_avg:171.81ms
step:1207/1530 train_loss:3.5129 train_time:205658ms step_avg:171.81ms
step:1208/1530 train_loss:3.3909 train_time:205834ms step_avg:171.81ms
step:1209/1530 train_loss:3.2406 train_time:206012ms step_avg:171.82ms
step:1210/1530 train_loss:3.2961 train_time:206192ms step_avg:171.83ms
step:1211/1530 train_loss:3.3919 train_time:206369ms step_avg:171.83ms
step:1212/1530 train_loss:3.3925 train_time:206546ms step_avg:171.84ms
step:1213/1530 train_loss:3.4046 train_time:206725ms step_avg:171.84ms
step:1214/1530 train_loss:3.2430 train_time:206907ms step_avg:171.85ms
step:1215/1530 train_loss:3.3915 train_time:207082ms step_avg:171.85ms
step:1216/1530 train_loss:3.3236 train_time:207260ms step_avg:171.86ms
step:1217/1530 train_loss:3.3155 train_time:207438ms step_avg:171.86ms
step:1218/1530 train_loss:3.4034 train_time:207617ms step_avg:171.87ms
step:1219/1530 train_loss:3.2504 train_time:207800ms step_avg:171.88ms
step:1220/1530 train_loss:3.4734 train_time:207975ms step_avg:171.88ms
step:1221/1530 train_loss:3.4992 train_time:208150ms step_avg:171.88ms
step:1222/1530 train_loss:3.4293 train_time:208325ms step_avg:171.89ms
step:1223/1530 train_loss:3.2930 train_time:208503ms step_avg:171.89ms
step:1224/1530 train_loss:3.2535 train_time:208683ms step_avg:171.90ms
step:1225/1530 train_loss:3.3628 train_time:208861ms step_avg:171.90ms
step:1226/1530 train_loss:3.3328 train_time:209042ms step_avg:171.91ms
step:1227/1530 train_loss:3.2706 train_time:209222ms step_avg:171.92ms
step:1228/1530 train_loss:3.4425 train_time:209398ms step_avg:171.92ms
step:1229/1530 train_loss:3.3640 train_time:209578ms step_avg:171.93ms
step:1230/1530 train_loss:3.3915 train_time:209761ms step_avg:171.94ms
step:1231/1530 train_loss:3.5716 train_time:209941ms step_avg:171.94ms
step:1232/1530 train_loss:3.4902 train_time:210122ms step_avg:171.95ms
step:1233/1530 train_loss:3.4242 train_time:210299ms step_avg:171.95ms
step:1234/1530 train_loss:3.5803 train_time:210479ms step_avg:171.96ms
step:1235/1530 train_loss:3.3199 train_time:210659ms step_avg:171.97ms
step:1236/1530 train_loss:3.2845 train_time:210838ms step_avg:171.97ms
step:1237/1530 train_loss:3.2685 train_time:211015ms step_avg:171.98ms
step:1238/1530 train_loss:3.2748 train_time:211198ms step_avg:171.99ms
step:1239/1530 train_loss:3.3265 train_time:211377ms step_avg:171.99ms
step:1240/1530 train_loss:3.3796 train_time:211553ms step_avg:171.99ms
step:1241/1530 train_loss:3.4256 train_time:211730ms step_avg:172.00ms
step:1242/1530 train_loss:3.2921 train_time:211910ms step_avg:172.00ms
step:1243/1530 train_loss:3.4068 train_time:212087ms step_avg:172.01ms
step:1244/1530 train_loss:3.4019 train_time:212260ms step_avg:172.01ms
step:1245/1530 train_loss:3.4107 train_time:212438ms step_avg:172.01ms
step:1246/1530 train_loss:3.2392 train_time:212616ms step_avg:172.02ms
step:1247/1530 train_loss:3.3704 train_time:212791ms step_avg:172.02ms
step:1248/1530 train_loss:3.4217 train_time:212968ms step_avg:172.03ms
step:1249/1530 train_loss:3.4250 train_time:213147ms step_avg:172.03ms
step:1250/1530 train_loss:3.3038 train_time:213326ms step_avg:172.04ms
step:1250/1530 val_loss:3.3519 train_time:213380ms step_avg:172.08ms
step:1251/1530 train_loss:3.4858 train_time:213510ms step_avg:172.05ms
step:1252/1530 train_loss:3.3564 train_time:213686ms step_avg:172.05ms
step:1253/1530 train_loss:3.3060 train_time:213863ms step_avg:172.05ms
step:1254/1530 train_loss:3.4127 train_time:214044ms step_avg:172.06ms
step:1255/1530 train_loss:3.5127 train_time:214233ms step_avg:172.07ms
step:1256/1530 train_loss:3.3044 train_time:214415ms step_avg:172.08ms
step:1257/1530 train_loss:3.3692 train_time:214594ms step_avg:172.09ms
step:1258/1530 train_loss:3.3617 train_time:214776ms step_avg:172.10ms
step:1259/1530 train_loss:3.3250 train_time:214954ms step_avg:172.10ms
step:1260/1530 train_loss:3.2064 train_time:215130ms step_avg:172.10ms
step:1261/1530 train_loss:3.3030 train_time:215311ms step_avg:172.11ms
step:1262/1530 train_loss:3.3179 train_time:215493ms step_avg:172.12ms
step:1263/1530 train_loss:3.2355 train_time:215674ms step_avg:172.13ms
step:1264/1530 train_loss:3.4382 train_time:215850ms step_avg:172.13ms
step:1265/1530 train_loss:3.4235 train_time:216025ms step_avg:172.13ms
step:1266/1530 train_loss:3.4344 train_time:216204ms step_avg:172.14ms
step:1267/1530 train_loss:3.3659 train_time:216383ms step_avg:172.14ms
step:1268/1530 train_loss:3.4101 train_time:216565ms step_avg:172.15ms
step:1269/1530 train_loss:3.2571 train_time:216748ms step_avg:172.16ms
step:1270/1530 train_loss:3.1048 train_time:216926ms step_avg:172.16ms
step:1271/1530 train_loss:3.3987 train_time:217106ms step_avg:172.17ms
step:1272/1530 train_loss:3.3478 train_time:217280ms step_avg:172.17ms
step:1273/1530 train_loss:3.3708 train_time:217462ms step_avg:172.18ms
step:1274/1530 train_loss:3.3595 train_time:217642ms step_avg:172.19ms
step:1275/1530 train_loss:3.4290 train_time:217820ms step_avg:172.19ms
step:1276/1530 train_loss:3.4657 train_time:217993ms step_avg:172.19ms
step:1277/1530 train_loss:3.4089 train_time:218172ms step_avg:172.20ms
step:1278/1530 train_loss:3.4050 train_time:218347ms step_avg:172.20ms
step:1279/1530 train_loss:3.2633 train_time:218529ms step_avg:172.21ms
step:1280/1530 train_loss:3.3616 train_time:218716ms step_avg:172.22ms
step:1281/1530 train_loss:3.4238 train_time:218892ms step_avg:172.22ms
step:1282/1530 train_loss:3.4620 train_time:219066ms step_avg:172.22ms
step:1283/1530 train_loss:3.3311 train_time:219246ms step_avg:172.23ms
step:1284/1530 train_loss:3.3659 train_time:219425ms step_avg:172.23ms
step:1285/1530 train_loss:3.3576 train_time:219603ms step_avg:172.24ms
step:1286/1530 train_loss:3.3332 train_time:219781ms step_avg:172.24ms
step:1287/1530 train_loss:3.4854 train_time:219960ms step_avg:172.25ms
step:1288/1530 train_loss:3.2888 train_time:220141ms step_avg:172.25ms
step:1289/1530 train_loss:3.3817 train_time:220328ms step_avg:172.27ms
step:1290/1530 train_loss:3.4597 train_time:220513ms step_avg:172.28ms
step:1291/1530 train_loss:3.3779 train_time:220693ms step_avg:172.28ms
step:1292/1530 train_loss:3.4767 train_time:220875ms step_avg:172.29ms
step:1293/1530 train_loss:3.5118 train_time:221054ms step_avg:172.29ms
step:1294/1530 train_loss:3.4547 train_time:221233ms step_avg:172.30ms
step:1295/1530 train_loss:3.2794 train_time:221412ms step_avg:172.30ms
step:1296/1530 train_loss:3.3696 train_time:221594ms step_avg:172.31ms
step:1297/1530 train_loss:3.2777 train_time:221773ms step_avg:172.32ms
step:1298/1530 train_loss:3.2667 train_time:221953ms step_avg:172.32ms
step:1299/1530 train_loss:3.3944 train_time:222131ms step_avg:172.33ms
step:1300/1530 train_loss:3.3978 train_time:222307ms step_avg:172.33ms
step:1301/1530 train_loss:3.3986 train_time:222485ms step_avg:172.34ms
step:1302/1530 train_loss:3.5734 train_time:222666ms step_avg:172.34ms
step:1303/1530 train_loss:3.3016 train_time:222850ms step_avg:172.35ms
step:1304/1530 train_loss:3.5084 train_time:223031ms step_avg:172.36ms
step:1305/1530 train_loss:3.2577 train_time:223209ms step_avg:172.36ms
step:1306/1530 train_loss:3.4511 train_time:223389ms step_avg:172.37ms
step:1307/1530 train_loss:3.4493 train_time:223564ms step_avg:172.37ms
step:1308/1530 train_loss:3.2815 train_time:223741ms step_avg:172.37ms
step:1309/1530 train_loss:3.3128 train_time:223920ms step_avg:172.38ms
step:1310/1530 train_loss:3.2873 train_time:224098ms step_avg:172.38ms
step:1311/1530 train_loss:3.2974 train_time:224276ms step_avg:172.39ms
step:1312/1530 train_loss:3.3756 train_time:224456ms step_avg:172.39ms
step:1313/1530 train_loss:3.3392 train_time:224630ms step_avg:172.39ms
step:1314/1530 train_loss:3.0438 train_time:224813ms step_avg:172.40ms
step:1315/1530 train_loss:3.2724 train_time:224990ms step_avg:172.41ms
step:1316/1530 train_loss:3.3956 train_time:225166ms step_avg:172.41ms
step:1317/1530 train_loss:3.4173 train_time:225345ms step_avg:172.41ms
step:1318/1530 train_loss:3.2993 train_time:225531ms step_avg:172.42ms
step:1319/1530 train_loss:3.4232 train_time:225711ms step_avg:172.43ms
step:1320/1530 train_loss:3.4616 train_time:225893ms step_avg:172.44ms
step:1321/1530 train_loss:3.3619 train_time:226071ms step_avg:172.44ms
step:1322/1530 train_loss:3.3199 train_time:226386ms step_avg:172.55ms
step:1323/1530 train_loss:3.3179 train_time:226578ms step_avg:172.56ms
step:1324/1530 train_loss:3.4312 train_time:226758ms step_avg:172.57ms
step:1325/1530 train_loss:3.4868 train_time:226943ms step_avg:172.58ms
step:1326/1530 train_loss:3.2059 train_time:227124ms step_avg:172.59ms
step:1327/1530 train_loss:3.1635 train_time:227301ms step_avg:172.59ms
step:1328/1530 train_loss:3.4899 train_time:227480ms step_avg:172.59ms
step:1329/1530 train_loss:3.2964 train_time:227823ms step_avg:172.72ms
step:1330/1530 train_loss:3.4275 train_time:228006ms step_avg:172.73ms
step:1331/1530 train_loss:3.3316 train_time:228182ms step_avg:172.73ms
step:1332/1530 train_loss:3.7342 train_time:228364ms step_avg:172.74ms
step:1333/1530 train_loss:3.4784 train_time:228545ms step_avg:172.75ms
step:1334/1530 train_loss:3.3711 train_time:228725ms step_avg:172.75ms
step:1335/1530 train_loss:3.2888 train_time:228904ms step_avg:172.76ms
step:1336/1530 train_loss:3.2950 train_time:229088ms step_avg:172.77ms
step:1337/1530 train_loss:3.5477 train_time:229267ms step_avg:172.77ms
step:1338/1530 train_loss:3.5204 train_time:229447ms step_avg:172.78ms
step:1339/1530 train_loss:3.3339 train_time:229626ms step_avg:172.78ms
step:1340/1530 train_loss:3.2781 train_time:229806ms step_avg:172.79ms
step:1341/1530 train_loss:3.5874 train_time:229984ms step_avg:172.79ms
step:1342/1530 train_loss:3.3532 train_time:230164ms step_avg:172.80ms
step:1343/1530 train_loss:3.3616 train_time:230342ms step_avg:172.80ms
step:1344/1530 train_loss:3.4126 train_time:230522ms step_avg:172.81ms
step:1345/1530 train_loss:3.3798 train_time:230705ms step_avg:172.81ms
step:1346/1530 train_loss:3.2946 train_time:230883ms step_avg:172.82ms
step:1347/1530 train_loss:3.2747 train_time:231059ms step_avg:172.82ms
step:1348/1530 train_loss:3.3407 train_time:231236ms step_avg:172.82ms
step:1349/1530 train_loss:3.2724 train_time:231413ms step_avg:172.83ms
step:1350/1530 train_loss:3.3884 train_time:231594ms step_avg:172.83ms
step:1351/1530 train_loss:3.2454 train_time:231769ms step_avg:172.83ms
step:1352/1530 train_loss:3.3066 train_time:231947ms step_avg:172.84ms
step:1353/1530 train_loss:3.4005 train_time:232128ms step_avg:172.84ms
step:1354/1530 train_loss:3.2608 train_time:232307ms step_avg:172.85ms
step:1355/1530 train_loss:3.1867 train_time:232484ms step_avg:172.85ms
step:1356/1530 train_loss:3.5086 train_time:232665ms step_avg:172.86ms
step:1357/1530 train_loss:3.4152 train_time:232846ms step_avg:172.86ms
step:1358/1530 train_loss:3.1799 train_time:233025ms step_avg:172.87ms
step:1359/1530 train_loss:3.4369 train_time:233207ms step_avg:172.87ms
step:1360/1530 train_loss:3.3481 train_time:233386ms step_avg:172.88ms
step:1361/1530 train_loss:3.1235 train_time:233571ms step_avg:172.89ms
step:1362/1530 train_loss:3.3934 train_time:233753ms step_avg:172.89ms
step:1363/1530 train_loss:3.2840 train_time:233940ms step_avg:172.90ms
step:1364/1530 train_loss:3.2993 train_time:234120ms step_avg:172.91ms
step:1365/1530 train_loss:3.3122 train_time:234296ms step_avg:172.91ms
step:1366/1530 train_loss:3.4201 train_time:234476ms step_avg:172.92ms
step:1367/1530 train_loss:3.3909 train_time:234654ms step_avg:172.92ms
step:1368/1530 train_loss:3.3461 train_time:234834ms step_avg:172.93ms
step:1369/1530 train_loss:3.2718 train_time:235023ms step_avg:172.94ms
step:1370/1530 train_loss:3.6024 train_time:235203ms step_avg:172.94ms
step:1371/1530 train_loss:3.3125 train_time:235385ms step_avg:172.95ms
step:1372/1530 train_loss:3.3652 train_time:235569ms step_avg:172.96ms
step:1373/1530 train_loss:3.3709 train_time:235748ms step_avg:172.96ms
step:1374/1530 train_loss:3.1497 train_time:235929ms step_avg:172.97ms
step:1375/1530 train_loss:3.5319 train_time:236109ms step_avg:172.97ms
step:1375/1530 val_loss:3.3098 train_time:236160ms step_avg:173.01ms
step:1376/1530 train_loss:3.3440 train_time:236292ms step_avg:172.98ms
step:1377/1530 train_loss:3.4772 train_time:236470ms step_avg:172.98ms
step:1378/1530 train_loss:3.4647 train_time:236647ms step_avg:172.99ms
step:1379/1530 train_loss:3.1146 train_time:236829ms step_avg:172.99ms
step:1380/1530 train_loss:3.3102 train_time:237010ms step_avg:173.00ms
step:1381/1530 train_loss:3.6969 train_time:237195ms step_avg:173.01ms
step:1382/1530 train_loss:3.2127 train_time:237374ms step_avg:173.01ms
step:1383/1530 train_loss:3.3915 train_time:237554ms step_avg:173.02ms
step:1384/1530 train_loss:3.4728 train_time:237737ms step_avg:173.03ms
step:1385/1530 train_loss:3.4043 train_time:237912ms step_avg:173.03ms
step:1386/1530 train_loss:3.3394 train_time:238091ms step_avg:173.03ms
step:1387/1530 train_loss:3.1966 train_time:238269ms step_avg:173.03ms
step:1388/1530 train_loss:3.3455 train_time:238446ms step_avg:173.04ms
step:1389/1530 train_loss:3.3175 train_time:238630ms step_avg:173.05ms
step:1390/1530 train_loss:3.5678 train_time:238808ms step_avg:173.05ms
step:1391/1530 train_loss:3.2869 train_time:238986ms step_avg:173.05ms
step:1392/1530 train_loss:3.2850 train_time:239163ms step_avg:173.06ms
step:1393/1530 train_loss:3.2379 train_time:239341ms step_avg:173.06ms
step:1394/1530 train_loss:3.4960 train_time:239519ms step_avg:173.06ms
step:1395/1530 train_loss:3.3882 train_time:239698ms step_avg:173.07ms
step:1396/1530 train_loss:3.4011 train_time:239876ms step_avg:173.07ms
step:1397/1530 train_loss:3.3069 train_time:240052ms step_avg:173.07ms
step:1398/1530 train_loss:3.2583 train_time:240228ms step_avg:173.07ms
step:1399/1530 train_loss:3.3155 train_time:240407ms step_avg:173.08ms
step:1400/1530 train_loss:3.3178 train_time:240590ms step_avg:173.09ms
step:1401/1530 train_loss:3.3472 train_time:240766ms step_avg:173.09ms
step:1402/1530 train_loss:3.2946 train_time:240945ms step_avg:173.09ms
step:1403/1530 train_loss:3.4892 train_time:241129ms step_avg:173.10ms
step:1404/1530 train_loss:3.2737 train_time:241306ms step_avg:173.10ms
step:1405/1530 train_loss:3.3144 train_time:241489ms step_avg:173.11ms
step:1406/1530 train_loss:3.3126 train_time:241670ms step_avg:173.12ms
step:1407/1530 train_loss:3.1707 train_time:241847ms step_avg:173.12ms
step:1408/1530 train_loss:3.3122 train_time:242026ms step_avg:173.12ms
step:1409/1530 train_loss:3.2991 train_time:242214ms step_avg:173.13ms
step:1410/1530 train_loss:3.2892 train_time:242391ms step_avg:173.14ms
step:1411/1530 train_loss:3.3628 train_time:242567ms step_avg:173.14ms
step:1412/1530 train_loss:3.3318 train_time:242745ms step_avg:173.14ms
step:1413/1530 train_loss:3.3558 train_time:242923ms step_avg:173.15ms
step:1414/1530 train_loss:3.3212 train_time:243103ms step_avg:173.15ms
step:1415/1530 train_loss:3.4043 train_time:243287ms step_avg:173.16ms
step:1416/1530 train_loss:3.2290 train_time:243476ms step_avg:173.17ms
step:1417/1530 train_loss:3.2816 train_time:243658ms step_avg:173.18ms
step:1418/1530 train_loss:3.3877 train_time:243838ms step_avg:173.18ms
step:1419/1530 train_loss:3.3333 train_time:244020ms step_avg:173.19ms
step:1420/1530 train_loss:3.3656 train_time:244203ms step_avg:173.19ms
step:1421/1530 train_loss:3.3703 train_time:244381ms step_avg:173.20ms
step:1422/1530 train_loss:3.3299 train_time:244560ms step_avg:173.20ms
step:1423/1530 train_loss:3.3135 train_time:244738ms step_avg:173.20ms
step:1424/1530 train_loss:3.3311 train_time:244924ms step_avg:173.21ms
step:1425/1530 train_loss:3.1886 train_time:245112ms step_avg:173.22ms
step:1426/1530 train_loss:3.3192 train_time:245292ms step_avg:173.23ms
step:1427/1530 train_loss:3.2841 train_time:245475ms step_avg:173.24ms
step:1428/1530 train_loss:3.3772 train_time:245651ms step_avg:173.24ms
step:1429/1530 train_loss:3.3556 train_time:245830ms step_avg:173.24ms
step:1430/1530 train_loss:3.2563 train_time:246011ms step_avg:173.25ms
step:1431/1530 train_loss:3.3203 train_time:246193ms step_avg:173.25ms
step:1432/1530 train_loss:3.3344 train_time:246375ms step_avg:173.26ms
step:1433/1530 train_loss:3.1288 train_time:246557ms step_avg:173.27ms
step:1434/1530 train_loss:3.2868 train_time:246742ms step_avg:173.27ms
step:1435/1530 train_loss:3.1191 train_time:246922ms step_avg:173.28ms
step:1436/1530 train_loss:3.2276 train_time:247101ms step_avg:173.28ms
step:1437/1530 train_loss:3.4084 train_time:247279ms step_avg:173.29ms
step:1438/1530 train_loss:3.3773 train_time:247456ms step_avg:173.29ms
step:1439/1530 train_loss:3.3125 train_time:247636ms step_avg:173.29ms
step:1440/1530 train_loss:3.1895 train_time:247812ms step_avg:173.30ms
step:1441/1530 train_loss:3.3348 train_time:247991ms step_avg:173.30ms
step:1442/1530 train_loss:3.3859 train_time:248174ms step_avg:173.31ms
step:1443/1530 train_loss:3.4884 train_time:248359ms step_avg:173.31ms
step:1444/1530 train_loss:3.4423 train_time:248535ms step_avg:173.32ms
step:1445/1530 train_loss:3.3313 train_time:248714ms step_avg:173.32ms
step:1446/1530 train_loss:3.1961 train_time:248895ms step_avg:173.32ms
step:1447/1530 train_loss:3.2972 train_time:249076ms step_avg:173.33ms
step:1448/1530 train_loss:3.2960 train_time:249255ms step_avg:173.33ms
step:1449/1530 train_loss:3.3935 train_time:249434ms step_avg:173.34ms
step:1450/1530 train_loss:3.3826 train_time:249616ms step_avg:173.34ms
step:1451/1530 train_loss:3.2009 train_time:249794ms step_avg:173.35ms
step:1452/1530 train_loss:3.3230 train_time:249974ms step_avg:173.35ms
step:1453/1530 train_loss:3.2596 train_time:250150ms step_avg:173.35ms
step:1454/1530 train_loss:3.2859 train_time:250327ms step_avg:173.36ms
step:1455/1530 train_loss:3.3281 train_time:250510ms step_avg:173.36ms
step:1456/1530 train_loss:3.2797 train_time:250687ms step_avg:173.37ms
step:1457/1530 train_loss:3.1544 train_time:250864ms step_avg:173.37ms
step:1458/1530 train_loss:3.4238 train_time:251042ms step_avg:173.37ms
step:1459/1530 train_loss:3.2682 train_time:251223ms step_avg:173.38ms
step:1460/1530 train_loss:3.3140 train_time:251403ms step_avg:173.38ms
step:1461/1530 train_loss:3.4353 train_time:251582ms step_avg:173.39ms
step:1462/1530 train_loss:3.2625 train_time:251759ms step_avg:173.39ms
step:1463/1530 train_loss:3.4641 train_time:251941ms step_avg:173.39ms
step:1464/1530 train_loss:3.3632 train_time:252119ms step_avg:173.40ms
step:1465/1530 train_loss:3.3561 train_time:252300ms step_avg:173.40ms
step:1466/1530 train_loss:3.2845 train_time:252476ms step_avg:173.40ms
step:1467/1530 train_loss:3.3937 train_time:252655ms step_avg:173.41ms
step:1468/1530 train_loss:3.2859 train_time:252833ms step_avg:173.41ms
step:1469/1530 train_loss:3.2727 train_time:253015ms step_avg:173.42ms
step:1470/1530 train_loss:3.3296 train_time:253198ms step_avg:173.42ms
step:1471/1530 train_loss:3.2557 train_time:253380ms step_avg:173.43ms
step:1472/1530 train_loss:3.2438 train_time:253565ms step_avg:173.44ms
step:1473/1530 train_loss:3.4423 train_time:253743ms step_avg:173.44ms
step:1474/1530 train_loss:3.3101 train_time:253927ms step_avg:173.45ms
step:1475/1530 train_loss:3.1500 train_time:254115ms step_avg:173.46ms
step:1476/1530 train_loss:3.2622 train_time:254295ms step_avg:173.46ms
step:1477/1530 train_loss:3.2372 train_time:254480ms step_avg:173.47ms
step:1478/1530 train_loss:3.3061 train_time:254664ms step_avg:173.48ms
step:1479/1530 train_loss:3.3949 train_time:254845ms step_avg:173.48ms
step:1480/1530 train_loss:3.2661 train_time:255023ms step_avg:173.49ms
step:1481/1530 train_loss:3.4458 train_time:255208ms step_avg:173.49ms
step:1482/1530 train_loss:3.3672 train_time:255395ms step_avg:173.50ms
step:1483/1530 train_loss:3.2780 train_time:255585ms step_avg:173.51ms
step:1484/1530 train_loss:3.2649 train_time:255774ms step_avg:173.52ms
step:1485/1530 train_loss:3.2806 train_time:255954ms step_avg:173.53ms
step:1486/1530 train_loss:3.2267 train_time:256138ms step_avg:173.54ms
step:1487/1530 train_loss:3.3417 train_time:256320ms step_avg:173.54ms
step:1488/1530 train_loss:3.2426 train_time:256503ms step_avg:173.55ms
step:1489/1530 train_loss:3.3130 train_time:256684ms step_avg:173.55ms
step:1490/1530 train_loss:3.2499 train_time:256863ms step_avg:173.56ms
step:1491/1530 train_loss:3.1586 train_time:257042ms step_avg:173.56ms
step:1492/1530 train_loss:3.2664 train_time:257222ms step_avg:173.56ms
step:1493/1530 train_loss:3.4362 train_time:257401ms step_avg:173.57ms
step:1494/1530 train_loss:3.2982 train_time:257580ms step_avg:173.57ms
step:1495/1530 train_loss:3.0289 train_time:257764ms step_avg:173.58ms
step:1496/1530 train_loss:3.3597 train_time:257949ms step_avg:173.59ms
step:1497/1530 train_loss:3.3129 train_time:258133ms step_avg:173.59ms
step:1498/1530 train_loss:3.3399 train_time:258319ms step_avg:173.60ms
step:1499/1530 train_loss:3.3079 train_time:258507ms step_avg:173.61ms
step:1500/1530 train_loss:3.2967 train_time:258699ms step_avg:173.62ms
step:1500/1530 val_loss:3.2784 train_time:258755ms step_avg:173.66ms
step:1501/1530 train_loss:3.0879 train_time:258891ms step_avg:173.64ms
step:1502/1530 train_loss:3.3571 train_time:259083ms step_avg:173.65ms
step:1503/1530 train_loss:3.2422 train_time:259263ms step_avg:173.65ms
step:1504/1530 train_loss:3.2462 train_time:259443ms step_avg:173.66ms
step:1505/1530 train_loss:3.2119 train_time:259622ms step_avg:173.66ms
step:1506/1530 train_loss:3.2835 train_time:259805ms step_avg:173.67ms
step:1507/1530 train_loss:3.1753 train_time:260001ms step_avg:173.68ms
step:1508/1530 train_loss:3.4811 train_time:260184ms step_avg:173.69ms
step:1509/1530 train_loss:3.2793 train_time:260362ms step_avg:173.69ms
step:1510/1530 train_loss:3.2706 train_time:260543ms step_avg:173.70ms
step:1511/1530 train_loss:3.4109 train_time:260856ms step_avg:173.79ms
step:1512/1530 train_loss:3.4180 train_time:261043ms step_avg:173.80ms
step:1513/1530 train_loss:3.2653 train_time:261227ms step_avg:173.80ms
step:1514/1530 train_loss:3.0821 train_time:261407ms step_avg:173.81ms
step:1515/1530 train_loss:3.2405 train_time:261588ms step_avg:173.81ms
step:1516/1530 train_loss:3.2513 train_time:261775ms step_avg:173.82ms
step:1517/1530 train_loss:3.2996 train_time:261955ms step_avg:173.83ms
step:1518/1530 train_loss:3.2042 train_time:262139ms step_avg:173.83ms
step:1519/1530 train_loss:3.5013 train_time:262472ms step_avg:173.94ms
step:1520/1530 train_loss:3.1247 train_time:262653ms step_avg:173.94ms
step:1521/1530 train_loss:3.2016 train_time:262829ms step_avg:173.94ms
step:1522/1530 train_loss:3.3536 train_time:263011ms step_avg:173.95ms
step:1523/1530 train_loss:3.2263 train_time:263189ms step_avg:173.95ms
step:1524/1530 train_loss:3.3443 train_time:263371ms step_avg:173.96ms
step:1525/1530 train_loss:3.3360 train_time:263557ms step_avg:173.96ms
step:1526/1530 train_loss:3.2733 train_time:263748ms step_avg:173.98ms
step:1527/1530 train_loss:3.2908 train_time:263928ms step_avg:173.98ms
step:1528/1530 train_loss:3.4062 train_time:264107ms step_avg:173.98ms
step:1529/1530 train_loss:3.4047 train_time:264285ms step_avg:173.99ms
step:1530/1530 train_loss:3.2305 train_time:264463ms step_avg:173.99ms
step:1530/1530 val_loss:3.2759 train_time:264518ms step_avg:174.02ms