records/120424_ValueEmbed/f0f173e3-69ee-4970-ba0b-f7f3e5d92e33.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 01:41:49 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   38C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   30C    P0             115W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0             119W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   38C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   38C    P0             122W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   29C    P0             110W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   38C    P0             127W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   30C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31928ms step_avg:nanms
step:2/1530 train_loss:10.0748 train_time:32040ms step_avg:nanms
step:3/1530 train_loss:8.4025 train_time:32202ms step_avg:nanms
step:4/1530 train_loss:7.6038 train_time:32363ms step_avg:nanms
step:5/1530 train_loss:7.4218 train_time:32523ms step_avg:nanms
step:6/1530 train_loss:6.9788 train_time:32684ms step_avg:nanms
step:7/1530 train_loss:7.1986 train_time:32845ms step_avg:nanms
step:8/1530 train_loss:6.7363 train_time:33006ms step_avg:nanms
step:9/1530 train_loss:6.6368 train_time:33167ms step_avg:nanms
step:10/1530 train_loss:6.5188 train_time:33328ms step_avg:nanms
step:11/1530 train_loss:6.5013 train_time:114ms step_avg:nanms
step:12/1530 train_loss:6.3350 train_time:274ms step_avg:nanms
step:13/1530 train_loss:6.2568 train_time:435ms step_avg:144.87ms
step:14/1530 train_loss:6.1921 train_time:595ms step_avg:148.70ms
step:15/1530 train_loss:6.1662 train_time:754ms step_avg:150.86ms
step:16/1530 train_loss:6.0887 train_time:915ms step_avg:152.53ms
step:17/1530 train_loss:6.1591 train_time:1076ms step_avg:153.65ms
step:18/1530 train_loss:5.9709 train_time:1236ms step_avg:154.52ms
step:19/1530 train_loss:5.9771 train_time:1397ms step_avg:155.19ms
step:20/1530 train_loss:5.6572 train_time:1556ms step_avg:155.63ms
step:21/1530 train_loss:5.9969 train_time:1716ms step_avg:155.97ms
step:22/1530 train_loss:6.1916 train_time:1875ms step_avg:156.27ms
step:23/1530 train_loss:5.8676 train_time:2036ms step_avg:156.62ms
step:24/1530 train_loss:6.0291 train_time:2196ms step_avg:156.87ms
step:25/1530 train_loss:5.7017 train_time:2357ms step_avg:157.11ms
step:26/1530 train_loss:5.5967 train_time:2517ms step_avg:157.31ms
step:27/1530 train_loss:5.8027 train_time:2677ms step_avg:157.48ms
step:28/1530 train_loss:5.3959 train_time:2838ms step_avg:157.67ms
step:29/1530 train_loss:5.6790 train_time:2998ms step_avg:157.77ms
step:30/1530 train_loss:5.4678 train_time:3159ms step_avg:157.94ms
step:31/1530 train_loss:5.4373 train_time:3320ms step_avg:158.08ms
step:32/1530 train_loss:5.2885 train_time:3479ms step_avg:158.15ms
step:33/1530 train_loss:5.5968 train_time:3638ms step_avg:158.17ms
step:34/1530 train_loss:5.4940 train_time:3799ms step_avg:158.30ms
step:35/1530 train_loss:5.6297 train_time:3960ms step_avg:158.39ms
step:36/1530 train_loss:5.5495 train_time:4118ms step_avg:158.40ms
step:37/1530 train_loss:5.4513 train_time:4279ms step_avg:158.47ms
step:38/1530 train_loss:5.2996 train_time:4439ms step_avg:158.54ms
step:39/1530 train_loss:5.3374 train_time:4600ms step_avg:158.61ms
step:40/1530 train_loss:5.2579 train_time:4760ms step_avg:158.67ms
step:41/1530 train_loss:5.2393 train_time:4919ms step_avg:158.68ms
step:42/1530 train_loss:5.1672 train_time:5080ms step_avg:158.75ms
step:43/1530 train_loss:5.2557 train_time:5238ms step_avg:158.73ms
step:44/1530 train_loss:5.2382 train_time:5399ms step_avg:158.78ms
step:45/1530 train_loss:5.3829 train_time:5558ms step_avg:158.81ms
step:46/1530 train_loss:5.1805 train_time:5718ms step_avg:158.83ms
step:47/1530 train_loss:5.0834 train_time:5879ms step_avg:158.90ms
step:48/1530 train_loss:5.2177 train_time:6040ms step_avg:158.95ms
step:49/1530 train_loss:5.1482 train_time:6201ms step_avg:159.00ms
step:50/1530 train_loss:5.2600 train_time:6360ms step_avg:159.00ms
step:51/1530 train_loss:5.1386 train_time:6520ms step_avg:159.02ms
step:52/1530 train_loss:5.0207 train_time:6680ms step_avg:159.04ms
step:53/1530 train_loss:5.1730 train_time:6839ms step_avg:159.05ms
step:54/1530 train_loss:5.0218 train_time:7000ms step_avg:159.10ms
step:55/1530 train_loss:5.4176 train_time:7160ms step_avg:159.11ms
step:56/1530 train_loss:5.0406 train_time:7319ms step_avg:159.12ms
step:57/1530 train_loss:4.8917 train_time:7478ms step_avg:159.10ms
step:58/1530 train_loss:5.0435 train_time:7638ms step_avg:159.12ms
step:59/1530 train_loss:5.0173 train_time:7799ms step_avg:159.17ms
step:60/1530 train_loss:5.1406 train_time:7959ms step_avg:159.19ms
step:61/1530 train_loss:4.8572 train_time:8119ms step_avg:159.19ms
step:62/1530 train_loss:4.9753 train_time:8280ms step_avg:159.23ms
step:63/1530 train_loss:4.9788 train_time:8441ms step_avg:159.26ms
step:64/1530 train_loss:4.8849 train_time:8600ms step_avg:159.26ms
step:65/1530 train_loss:4.7885 train_time:8761ms step_avg:159.29ms
step:66/1530 train_loss:4.9236 train_time:8921ms step_avg:159.30ms
step:67/1530 train_loss:4.8203 train_time:9080ms step_avg:159.30ms
step:68/1530 train_loss:5.0880 train_time:9241ms step_avg:159.33ms
step:69/1530 train_loss:4.7288 train_time:9402ms step_avg:159.36ms
step:70/1530 train_loss:4.8570 train_time:9563ms step_avg:159.38ms
step:71/1530 train_loss:4.9845 train_time:9722ms step_avg:159.38ms
step:72/1530 train_loss:4.9076 train_time:9883ms step_avg:159.41ms
step:73/1530 train_loss:4.7911 train_time:10045ms step_avg:159.44ms
step:74/1530 train_loss:4.9320 train_time:10208ms step_avg:159.50ms
step:75/1530 train_loss:4.8881 train_time:10369ms step_avg:159.52ms
step:76/1530 train_loss:4.8015 train_time:10529ms step_avg:159.53ms
step:77/1530 train_loss:4.9267 train_time:10689ms step_avg:159.54ms
step:78/1530 train_loss:5.1224 train_time:10849ms step_avg:159.54ms
step:79/1530 train_loss:4.8204 train_time:11010ms step_avg:159.57ms
step:80/1530 train_loss:4.8805 train_time:11171ms step_avg:159.59ms
step:81/1530 train_loss:4.6614 train_time:11331ms step_avg:159.60ms
step:82/1530 train_loss:4.8269 train_time:11493ms step_avg:159.62ms
step:83/1530 train_loss:4.7762 train_time:11653ms step_avg:159.63ms
step:84/1530 train_loss:4.7706 train_time:11814ms step_avg:159.65ms
step:85/1530 train_loss:4.6315 train_time:11974ms step_avg:159.66ms
step:86/1530 train_loss:4.8443 train_time:12134ms step_avg:159.66ms
step:87/1530 train_loss:4.7398 train_time:12295ms step_avg:159.68ms
step:88/1530 train_loss:4.7511 train_time:12456ms step_avg:159.69ms
step:89/1530 train_loss:4.7116 train_time:12616ms step_avg:159.69ms
step:90/1530 train_loss:4.6469 train_time:12776ms step_avg:159.70ms
step:91/1530 train_loss:4.6465 train_time:12936ms step_avg:159.70ms
step:92/1530 train_loss:4.8138 train_time:13096ms step_avg:159.71ms
step:93/1530 train_loss:4.6347 train_time:13257ms step_avg:159.72ms
step:94/1530 train_loss:4.6552 train_time:13416ms step_avg:159.72ms
step:95/1530 train_loss:4.6947 train_time:13576ms step_avg:159.72ms
step:96/1530 train_loss:4.5831 train_time:13736ms step_avg:159.72ms
step:97/1530 train_loss:4.6530 train_time:13896ms step_avg:159.73ms
step:98/1530 train_loss:4.5926 train_time:14056ms step_avg:159.72ms
step:99/1530 train_loss:4.6806 train_time:14217ms step_avg:159.74ms
step:100/1530 train_loss:4.6866 train_time:14378ms step_avg:159.76ms
step:101/1530 train_loss:4.5388 train_time:14538ms step_avg:159.76ms
step:102/1530 train_loss:4.7194 train_time:14699ms step_avg:159.77ms
step:103/1530 train_loss:4.5978 train_time:14858ms step_avg:159.77ms
step:104/1530 train_loss:4.5343 train_time:15018ms step_avg:159.77ms
step:105/1530 train_loss:4.5649 train_time:15177ms step_avg:159.76ms
step:106/1530 train_loss:4.6624 train_time:15337ms step_avg:159.76ms
step:107/1530 train_loss:4.5268 train_time:15498ms step_avg:159.77ms
step:108/1530 train_loss:4.3652 train_time:15658ms step_avg:159.77ms
step:109/1530 train_loss:4.4969 train_time:15818ms step_avg:159.78ms
step:110/1530 train_loss:4.5012 train_time:15979ms step_avg:159.79ms
step:111/1530 train_loss:4.4325 train_time:16139ms step_avg:159.79ms
step:112/1530 train_loss:4.5948 train_time:16298ms step_avg:159.78ms
step:113/1530 train_loss:4.5027 train_time:16459ms step_avg:159.79ms
step:114/1530 train_loss:4.3743 train_time:16620ms step_avg:159.81ms
step:115/1530 train_loss:4.5167 train_time:16782ms step_avg:159.83ms
step:116/1530 train_loss:4.4789 train_time:16946ms step_avg:159.87ms
step:117/1530 train_loss:4.3793 train_time:17111ms step_avg:159.91ms
step:118/1530 train_loss:4.5945 train_time:17275ms step_avg:159.95ms
step:119/1530 train_loss:4.4693 train_time:17439ms step_avg:159.99ms
step:120/1530 train_loss:4.3537 train_time:17604ms step_avg:160.03ms
step:121/1530 train_loss:4.3071 train_time:17767ms step_avg:160.06ms
step:122/1530 train_loss:4.4571 train_time:17931ms step_avg:160.10ms
step:123/1530 train_loss:4.2954 train_time:18095ms step_avg:160.13ms
step:124/1530 train_loss:4.5970 train_time:18258ms step_avg:160.16ms
step:125/1530 train_loss:4.4726 train_time:18423ms step_avg:160.20ms
step:125/1530 val_loss:4.4195 train_time:18470ms step_avg:160.61ms
step:126/1530 train_loss:4.4293 train_time:18587ms step_avg:160.23ms
step:127/1530 train_loss:4.4514 train_time:18754ms step_avg:160.29ms
step:128/1530 train_loss:4.3723 train_time:18917ms step_avg:160.32ms
step:129/1530 train_loss:4.6860 train_time:19082ms step_avg:160.36ms
step:130/1530 train_loss:4.3737 train_time:19246ms step_avg:160.39ms
step:131/1530 train_loss:4.4071 train_time:19409ms step_avg:160.41ms
step:132/1530 train_loss:4.3541 train_time:19575ms step_avg:160.45ms
step:133/1530 train_loss:4.4507 train_time:19740ms step_avg:160.49ms
step:134/1530 train_loss:4.2756 train_time:19904ms step_avg:160.51ms
step:135/1530 train_loss:4.4625 train_time:20069ms step_avg:160.56ms
step:136/1530 train_loss:4.2158 train_time:20235ms step_avg:160.60ms
step:137/1530 train_loss:4.3849 train_time:20400ms step_avg:160.63ms
step:138/1530 train_loss:4.2872 train_time:20564ms step_avg:160.65ms
step:139/1530 train_loss:4.3914 train_time:20727ms step_avg:160.68ms
step:140/1530 train_loss:4.4834 train_time:20892ms step_avg:160.70ms
step:141/1530 train_loss:4.3233 train_time:21056ms step_avg:160.73ms
step:142/1530 train_loss:4.3323 train_time:21219ms step_avg:160.75ms
step:143/1530 train_loss:4.2668 train_time:21384ms step_avg:160.78ms
step:144/1530 train_loss:4.3690 train_time:21548ms step_avg:160.81ms
step:145/1530 train_loss:4.3287 train_time:21712ms step_avg:160.83ms
step:146/1530 train_loss:4.1777 train_time:21877ms step_avg:160.86ms
step:147/1530 train_loss:4.3381 train_time:22041ms step_avg:160.88ms
step:148/1530 train_loss:4.3753 train_time:22205ms step_avg:160.91ms
step:149/1530 train_loss:4.3128 train_time:22370ms step_avg:160.93ms
step:150/1530 train_loss:4.4425 train_time:22535ms step_avg:160.96ms
step:151/1530 train_loss:4.2797 train_time:22699ms step_avg:160.98ms
step:152/1530 train_loss:4.2811 train_time:22863ms step_avg:161.00ms
step:153/1530 train_loss:4.3650 train_time:23026ms step_avg:161.02ms
step:154/1530 train_loss:4.3762 train_time:23189ms step_avg:161.03ms
step:155/1530 train_loss:4.2800 train_time:23354ms step_avg:161.06ms
step:156/1530 train_loss:4.3711 train_time:23518ms step_avg:161.09ms
step:157/1530 train_loss:4.4249 train_time:23683ms step_avg:161.11ms
step:158/1530 train_loss:4.2570 train_time:23847ms step_avg:161.13ms
step:159/1530 train_loss:4.3296 train_time:24012ms step_avg:161.15ms
step:160/1530 train_loss:4.1445 train_time:24178ms step_avg:161.18ms
step:161/1530 train_loss:4.3517 train_time:24341ms step_avg:161.20ms
step:162/1530 train_loss:4.3556 train_time:24506ms step_avg:161.22ms
step:163/1530 train_loss:4.3481 train_time:24671ms step_avg:161.25ms
step:164/1530 train_loss:4.1849 train_time:24835ms step_avg:161.27ms
step:165/1530 train_loss:4.2879 train_time:24999ms step_avg:161.28ms
step:166/1530 train_loss:4.3579 train_time:25163ms step_avg:161.30ms
step:167/1530 train_loss:4.2215 train_time:25326ms step_avg:161.31ms
step:168/1530 train_loss:4.2862 train_time:25489ms step_avg:161.33ms
step:169/1530 train_loss:4.1655 train_time:25654ms step_avg:161.35ms
step:170/1530 train_loss:4.0246 train_time:25819ms step_avg:161.37ms
step:171/1530 train_loss:4.2145 train_time:25982ms step_avg:161.38ms
step:172/1530 train_loss:4.2161 train_time:26145ms step_avg:161.39ms
step:173/1530 train_loss:4.2862 train_time:26307ms step_avg:161.40ms
step:174/1530 train_loss:4.4302 train_time:26471ms step_avg:161.41ms
step:175/1530 train_loss:4.2462 train_time:26634ms step_avg:161.42ms
step:176/1530 train_loss:4.0912 train_time:26797ms step_avg:161.43ms
step:177/1530 train_loss:4.0624 train_time:26960ms step_avg:161.44ms
step:178/1530 train_loss:4.1920 train_time:27122ms step_avg:161.44ms
step:179/1530 train_loss:4.1380 train_time:27285ms step_avg:161.45ms
step:180/1530 train_loss:4.1234 train_time:27448ms step_avg:161.46ms
step:181/1530 train_loss:4.2996 train_time:27609ms step_avg:161.45ms
step:182/1530 train_loss:4.1492 train_time:27773ms step_avg:161.47ms
step:183/1530 train_loss:4.1360 train_time:27936ms step_avg:161.48ms
step:184/1530 train_loss:4.1271 train_time:28099ms step_avg:161.49ms
step:185/1530 train_loss:4.2143 train_time:28262ms step_avg:161.50ms
step:186/1530 train_loss:4.1824 train_time:28425ms step_avg:161.51ms
step:187/1530 train_loss:4.2451 train_time:28588ms step_avg:161.51ms
step:188/1530 train_loss:4.1761 train_time:28887ms step_avg:162.29ms
step:189/1530 train_loss:4.1190 train_time:29219ms step_avg:163.23ms
step:190/1530 train_loss:4.2178 train_time:29381ms step_avg:163.23ms
step:191/1530 train_loss:4.0878 train_time:29545ms step_avg:163.23ms
step:192/1530 train_loss:4.0376 train_time:29707ms step_avg:163.22ms
step:193/1530 train_loss:4.2535 train_time:29870ms step_avg:163.22ms
step:194/1530 train_loss:4.1904 train_time:30033ms step_avg:163.22ms
step:195/1530 train_loss:4.3617 train_time:30196ms step_avg:163.22ms
step:196/1530 train_loss:4.1834 train_time:30360ms step_avg:163.23ms
step:197/1530 train_loss:4.0456 train_time:30523ms step_avg:163.22ms
step:198/1530 train_loss:4.1750 train_time:30686ms step_avg:163.22ms
step:199/1530 train_loss:4.0303 train_time:30849ms step_avg:163.22ms
step:200/1530 train_loss:4.1135 train_time:31013ms step_avg:163.22ms
step:201/1530 train_loss:4.0157 train_time:31175ms step_avg:163.22ms
step:202/1530 train_loss:4.2647 train_time:31338ms step_avg:163.22ms
step:203/1530 train_loss:4.0765 train_time:31501ms step_avg:163.22ms
step:204/1530 train_loss:4.1967 train_time:31665ms step_avg:163.22ms
step:205/1530 train_loss:4.2529 train_time:31827ms step_avg:163.22ms
step:206/1530 train_loss:3.9463 train_time:31989ms step_avg:163.21ms
step:207/1530 train_loss:4.0821 train_time:32151ms step_avg:163.20ms
step:208/1530 train_loss:4.1108 train_time:32315ms step_avg:163.20ms
step:209/1530 train_loss:4.2444 train_time:32478ms step_avg:163.21ms
step:210/1530 train_loss:4.1766 train_time:32641ms step_avg:163.21ms
step:211/1530 train_loss:4.0667 train_time:32804ms step_avg:163.20ms
step:212/1530 train_loss:4.1309 train_time:32967ms step_avg:163.20ms
step:213/1530 train_loss:4.0567 train_time:33128ms step_avg:163.19ms
step:214/1530 train_loss:4.1228 train_time:33291ms step_avg:163.19ms
step:215/1530 train_loss:3.9798 train_time:33454ms step_avg:163.19ms
step:216/1530 train_loss:4.0019 train_time:33616ms step_avg:163.19ms
step:217/1530 train_loss:4.0170 train_time:33780ms step_avg:163.19ms
step:218/1530 train_loss:4.0845 train_time:33943ms step_avg:163.19ms
step:219/1530 train_loss:4.0734 train_time:34105ms step_avg:163.18ms
step:220/1530 train_loss:4.0872 train_time:34269ms step_avg:163.19ms
step:221/1530 train_loss:4.0943 train_time:34431ms step_avg:163.18ms
step:222/1530 train_loss:3.9986 train_time:34593ms step_avg:163.18ms
step:223/1530 train_loss:3.9946 train_time:34757ms step_avg:163.18ms
step:224/1530 train_loss:4.3091 train_time:34919ms step_avg:163.17ms
step:225/1530 train_loss:3.9214 train_time:35082ms step_avg:163.17ms
step:226/1530 train_loss:3.9870 train_time:35245ms step_avg:163.17ms
step:227/1530 train_loss:3.9727 train_time:35407ms step_avg:163.17ms
step:228/1530 train_loss:4.1415 train_time:35573ms step_avg:163.18ms
step:229/1530 train_loss:3.9291 train_time:35738ms step_avg:163.19ms
step:230/1530 train_loss:4.0447 train_time:35904ms step_avg:163.20ms
step:231/1530 train_loss:3.9057 train_time:36070ms step_avg:163.21ms
step:232/1530 train_loss:3.9635 train_time:36236ms step_avg:163.23ms
step:233/1530 train_loss:4.0946 train_time:36402ms step_avg:163.24ms
step:234/1530 train_loss:4.0333 train_time:36568ms step_avg:163.25ms
step:235/1530 train_loss:3.9100 train_time:36736ms step_avg:163.27ms
step:236/1530 train_loss:4.0822 train_time:36902ms step_avg:163.28ms
step:237/1530 train_loss:4.0780 train_time:37068ms step_avg:163.30ms
step:238/1530 train_loss:3.9464 train_time:37236ms step_avg:163.31ms
step:239/1530 train_loss:4.0869 train_time:37402ms step_avg:163.33ms
step:240/1530 train_loss:4.1218 train_time:37568ms step_avg:163.34ms
step:241/1530 train_loss:3.9617 train_time:37733ms step_avg:163.35ms
step:242/1530 train_loss:4.1463 train_time:37900ms step_avg:163.36ms
step:243/1530 train_loss:4.0057 train_time:38066ms step_avg:163.37ms
step:244/1530 train_loss:4.0910 train_time:38232ms step_avg:163.39ms
step:245/1530 train_loss:4.1385 train_time:38398ms step_avg:163.40ms
step:246/1530 train_loss:4.0595 train_time:38564ms step_avg:163.41ms
step:247/1530 train_loss:4.0123 train_time:38730ms step_avg:163.42ms
step:248/1530 train_loss:4.1102 train_time:38896ms step_avg:163.43ms
step:249/1530 train_loss:3.9160 train_time:39063ms step_avg:163.44ms
step:250/1530 train_loss:3.9702 train_time:39228ms step_avg:163.45ms
step:250/1530 val_loss:4.0043 train_time:39276ms step_avg:163.65ms
step:251/1530 train_loss:4.0718 train_time:39398ms step_avg:163.48ms
step:252/1530 train_loss:4.1626 train_time:39565ms step_avg:163.49ms
step:253/1530 train_loss:3.9262 train_time:39731ms step_avg:163.50ms
step:254/1530 train_loss:3.8804 train_time:39898ms step_avg:163.52ms
step:255/1530 train_loss:4.0823 train_time:40064ms step_avg:163.53ms
step:256/1530 train_loss:4.0013 train_time:40230ms step_avg:163.54ms
step:257/1530 train_loss:3.9928 train_time:40396ms step_avg:163.55ms
step:258/1530 train_loss:3.9920 train_time:40562ms step_avg:163.56ms
step:259/1530 train_loss:4.0331 train_time:40729ms step_avg:163.57ms
step:260/1530 train_loss:4.0549 train_time:40896ms step_avg:163.58ms
step:261/1530 train_loss:4.0209 train_time:41063ms step_avg:163.60ms
step:262/1530 train_loss:3.9956 train_time:41229ms step_avg:163.61ms
step:263/1530 train_loss:3.8935 train_time:41396ms step_avg:163.62ms
step:264/1530 train_loss:3.9864 train_time:41562ms step_avg:163.63ms
step:265/1530 train_loss:3.8649 train_time:41728ms step_avg:163.64ms
step:266/1530 train_loss:3.9123 train_time:41894ms step_avg:163.65ms
step:267/1530 train_loss:3.9313 train_time:42060ms step_avg:163.66ms
step:268/1530 train_loss:3.9568 train_time:42225ms step_avg:163.66ms
step:269/1530 train_loss:3.8546 train_time:42390ms step_avg:163.67ms
step:270/1530 train_loss:4.1011 train_time:42558ms step_avg:163.68ms
step:271/1530 train_loss:3.9735 train_time:42724ms step_avg:163.69ms
step:272/1530 train_loss:3.9308 train_time:42890ms step_avg:163.70ms
step:273/1530 train_loss:3.9456 train_time:43055ms step_avg:163.71ms
step:274/1530 train_loss:4.0448 train_time:43222ms step_avg:163.72ms
step:275/1530 train_loss:4.0676 train_time:43388ms step_avg:163.73ms
step:276/1530 train_loss:4.2340 train_time:43554ms step_avg:163.74ms
step:277/1530 train_loss:4.0433 train_time:43720ms step_avg:163.75ms
step:278/1530 train_loss:4.0906 train_time:43886ms step_avg:163.75ms
step:279/1530 train_loss:4.0044 train_time:44052ms step_avg:163.76ms
step:280/1530 train_loss:4.1916 train_time:44218ms step_avg:163.77ms
step:281/1530 train_loss:3.9763 train_time:44384ms step_avg:163.78ms
step:282/1530 train_loss:3.9434 train_time:44549ms step_avg:163.78ms
step:283/1530 train_loss:3.9118 train_time:44716ms step_avg:163.79ms
step:284/1530 train_loss:4.0520 train_time:44881ms step_avg:163.80ms
step:285/1530 train_loss:4.0684 train_time:45046ms step_avg:163.81ms
step:286/1530 train_loss:4.0968 train_time:45212ms step_avg:163.81ms
step:287/1530 train_loss:3.9060 train_time:45378ms step_avg:163.82ms
step:288/1530 train_loss:4.0098 train_time:45543ms step_avg:163.82ms
step:289/1530 train_loss:3.8750 train_time:45708ms step_avg:163.83ms
step:290/1530 train_loss:3.8564 train_time:45874ms step_avg:163.83ms
step:291/1530 train_loss:3.9010 train_time:46038ms step_avg:163.84ms
step:292/1530 train_loss:3.8653 train_time:46203ms step_avg:163.84ms
step:293/1530 train_loss:3.9012 train_time:46369ms step_avg:163.85ms
step:294/1530 train_loss:3.9402 train_time:46534ms step_avg:163.85ms
step:295/1530 train_loss:3.8418 train_time:46699ms step_avg:163.85ms
step:296/1530 train_loss:3.8562 train_time:46864ms step_avg:163.86ms
step:297/1530 train_loss:3.8605 train_time:47030ms step_avg:163.87ms
step:298/1530 train_loss:3.9719 train_time:47195ms step_avg:163.87ms
step:299/1530 train_loss:3.8239 train_time:47360ms step_avg:163.88ms
step:300/1530 train_loss:3.9696 train_time:47526ms step_avg:163.88ms
step:301/1530 train_loss:3.9578 train_time:47690ms step_avg:163.88ms
step:302/1530 train_loss:3.9358 train_time:47854ms step_avg:163.89ms
step:303/1530 train_loss:3.9792 train_time:48020ms step_avg:163.89ms
step:304/1530 train_loss:3.9679 train_time:48185ms step_avg:163.89ms
step:305/1530 train_loss:4.4568 train_time:48350ms step_avg:163.90ms
step:306/1530 train_loss:3.9340 train_time:48516ms step_avg:163.90ms
step:307/1530 train_loss:3.8377 train_time:48680ms step_avg:163.91ms
step:308/1530 train_loss:3.9856 train_time:48846ms step_avg:163.91ms
step:309/1530 train_loss:3.8741 train_time:49011ms step_avg:163.92ms
step:310/1530 train_loss:4.0890 train_time:49176ms step_avg:163.92ms
step:311/1530 train_loss:3.9264 train_time:49342ms step_avg:163.93ms
step:312/1530 train_loss:3.8662 train_time:49506ms step_avg:163.93ms
step:313/1530 train_loss:3.9300 train_time:49670ms step_avg:163.93ms
step:314/1530 train_loss:4.0592 train_time:49838ms step_avg:163.94ms
step:315/1530 train_loss:3.9407 train_time:50003ms step_avg:163.94ms
step:316/1530 train_loss:3.7951 train_time:50167ms step_avg:163.95ms
step:317/1530 train_loss:3.8756 train_time:50335ms step_avg:163.96ms
step:318/1530 train_loss:3.9204 train_time:50501ms step_avg:163.96ms
step:319/1530 train_loss:3.8952 train_time:50666ms step_avg:163.97ms
step:320/1530 train_loss:4.0216 train_time:50833ms step_avg:163.98ms
step:321/1530 train_loss:3.9563 train_time:50998ms step_avg:163.98ms
step:322/1530 train_loss:3.9285 train_time:51163ms step_avg:163.99ms
step:323/1530 train_loss:4.0040 train_time:51329ms step_avg:163.99ms
step:324/1530 train_loss:3.9473 train_time:51495ms step_avg:164.00ms
step:325/1530 train_loss:4.0163 train_time:51661ms step_avg:164.00ms
step:326/1530 train_loss:3.8922 train_time:51826ms step_avg:164.01ms
step:327/1530 train_loss:4.3883 train_time:51992ms step_avg:164.01ms
step:328/1530 train_loss:4.0750 train_time:52156ms step_avg:164.01ms
step:329/1530 train_loss:3.7997 train_time:52322ms step_avg:164.02ms
step:330/1530 train_loss:3.7481 train_time:52486ms step_avg:164.02ms
step:331/1530 train_loss:3.9771 train_time:52650ms step_avg:164.02ms
step:332/1530 train_loss:3.9238 train_time:52816ms step_avg:164.02ms
step:333/1530 train_loss:3.8864 train_time:52981ms step_avg:164.03ms
step:334/1530 train_loss:3.8452 train_time:53146ms step_avg:164.03ms
step:335/1530 train_loss:4.0073 train_time:53310ms step_avg:164.03ms
step:336/1530 train_loss:3.9570 train_time:53476ms step_avg:164.04ms
step:337/1530 train_loss:4.4280 train_time:53642ms step_avg:164.04ms
step:338/1530 train_loss:3.9325 train_time:53806ms step_avg:164.04ms
step:339/1530 train_loss:3.8673 train_time:53972ms step_avg:164.05ms
step:340/1530 train_loss:3.9301 train_time:54138ms step_avg:164.05ms
step:341/1530 train_loss:3.8524 train_time:54304ms step_avg:164.06ms
step:342/1530 train_loss:3.8123 train_time:54472ms step_avg:164.07ms
step:343/1530 train_loss:3.8372 train_time:54640ms step_avg:164.08ms
step:344/1530 train_loss:3.9925 train_time:54808ms step_avg:164.09ms
step:345/1530 train_loss:3.8161 train_time:54978ms step_avg:164.11ms
step:346/1530 train_loss:3.7670 train_time:55146ms step_avg:164.12ms
step:347/1530 train_loss:3.7964 train_time:55316ms step_avg:164.14ms
step:348/1530 train_loss:3.8600 train_time:55483ms step_avg:164.15ms
step:349/1530 train_loss:3.8385 train_time:55651ms step_avg:164.16ms
step:350/1530 train_loss:3.5672 train_time:55820ms step_avg:164.18ms
step:351/1530 train_loss:3.8267 train_time:55988ms step_avg:164.19ms
step:352/1530 train_loss:4.1859 train_time:56157ms step_avg:164.20ms
step:353/1530 train_loss:3.6626 train_time:56325ms step_avg:164.21ms
step:354/1530 train_loss:3.9269 train_time:56492ms step_avg:164.22ms
step:355/1530 train_loss:3.7886 train_time:56660ms step_avg:164.23ms
step:356/1530 train_loss:3.8856 train_time:56828ms step_avg:164.24ms
step:357/1530 train_loss:3.7623 train_time:56997ms step_avg:164.26ms
step:358/1530 train_loss:3.8657 train_time:57165ms step_avg:164.27ms
step:359/1530 train_loss:3.7890 train_time:57335ms step_avg:164.28ms
step:360/1530 train_loss:3.4328 train_time:57505ms step_avg:164.30ms
step:361/1530 train_loss:4.0161 train_time:57674ms step_avg:164.31ms
step:362/1530 train_loss:3.9273 train_time:57842ms step_avg:164.32ms
step:363/1530 train_loss:3.8375 train_time:58009ms step_avg:164.33ms
step:364/1530 train_loss:3.7468 train_time:58178ms step_avg:164.34ms
step:365/1530 train_loss:3.9180 train_time:58346ms step_avg:164.35ms
step:366/1530 train_loss:3.8564 train_time:58514ms step_avg:164.37ms
step:367/1530 train_loss:3.8583 train_time:58682ms step_avg:164.37ms
step:368/1530 train_loss:3.8482 train_time:58849ms step_avg:164.38ms
step:369/1530 train_loss:3.7446 train_time:59018ms step_avg:164.40ms
step:370/1530 train_loss:3.8813 train_time:59185ms step_avg:164.40ms
step:371/1530 train_loss:3.7305 train_time:59353ms step_avg:164.41ms
step:372/1530 train_loss:3.6959 train_time:59522ms step_avg:164.43ms
step:373/1530 train_loss:3.9157 train_time:59689ms step_avg:164.43ms
step:374/1530 train_loss:3.8273 train_time:59856ms step_avg:164.44ms
step:375/1530 train_loss:3.8019 train_time:60024ms step_avg:164.45ms
step:375/1530 val_loss:3.8286 train_time:60072ms step_avg:164.58ms
step:376/1530 train_loss:3.8712 train_time:60194ms step_avg:164.46ms
step:377/1530 train_loss:3.7870 train_time:60496ms step_avg:164.84ms
step:378/1530 train_loss:3.8429 train_time:60675ms step_avg:164.88ms
step:379/1530 train_loss:3.8703 train_time:60995ms step_avg:165.30ms
step:380/1530 train_loss:3.9535 train_time:61160ms step_avg:165.30ms
step:381/1530 train_loss:3.8350 train_time:61327ms step_avg:165.30ms
step:382/1530 train_loss:3.7977 train_time:61495ms step_avg:165.31ms
step:383/1530 train_loss:3.7922 train_time:61664ms step_avg:165.32ms
step:384/1530 train_loss:3.8728 train_time:61831ms step_avg:165.32ms
step:385/1530 train_loss:3.7893 train_time:61999ms step_avg:165.33ms
step:386/1530 train_loss:3.8914 train_time:62167ms step_avg:165.34ms
step:387/1530 train_loss:4.0615 train_time:62336ms step_avg:165.35ms
step:388/1530 train_loss:3.7932 train_time:62503ms step_avg:165.35ms
step:389/1530 train_loss:3.7906 train_time:62672ms step_avg:165.36ms
step:390/1530 train_loss:3.8959 train_time:62840ms step_avg:165.37ms
step:391/1530 train_loss:3.8140 train_time:63008ms step_avg:165.38ms
step:392/1530 train_loss:3.9262 train_time:63175ms step_avg:165.38ms
step:393/1530 train_loss:3.7594 train_time:63344ms step_avg:165.39ms
step:394/1530 train_loss:3.8845 train_time:63512ms step_avg:165.40ms
step:395/1530 train_loss:3.6297 train_time:63679ms step_avg:165.40ms
step:396/1530 train_loss:3.8403 train_time:63848ms step_avg:165.41ms
step:397/1530 train_loss:3.8604 train_time:64016ms step_avg:165.42ms
step:398/1530 train_loss:3.8783 train_time:64184ms step_avg:165.42ms
step:399/1530 train_loss:3.7670 train_time:64351ms step_avg:165.43ms
step:400/1530 train_loss:3.8289 train_time:64518ms step_avg:165.43ms
step:401/1530 train_loss:3.9095 train_time:64686ms step_avg:165.44ms
step:402/1530 train_loss:3.8424 train_time:64853ms step_avg:165.44ms
step:403/1530 train_loss:3.9655 train_time:65020ms step_avg:165.45ms
step:404/1530 train_loss:3.6876 train_time:65189ms step_avg:165.45ms
step:405/1530 train_loss:3.7821 train_time:65355ms step_avg:165.46ms
step:406/1530 train_loss:4.1018 train_time:65522ms step_avg:165.46ms
step:407/1530 train_loss:3.7774 train_time:65690ms step_avg:165.47ms
step:408/1530 train_loss:3.8220 train_time:65856ms step_avg:165.47ms
step:409/1530 train_loss:3.8594 train_time:66024ms step_avg:165.47ms
step:410/1530 train_loss:3.7622 train_time:66191ms step_avg:165.48ms
step:411/1530 train_loss:3.7607 train_time:66357ms step_avg:165.48ms
step:412/1530 train_loss:4.1943 train_time:66525ms step_avg:165.48ms
step:413/1530 train_loss:3.6237 train_time:66692ms step_avg:165.49ms
step:414/1530 train_loss:4.0164 train_time:66858ms step_avg:165.49ms
step:415/1530 train_loss:3.7560 train_time:67026ms step_avg:165.50ms
step:416/1530 train_loss:3.7623 train_time:67193ms step_avg:165.50ms
step:417/1530 train_loss:3.9565 train_time:67361ms step_avg:165.51ms
step:418/1530 train_loss:3.6845 train_time:67527ms step_avg:165.51ms
step:419/1530 train_loss:3.8025 train_time:67694ms step_avg:165.51ms
step:420/1530 train_loss:3.7011 train_time:67862ms step_avg:165.52ms
step:421/1530 train_loss:3.6504 train_time:68028ms step_avg:165.52ms
step:422/1530 train_loss:3.7884 train_time:68194ms step_avg:165.52ms
step:423/1530 train_loss:3.8703 train_time:68362ms step_avg:165.53ms
step:424/1530 train_loss:3.6180 train_time:68529ms step_avg:165.53ms
step:425/1530 train_loss:3.8024 train_time:68697ms step_avg:165.53ms
step:426/1530 train_loss:3.6463 train_time:68865ms step_avg:165.54ms
step:427/1530 train_loss:3.8899 train_time:69031ms step_avg:165.54ms
step:428/1530 train_loss:3.8071 train_time:69198ms step_avg:165.55ms
step:429/1530 train_loss:3.7570 train_time:69367ms step_avg:165.55ms
step:430/1530 train_loss:3.7071 train_time:69533ms step_avg:165.56ms
step:431/1530 train_loss:3.6321 train_time:69701ms step_avg:165.56ms
step:432/1530 train_loss:3.7658 train_time:69868ms step_avg:165.56ms
step:433/1530 train_loss:3.8124 train_time:70034ms step_avg:165.57ms
step:434/1530 train_loss:3.7699 train_time:70201ms step_avg:165.57ms
step:435/1530 train_loss:3.8084 train_time:70368ms step_avg:165.57ms
step:436/1530 train_loss:3.8282 train_time:70534ms step_avg:165.57ms
step:437/1530 train_loss:3.7246 train_time:70700ms step_avg:165.57ms
step:438/1530 train_loss:3.6992 train_time:70868ms step_avg:165.58ms
step:439/1530 train_loss:3.7082 train_time:71035ms step_avg:165.58ms
step:440/1530 train_loss:3.8893 train_time:71202ms step_avg:165.59ms
step:441/1530 train_loss:3.7601 train_time:71371ms step_avg:165.59ms
step:442/1530 train_loss:3.7390 train_time:71539ms step_avg:165.60ms
step:443/1530 train_loss:3.6229 train_time:71706ms step_avg:165.60ms
step:444/1530 train_loss:3.9239 train_time:71873ms step_avg:165.60ms
step:445/1530 train_loss:3.8448 train_time:72039ms step_avg:165.61ms
step:446/1530 train_loss:3.8355 train_time:72205ms step_avg:165.61ms
step:447/1530 train_loss:3.7544 train_time:72373ms step_avg:165.61ms
step:448/1530 train_loss:3.8571 train_time:72540ms step_avg:165.62ms
step:449/1530 train_loss:3.6882 train_time:72707ms step_avg:165.62ms
step:450/1530 train_loss:3.7189 train_time:72874ms step_avg:165.62ms
step:451/1530 train_loss:3.5859 train_time:73042ms step_avg:165.63ms
step:452/1530 train_loss:3.7146 train_time:73209ms step_avg:165.63ms
step:453/1530 train_loss:3.6693 train_time:73376ms step_avg:165.63ms
step:454/1530 train_loss:3.6365 train_time:73544ms step_avg:165.64ms
step:455/1530 train_loss:3.8395 train_time:73712ms step_avg:165.64ms
step:456/1530 train_loss:3.7305 train_time:73882ms step_avg:165.65ms
step:457/1530 train_loss:3.7882 train_time:74051ms step_avg:165.66ms
step:458/1530 train_loss:3.8252 train_time:74221ms step_avg:165.67ms
step:459/1530 train_loss:3.6264 train_time:74392ms step_avg:165.68ms
step:460/1530 train_loss:3.7883 train_time:74561ms step_avg:165.69ms
step:461/1530 train_loss:3.6911 train_time:74731ms step_avg:165.70ms
step:462/1530 train_loss:3.7367 train_time:74900ms step_avg:165.71ms
step:463/1530 train_loss:3.7801 train_time:75071ms step_avg:165.72ms
step:464/1530 train_loss:3.7155 train_time:75240ms step_avg:165.73ms
step:465/1530 train_loss:3.7108 train_time:75409ms step_avg:165.73ms
step:466/1530 train_loss:3.8042 train_time:75577ms step_avg:165.74ms
step:467/1530 train_loss:3.8189 train_time:75749ms step_avg:165.75ms
step:468/1530 train_loss:3.7890 train_time:75918ms step_avg:165.76ms
step:469/1530 train_loss:3.6872 train_time:76089ms step_avg:165.77ms
step:470/1530 train_loss:3.7638 train_time:76257ms step_avg:165.78ms
step:471/1530 train_loss:3.8101 train_time:76428ms step_avg:165.79ms
step:472/1530 train_loss:3.7822 train_time:76599ms step_avg:165.80ms
step:473/1530 train_loss:3.7169 train_time:76770ms step_avg:165.81ms
step:474/1530 train_loss:3.5910 train_time:76940ms step_avg:165.82ms
step:475/1530 train_loss:4.0109 train_time:77109ms step_avg:165.83ms
step:476/1530 train_loss:3.7535 train_time:77279ms step_avg:165.83ms
step:477/1530 train_loss:3.5971 train_time:77450ms step_avg:165.85ms
step:478/1530 train_loss:3.8225 train_time:77618ms step_avg:165.85ms
step:479/1530 train_loss:3.7746 train_time:77790ms step_avg:165.86ms
step:480/1530 train_loss:3.9254 train_time:77958ms step_avg:165.87ms
step:481/1530 train_loss:3.7204 train_time:78128ms step_avg:165.88ms
step:482/1530 train_loss:3.5255 train_time:78297ms step_avg:165.88ms
step:483/1530 train_loss:3.8029 train_time:78468ms step_avg:165.89ms
step:484/1530 train_loss:3.6533 train_time:78637ms step_avg:165.90ms
step:485/1530 train_loss:3.6521 train_time:78806ms step_avg:165.91ms
step:486/1530 train_loss:3.5708 train_time:78976ms step_avg:165.92ms
step:487/1530 train_loss:3.6862 train_time:79146ms step_avg:165.92ms
step:488/1530 train_loss:3.8809 train_time:79315ms step_avg:165.93ms
step:489/1530 train_loss:3.7061 train_time:79489ms step_avg:165.95ms
step:490/1530 train_loss:3.6020 train_time:79657ms step_avg:165.95ms
step:491/1530 train_loss:3.6188 train_time:79827ms step_avg:165.96ms
step:492/1530 train_loss:3.7358 train_time:79996ms step_avg:165.97ms
step:493/1530 train_loss:3.5779 train_time:80169ms step_avg:165.98ms
step:494/1530 train_loss:3.6969 train_time:80336ms step_avg:165.98ms
step:495/1530 train_loss:3.6597 train_time:80507ms step_avg:165.99ms
step:496/1530 train_loss:3.5052 train_time:80679ms step_avg:166.01ms
step:497/1530 train_loss:3.7297 train_time:80848ms step_avg:166.01ms
step:498/1530 train_loss:3.7863 train_time:81017ms step_avg:166.02ms
step:499/1530 train_loss:3.8155 train_time:81190ms step_avg:166.03ms
step:500/1530 train_loss:3.7283 train_time:81360ms step_avg:166.04ms
step:500/1530 val_loss:3.7032 train_time:81408ms step_avg:166.14ms
step:501/1530 train_loss:3.7995 train_time:81528ms step_avg:166.05ms
step:502/1530 train_loss:3.7506 train_time:81701ms step_avg:166.06ms
step:503/1530 train_loss:3.7784 train_time:81871ms step_avg:166.07ms
step:504/1530 train_loss:3.7218 train_time:82041ms step_avg:166.07ms
step:505/1530 train_loss:3.8058 train_time:82210ms step_avg:166.08ms
step:506/1530 train_loss:3.6457 train_time:82381ms step_avg:166.09ms
step:507/1530 train_loss:3.7653 train_time:82550ms step_avg:166.10ms
step:508/1530 train_loss:3.8207 train_time:82722ms step_avg:166.11ms
step:509/1530 train_loss:3.7676 train_time:82892ms step_avg:166.12ms
step:510/1530 train_loss:3.5786 train_time:83061ms step_avg:166.12ms
step:511/1530 train_loss:3.7728 train_time:83230ms step_avg:166.13ms
step:512/1530 train_loss:3.7186 train_time:83402ms step_avg:166.14ms
step:513/1530 train_loss:3.6643 train_time:83571ms step_avg:166.15ms
step:514/1530 train_loss:3.7911 train_time:83740ms step_avg:166.15ms
step:515/1530 train_loss:3.7328 train_time:83910ms step_avg:166.16ms
step:516/1530 train_loss:4.0797 train_time:84080ms step_avg:166.17ms
step:517/1530 train_loss:3.6919 train_time:84248ms step_avg:166.17ms
step:518/1530 train_loss:3.7634 train_time:84418ms step_avg:166.18ms
step:519/1530 train_loss:3.6557 train_time:84588ms step_avg:166.18ms
step:520/1530 train_loss:3.6840 train_time:84757ms step_avg:166.19ms
step:521/1530 train_loss:3.6574 train_time:84926ms step_avg:166.20ms
step:522/1530 train_loss:3.6512 train_time:85097ms step_avg:166.20ms
step:523/1530 train_loss:4.2959 train_time:85265ms step_avg:166.21ms
step:524/1530 train_loss:3.7400 train_time:85433ms step_avg:166.21ms
step:525/1530 train_loss:3.6798 train_time:85602ms step_avg:166.22ms
step:526/1530 train_loss:3.6948 train_time:85771ms step_avg:166.22ms
step:527/1530 train_loss:3.6546 train_time:85941ms step_avg:166.23ms
step:528/1530 train_loss:3.6277 train_time:86109ms step_avg:166.23ms
step:529/1530 train_loss:3.8487 train_time:86277ms step_avg:166.24ms
step:530/1530 train_loss:3.6423 train_time:86447ms step_avg:166.24ms
step:531/1530 train_loss:3.9187 train_time:86618ms step_avg:166.25ms
step:532/1530 train_loss:3.7306 train_time:86786ms step_avg:166.26ms
step:533/1530 train_loss:3.6552 train_time:86956ms step_avg:166.26ms
step:534/1530 train_loss:3.6642 train_time:87125ms step_avg:166.27ms
step:535/1530 train_loss:3.6125 train_time:87294ms step_avg:166.27ms
step:536/1530 train_loss:3.7555 train_time:87462ms step_avg:166.28ms
step:537/1530 train_loss:3.7241 train_time:87632ms step_avg:166.28ms
step:538/1530 train_loss:3.6280 train_time:87803ms step_avg:166.29ms
step:539/1530 train_loss:4.1047 train_time:87976ms step_avg:166.31ms
step:540/1530 train_loss:3.6759 train_time:88145ms step_avg:166.31ms
step:541/1530 train_loss:3.7789 train_time:88313ms step_avg:166.32ms
step:542/1530 train_loss:3.5762 train_time:88482ms step_avg:166.32ms
step:543/1530 train_loss:3.5846 train_time:88651ms step_avg:166.33ms
step:544/1530 train_loss:3.6358 train_time:88821ms step_avg:166.33ms
step:545/1530 train_loss:3.5918 train_time:88989ms step_avg:166.33ms
step:546/1530 train_loss:3.6288 train_time:89158ms step_avg:166.34ms
step:547/1530 train_loss:3.6354 train_time:89326ms step_avg:166.34ms
step:548/1530 train_loss:3.6044 train_time:89496ms step_avg:166.35ms
step:549/1530 train_loss:3.7191 train_time:89664ms step_avg:166.35ms
step:550/1530 train_loss:3.6191 train_time:89835ms step_avg:166.36ms
step:551/1530 train_loss:3.6335 train_time:90003ms step_avg:166.36ms
step:552/1530 train_loss:3.9229 train_time:90174ms step_avg:166.37ms
step:553/1530 train_loss:3.7565 train_time:90343ms step_avg:166.38ms
step:554/1530 train_loss:3.7145 train_time:90514ms step_avg:166.39ms
step:555/1530 train_loss:3.6255 train_time:90683ms step_avg:166.39ms
step:556/1530 train_loss:3.6940 train_time:90852ms step_avg:166.40ms
step:557/1530 train_loss:3.3057 train_time:91021ms step_avg:166.40ms
step:558/1530 train_loss:3.6142 train_time:91190ms step_avg:166.40ms
step:559/1530 train_loss:3.6456 train_time:91358ms step_avg:166.41ms
step:560/1530 train_loss:3.6881 train_time:91526ms step_avg:166.41ms
step:561/1530 train_loss:3.6074 train_time:91697ms step_avg:166.42ms
step:562/1530 train_loss:3.5542 train_time:91866ms step_avg:166.42ms
step:563/1530 train_loss:3.7585 train_time:92036ms step_avg:166.43ms
step:564/1530 train_loss:3.5733 train_time:92206ms step_avg:166.44ms
step:565/1530 train_loss:3.6822 train_time:92376ms step_avg:166.44ms
step:566/1530 train_loss:3.6274 train_time:92677ms step_avg:166.69ms
step:567/1530 train_loss:3.6004 train_time:92855ms step_avg:166.71ms
step:568/1530 train_loss:3.6807 train_time:93025ms step_avg:166.71ms
step:569/1530 train_loss:3.6487 train_time:93354ms step_avg:167.00ms
step:570/1530 train_loss:3.6910 train_time:93525ms step_avg:167.01ms
step:571/1530 train_loss:3.7618 train_time:93695ms step_avg:167.01ms
step:572/1530 train_loss:3.7217 train_time:93866ms step_avg:167.02ms
step:573/1530 train_loss:3.7290 train_time:94039ms step_avg:167.03ms
step:574/1530 train_loss:3.7766 train_time:94213ms step_avg:167.04ms
step:575/1530 train_loss:3.7270 train_time:94384ms step_avg:167.05ms
step:576/1530 train_loss:3.7543 train_time:94555ms step_avg:167.06ms
step:577/1530 train_loss:3.6623 train_time:94726ms step_avg:167.06ms
step:578/1530 train_loss:3.6731 train_time:94899ms step_avg:167.08ms
step:579/1530 train_loss:3.6685 train_time:95070ms step_avg:167.08ms
step:580/1530 train_loss:3.5878 train_time:95241ms step_avg:167.09ms
step:581/1530 train_loss:3.6355 train_time:95412ms step_avg:167.10ms
step:582/1530 train_loss:3.8496 train_time:95583ms step_avg:167.10ms
step:583/1530 train_loss:3.6268 train_time:95755ms step_avg:167.11ms
step:584/1530 train_loss:3.5932 train_time:95925ms step_avg:167.12ms
step:585/1530 train_loss:3.7875 train_time:96097ms step_avg:167.13ms
step:586/1530 train_loss:3.5172 train_time:96268ms step_avg:167.13ms
step:587/1530 train_loss:3.6659 train_time:96439ms step_avg:167.14ms
step:588/1530 train_loss:3.6430 train_time:96609ms step_avg:167.14ms
step:589/1530 train_loss:3.9923 train_time:96781ms step_avg:167.15ms
step:590/1530 train_loss:3.7777 train_time:96956ms step_avg:167.17ms
step:591/1530 train_loss:3.5027 train_time:97127ms step_avg:167.17ms
step:592/1530 train_loss:3.5331 train_time:97301ms step_avg:167.18ms
step:593/1530 train_loss:3.4974 train_time:97474ms step_avg:167.19ms
step:594/1530 train_loss:3.5509 train_time:97646ms step_avg:167.20ms
step:595/1530 train_loss:3.9125 train_time:97820ms step_avg:167.21ms
step:596/1530 train_loss:3.6460 train_time:97994ms step_avg:167.23ms
step:597/1530 train_loss:3.5847 train_time:98165ms step_avg:167.23ms
step:598/1530 train_loss:3.6546 train_time:98335ms step_avg:167.24ms
step:599/1530 train_loss:3.4812 train_time:98506ms step_avg:167.24ms
step:600/1530 train_loss:3.5981 train_time:98678ms step_avg:167.25ms
step:601/1530 train_loss:3.6476 train_time:98851ms step_avg:167.26ms
step:602/1530 train_loss:3.6668 train_time:99023ms step_avg:167.27ms
step:603/1530 train_loss:3.7847 train_time:99195ms step_avg:167.28ms
step:604/1530 train_loss:3.6067 train_time:99366ms step_avg:167.28ms
step:605/1530 train_loss:3.6081 train_time:99539ms step_avg:167.29ms
step:606/1530 train_loss:3.5703 train_time:99712ms step_avg:167.30ms
step:607/1530 train_loss:3.8380 train_time:99883ms step_avg:167.31ms
step:608/1530 train_loss:3.6319 train_time:100056ms step_avg:167.32ms
step:609/1530 train_loss:3.6172 train_time:100226ms step_avg:167.32ms
step:610/1530 train_loss:3.6977 train_time:100397ms step_avg:167.33ms
step:611/1530 train_loss:3.5952 train_time:100567ms step_avg:167.33ms
step:612/1530 train_loss:3.5758 train_time:100739ms step_avg:167.34ms
step:613/1530 train_loss:3.7616 train_time:100909ms step_avg:167.34ms
step:614/1530 train_loss:3.7070 train_time:101081ms step_avg:167.35ms
step:615/1530 train_loss:3.6834 train_time:101252ms step_avg:167.36ms
step:616/1530 train_loss:3.6266 train_time:101423ms step_avg:167.36ms
step:617/1530 train_loss:3.5489 train_time:101597ms step_avg:167.38ms
step:618/1530 train_loss:3.6890 train_time:101767ms step_avg:167.38ms
step:619/1530 train_loss:3.5472 train_time:101939ms step_avg:167.39ms
step:620/1530 train_loss:3.5863 train_time:102110ms step_avg:167.39ms
step:621/1530 train_loss:3.9187 train_time:102283ms step_avg:167.40ms
step:622/1530 train_loss:3.5663 train_time:102456ms step_avg:167.41ms
step:623/1530 train_loss:3.6002 train_time:102628ms step_avg:167.42ms
step:624/1530 train_loss:3.6930 train_time:102800ms step_avg:167.43ms
step:625/1530 train_loss:3.7009 train_time:102969ms step_avg:167.43ms
step:625/1530 val_loss:3.6204 train_time:103019ms step_avg:167.51ms
step:626/1530 train_loss:3.7315 train_time:103141ms step_avg:167.44ms
step:627/1530 train_loss:3.7096 train_time:103313ms step_avg:167.44ms
step:628/1530 train_loss:3.7631 train_time:103482ms step_avg:167.45ms
step:629/1530 train_loss:3.5887 train_time:103654ms step_avg:167.45ms
step:630/1530 train_loss:3.7229 train_time:103824ms step_avg:167.46ms
step:631/1530 train_loss:3.7424 train_time:103994ms step_avg:167.46ms
step:632/1530 train_loss:3.6473 train_time:104166ms step_avg:167.47ms
step:633/1530 train_loss:3.6001 train_time:104337ms step_avg:167.48ms
step:634/1530 train_loss:3.6955 train_time:104508ms step_avg:167.48ms
step:635/1530 train_loss:3.9485 train_time:104678ms step_avg:167.48ms
step:636/1530 train_loss:3.5411 train_time:104850ms step_avg:167.49ms
step:637/1530 train_loss:3.3511 train_time:105020ms step_avg:167.50ms
step:638/1530 train_loss:3.5883 train_time:105190ms step_avg:167.50ms
step:639/1530 train_loss:3.6302 train_time:105360ms step_avg:167.50ms
step:640/1530 train_loss:3.5660 train_time:105531ms step_avg:167.51ms
step:641/1530 train_loss:3.5907 train_time:105700ms step_avg:167.51ms
step:642/1530 train_loss:3.6267 train_time:105870ms step_avg:167.52ms
step:643/1530 train_loss:3.5923 train_time:106040ms step_avg:167.52ms
step:644/1530 train_loss:3.5672 train_time:106210ms step_avg:167.52ms
step:645/1530 train_loss:3.7691 train_time:106380ms step_avg:167.53ms
step:646/1530 train_loss:3.6781 train_time:106552ms step_avg:167.53ms
step:647/1530 train_loss:3.6605 train_time:106722ms step_avg:167.54ms
step:648/1530 train_loss:3.7083 train_time:106894ms step_avg:167.54ms
step:649/1530 train_loss:3.7635 train_time:107063ms step_avg:167.55ms
step:650/1530 train_loss:3.6200 train_time:107235ms step_avg:167.56ms
step:651/1530 train_loss:3.7714 train_time:107406ms step_avg:167.56ms
step:652/1530 train_loss:3.5809 train_time:107576ms step_avg:167.56ms
step:653/1530 train_loss:3.6556 train_time:107748ms step_avg:167.57ms
step:654/1530 train_loss:3.4270 train_time:107918ms step_avg:167.57ms
step:655/1530 train_loss:3.5799 train_time:108088ms step_avg:167.58ms
step:656/1530 train_loss:3.5757 train_time:108258ms step_avg:167.58ms
step:657/1530 train_loss:3.4974 train_time:108430ms step_avg:167.59ms
step:658/1530 train_loss:3.6858 train_time:108599ms step_avg:167.59ms
step:659/1530 train_loss:3.5871 train_time:108771ms step_avg:167.60ms
step:660/1530 train_loss:3.6832 train_time:108941ms step_avg:167.60ms
step:661/1530 train_loss:3.7472 train_time:109113ms step_avg:167.61ms
step:662/1530 train_loss:3.6680 train_time:109282ms step_avg:167.61ms
step:663/1530 train_loss:3.5505 train_time:109452ms step_avg:167.61ms
step:664/1530 train_loss:3.6091 train_time:109623ms step_avg:167.62ms
step:665/1530 train_loss:3.4886 train_time:109794ms step_avg:167.62ms
step:666/1530 train_loss:3.7796 train_time:109964ms step_avg:167.63ms
step:667/1530 train_loss:3.6005 train_time:110136ms step_avg:167.63ms
step:668/1530 train_loss:3.6481 train_time:110308ms step_avg:167.64ms
step:669/1530 train_loss:3.4900 train_time:110478ms step_avg:167.65ms
step:670/1530 train_loss:3.5993 train_time:110650ms step_avg:167.65ms
step:671/1530 train_loss:3.5499 train_time:110820ms step_avg:167.65ms
step:672/1530 train_loss:3.5624 train_time:110991ms step_avg:167.66ms
step:673/1530 train_loss:3.8467 train_time:111160ms step_avg:167.66ms
step:674/1530 train_loss:3.6192 train_time:111332ms step_avg:167.67ms
step:675/1530 train_loss:3.7102 train_time:111503ms step_avg:167.67ms
step:676/1530 train_loss:3.4864 train_time:111675ms step_avg:167.68ms
step:677/1530 train_loss:3.5957 train_time:111847ms step_avg:167.69ms
step:678/1530 train_loss:3.5560 train_time:112018ms step_avg:167.69ms
step:679/1530 train_loss:3.6745 train_time:112191ms step_avg:167.70ms
step:680/1530 train_loss:3.5807 train_time:112360ms step_avg:167.70ms
step:681/1530 train_loss:3.6149 train_time:112533ms step_avg:167.71ms
step:682/1530 train_loss:3.6594 train_time:112709ms step_avg:167.72ms
step:683/1530 train_loss:3.7339 train_time:112882ms step_avg:167.73ms
step:684/1530 train_loss:3.6434 train_time:113054ms step_avg:167.74ms
step:685/1530 train_loss:3.6826 train_time:113226ms step_avg:167.74ms
step:686/1530 train_loss:3.6321 train_time:113399ms step_avg:167.75ms
step:687/1530 train_loss:3.6584 train_time:113571ms step_avg:167.76ms
step:688/1530 train_loss:3.2059 train_time:113747ms step_avg:167.77ms
step:689/1530 train_loss:3.4055 train_time:113920ms step_avg:167.78ms
step:690/1530 train_loss:3.5377 train_time:114094ms step_avg:167.79ms
step:691/1530 train_loss:3.4068 train_time:114266ms step_avg:167.79ms
step:692/1530 train_loss:3.6196 train_time:114438ms step_avg:167.80ms
step:693/1530 train_loss:3.6425 train_time:114613ms step_avg:167.81ms
step:694/1530 train_loss:3.5500 train_time:114784ms step_avg:167.81ms
step:695/1530 train_loss:3.5340 train_time:114956ms step_avg:167.82ms
step:696/1530 train_loss:3.8563 train_time:115130ms step_avg:167.83ms
step:697/1530 train_loss:3.5862 train_time:115302ms step_avg:167.83ms
step:698/1530 train_loss:3.6432 train_time:115474ms step_avg:167.84ms
step:699/1530 train_loss:3.7637 train_time:115651ms step_avg:167.85ms
step:700/1530 train_loss:3.5679 train_time:115824ms step_avg:167.86ms
step:701/1530 train_loss:3.5433 train_time:115994ms step_avg:167.86ms
step:702/1530 train_loss:3.5084 train_time:116168ms step_avg:167.87ms
step:703/1530 train_loss:3.5020 train_time:116340ms step_avg:167.88ms
step:704/1530 train_loss:3.5702 train_time:116512ms step_avg:167.88ms
step:705/1530 train_loss:3.5586 train_time:116688ms step_avg:167.90ms
step:706/1530 train_loss:3.5734 train_time:116862ms step_avg:167.91ms
step:707/1530 train_loss:3.6474 train_time:117037ms step_avg:167.92ms
step:708/1530 train_loss:3.5991 train_time:117210ms step_avg:167.92ms
step:709/1530 train_loss:3.5796 train_time:117384ms step_avg:167.93ms
step:710/1530 train_loss:3.5385 train_time:117555ms step_avg:167.94ms
step:711/1530 train_loss:3.5923 train_time:117729ms step_avg:167.94ms
step:712/1530 train_loss:3.6459 train_time:117904ms step_avg:167.95ms
step:713/1530 train_loss:3.6497 train_time:118079ms step_avg:167.96ms
step:714/1530 train_loss:3.5632 train_time:118252ms step_avg:167.97ms
step:715/1530 train_loss:3.5670 train_time:118424ms step_avg:167.98ms
step:716/1530 train_loss:3.5861 train_time:118595ms step_avg:167.98ms
step:717/1530 train_loss:3.7063 train_time:118771ms step_avg:167.99ms
step:718/1530 train_loss:3.5933 train_time:118942ms step_avg:168.00ms
step:719/1530 train_loss:3.6741 train_time:119115ms step_avg:168.00ms
step:720/1530 train_loss:3.8561 train_time:119290ms step_avg:168.01ms
step:721/1530 train_loss:3.4705 train_time:119462ms step_avg:168.02ms
step:722/1530 train_loss:3.7362 train_time:119636ms step_avg:168.03ms
step:723/1530 train_loss:3.7637 train_time:119807ms step_avg:168.03ms
step:724/1530 train_loss:3.5667 train_time:119981ms step_avg:168.04ms
step:725/1530 train_loss:3.6516 train_time:120154ms step_avg:168.05ms
step:726/1530 train_loss:3.5274 train_time:120326ms step_avg:168.05ms
step:727/1530 train_loss:3.5818 train_time:120501ms step_avg:168.06ms
step:728/1530 train_loss:3.7290 train_time:120674ms step_avg:168.07ms
step:729/1530 train_loss:3.6697 train_time:120848ms step_avg:168.08ms
step:730/1530 train_loss:3.6590 train_time:121021ms step_avg:168.09ms
step:731/1530 train_loss:3.5530 train_time:121194ms step_avg:168.09ms
step:732/1530 train_loss:3.5951 train_time:121365ms step_avg:168.10ms
step:733/1530 train_loss:3.8353 train_time:121539ms step_avg:168.10ms
step:734/1530 train_loss:3.5608 train_time:121714ms step_avg:168.11ms
step:735/1530 train_loss:3.6145 train_time:121886ms step_avg:168.12ms
step:736/1530 train_loss:3.7403 train_time:122059ms step_avg:168.13ms
step:737/1530 train_loss:3.6728 train_time:122232ms step_avg:168.13ms
step:738/1530 train_loss:3.5950 train_time:122402ms step_avg:168.13ms
step:739/1530 train_loss:3.4988 train_time:122574ms step_avg:168.14ms
step:740/1530 train_loss:4.1171 train_time:122752ms step_avg:168.15ms
step:741/1530 train_loss:3.4904 train_time:122924ms step_avg:168.16ms
step:742/1530 train_loss:3.5465 train_time:123096ms step_avg:168.16ms
step:743/1530 train_loss:3.5794 train_time:123270ms step_avg:168.17ms
step:744/1530 train_loss:3.6451 train_time:123441ms step_avg:168.18ms
step:745/1530 train_loss:3.5817 train_time:123616ms step_avg:168.18ms
step:746/1530 train_loss:3.5892 train_time:123788ms step_avg:168.19ms
step:747/1530 train_loss:3.6449 train_time:123961ms step_avg:168.20ms
step:748/1530 train_loss:3.5628 train_time:124138ms step_avg:168.21ms
step:749/1530 train_loss:3.5554 train_time:124312ms step_avg:168.22ms
step:750/1530 train_loss:3.5942 train_time:124484ms step_avg:168.22ms
step:750/1530 val_loss:3.5628 train_time:124532ms step_avg:168.29ms
step:751/1530 train_loss:3.5656 train_time:124659ms step_avg:168.23ms
step:752/1530 train_loss:3.6150 train_time:124829ms step_avg:168.23ms
step:753/1530 train_loss:3.6128 train_time:125002ms step_avg:168.24ms
step:754/1530 train_loss:3.5916 train_time:125175ms step_avg:168.25ms
step:755/1530 train_loss:3.6812 train_time:125488ms step_avg:168.44ms
step:756/1530 train_loss:3.4607 train_time:125671ms step_avg:168.46ms
step:757/1530 train_loss:3.7308 train_time:125844ms step_avg:168.47ms
step:758/1530 train_loss:3.6485 train_time:126015ms step_avg:168.47ms
step:759/1530 train_loss:3.5860 train_time:126340ms step_avg:168.68ms
step:760/1530 train_loss:3.7074 train_time:126508ms step_avg:168.68ms
step:761/1530 train_loss:3.4043 train_time:126682ms step_avg:168.68ms
step:762/1530 train_loss:3.5519 train_time:126856ms step_avg:168.69ms
step:763/1530 train_loss:3.6620 train_time:127028ms step_avg:168.70ms
step:764/1530 train_loss:3.3205 train_time:127201ms step_avg:168.70ms
step:765/1530 train_loss:3.7289 train_time:127375ms step_avg:168.71ms
step:766/1530 train_loss:3.5706 train_time:127547ms step_avg:168.71ms
step:767/1530 train_loss:3.5596 train_time:127719ms step_avg:168.72ms
step:768/1530 train_loss:3.5630 train_time:127893ms step_avg:168.72ms
step:769/1530 train_loss:3.5831 train_time:128065ms step_avg:168.73ms
step:770/1530 train_loss:3.6395 train_time:128237ms step_avg:168.73ms
step:771/1530 train_loss:3.8802 train_time:128411ms step_avg:168.74ms
step:772/1530 train_loss:3.4470 train_time:128583ms step_avg:168.74ms
step:773/1530 train_loss:3.6307 train_time:128757ms step_avg:168.75ms
step:774/1530 train_loss:3.6391 train_time:128930ms step_avg:168.76ms
step:775/1530 train_loss:3.6050 train_time:129102ms step_avg:168.76ms
step:776/1530 train_loss:3.3968 train_time:129279ms step_avg:168.77ms
step:777/1530 train_loss:3.3805 train_time:129454ms step_avg:168.78ms
step:778/1530 train_loss:3.4905 train_time:129626ms step_avg:168.78ms
step:779/1530 train_loss:3.5816 train_time:129799ms step_avg:168.79ms
step:780/1530 train_loss:3.5837 train_time:129972ms step_avg:168.80ms
step:781/1530 train_loss:3.6671 train_time:130143ms step_avg:168.80ms
step:782/1530 train_loss:3.5879 train_time:130316ms step_avg:168.80ms
step:783/1530 train_loss:3.5661 train_time:130488ms step_avg:168.81ms
step:784/1530 train_loss:3.6165 train_time:130662ms step_avg:168.81ms
step:785/1530 train_loss:3.5625 train_time:130832ms step_avg:168.82ms
step:786/1530 train_loss:3.4382 train_time:131005ms step_avg:168.82ms
step:787/1530 train_loss:3.7904 train_time:131178ms step_avg:168.83ms
step:788/1530 train_loss:3.4994 train_time:131352ms step_avg:168.83ms
step:789/1530 train_loss:3.5458 train_time:131522ms step_avg:168.83ms
step:790/1530 train_loss:3.6238 train_time:131697ms step_avg:168.84ms
step:791/1530 train_loss:3.7676 train_time:131873ms step_avg:168.85ms
step:792/1530 train_loss:3.7569 train_time:132045ms step_avg:168.85ms
step:793/1530 train_loss:3.4433 train_time:132216ms step_avg:168.86ms
step:794/1530 train_loss:3.5876 train_time:132388ms step_avg:168.86ms
step:795/1530 train_loss:3.6698 train_time:132563ms step_avg:168.87ms
step:796/1530 train_loss:3.7426 train_time:132740ms step_avg:168.88ms
step:797/1530 train_loss:3.5186 train_time:132914ms step_avg:168.89ms
step:798/1530 train_loss:3.6455 train_time:133089ms step_avg:168.90ms
step:799/1530 train_loss:3.5327 train_time:133268ms step_avg:168.91ms
step:800/1530 train_loss:3.5340 train_time:133442ms step_avg:168.91ms
step:801/1530 train_loss:3.6288 train_time:133617ms step_avg:168.92ms
step:802/1530 train_loss:3.4970 train_time:133793ms step_avg:168.93ms
step:803/1530 train_loss:3.4859 train_time:133967ms step_avg:168.94ms
step:804/1530 train_loss:3.6308 train_time:134141ms step_avg:168.94ms
step:805/1530 train_loss:3.5184 train_time:134318ms step_avg:168.95ms
step:806/1530 train_loss:3.5574 train_time:134492ms step_avg:168.96ms
step:807/1530 train_loss:3.6428 train_time:134666ms step_avg:168.97ms
step:808/1530 train_loss:3.5432 train_time:134841ms step_avg:168.97ms
step:809/1530 train_loss:3.4918 train_time:135015ms step_avg:168.98ms
step:810/1530 train_loss:3.5541 train_time:135187ms step_avg:168.98ms
step:811/1530 train_loss:3.5742 train_time:135361ms step_avg:168.99ms
step:812/1530 train_loss:3.6013 train_time:135534ms step_avg:168.99ms
step:813/1530 train_loss:3.6238 train_time:135706ms step_avg:169.00ms
step:814/1530 train_loss:3.5647 train_time:135882ms step_avg:169.01ms
step:815/1530 train_loss:3.5638 train_time:136058ms step_avg:169.02ms
step:816/1530 train_loss:3.6839 train_time:136235ms step_avg:169.03ms
step:817/1530 train_loss:3.7637 train_time:136408ms step_avg:169.03ms
step:818/1530 train_loss:3.5215 train_time:136580ms step_avg:169.04ms
step:819/1530 train_loss:3.7193 train_time:136756ms step_avg:169.04ms
step:820/1530 train_loss:3.4957 train_time:136930ms step_avg:169.05ms
step:821/1530 train_loss:3.5653 train_time:137104ms step_avg:169.06ms
step:822/1530 train_loss:3.6973 train_time:137281ms step_avg:169.07ms
step:823/1530 train_loss:3.5751 train_time:137456ms step_avg:169.07ms
step:824/1530 train_loss:3.5120 train_time:137628ms step_avg:169.08ms
step:825/1530 train_loss:3.6138 train_time:137803ms step_avg:169.08ms
step:826/1530 train_loss:3.4800 train_time:137979ms step_avg:169.09ms
step:827/1530 train_loss:3.7319 train_time:138154ms step_avg:169.10ms
step:828/1530 train_loss:3.6210 train_time:138326ms step_avg:169.10ms
step:829/1530 train_loss:3.6230 train_time:138502ms step_avg:169.11ms
step:830/1530 train_loss:3.5324 train_time:138678ms step_avg:169.12ms
step:831/1530 train_loss:3.5970 train_time:138851ms step_avg:169.12ms
step:832/1530 train_loss:3.5074 train_time:139025ms step_avg:169.13ms
step:833/1530 train_loss:3.6515 train_time:139201ms step_avg:169.14ms
step:834/1530 train_loss:3.4671 train_time:139376ms step_avg:169.15ms
step:835/1530 train_loss:3.4568 train_time:139548ms step_avg:169.15ms
step:836/1530 train_loss:3.7140 train_time:139723ms step_avg:169.16ms
step:837/1530 train_loss:3.3975 train_time:139898ms step_avg:169.16ms
step:838/1530 train_loss:3.5939 train_time:140072ms step_avg:169.17ms
step:839/1530 train_loss:3.4161 train_time:140246ms step_avg:169.17ms
step:840/1530 train_loss:3.4654 train_time:140418ms step_avg:169.18ms
step:841/1530 train_loss:3.5678 train_time:140590ms step_avg:169.18ms
step:842/1530 train_loss:3.5762 train_time:140765ms step_avg:169.19ms
step:843/1530 train_loss:3.5590 train_time:140938ms step_avg:169.19ms
step:844/1530 train_loss:3.4255 train_time:141112ms step_avg:169.20ms
step:845/1530 train_loss:3.6663 train_time:141286ms step_avg:169.20ms
step:846/1530 train_loss:3.5171 train_time:141462ms step_avg:169.21ms
step:847/1530 train_loss:3.4899 train_time:141636ms step_avg:169.22ms
step:848/1530 train_loss:3.6360 train_time:141809ms step_avg:169.22ms
step:849/1530 train_loss:3.4917 train_time:141983ms step_avg:169.23ms
step:850/1530 train_loss:3.4361 train_time:142157ms step_avg:169.23ms
step:851/1530 train_loss:3.7332 train_time:142329ms step_avg:169.24ms
step:852/1530 train_loss:3.4357 train_time:142502ms step_avg:169.24ms
step:853/1530 train_loss:3.5698 train_time:142676ms step_avg:169.25ms
step:854/1530 train_loss:3.6520 train_time:142849ms step_avg:169.25ms
step:855/1530 train_loss:3.5173 train_time:143021ms step_avg:169.26ms
step:856/1530 train_loss:3.5454 train_time:143196ms step_avg:169.26ms
step:857/1530 train_loss:3.6071 train_time:143369ms step_avg:169.27ms
step:858/1530 train_loss:3.4635 train_time:143546ms step_avg:169.28ms
step:859/1530 train_loss:3.5596 train_time:143720ms step_avg:169.28ms
step:860/1530 train_loss:3.5823 train_time:143891ms step_avg:169.28ms
step:861/1530 train_loss:3.6301 train_time:144069ms step_avg:169.29ms
step:862/1530 train_loss:3.6054 train_time:144246ms step_avg:169.30ms
step:863/1530 train_loss:3.5623 train_time:144420ms step_avg:169.31ms
step:864/1530 train_loss:3.3761 train_time:144592ms step_avg:169.31ms
step:865/1530 train_loss:3.5935 train_time:144764ms step_avg:169.31ms
step:866/1530 train_loss:3.9007 train_time:144943ms step_avg:169.33ms
step:867/1530 train_loss:3.4539 train_time:145116ms step_avg:169.33ms
step:868/1530 train_loss:3.6460 train_time:145287ms step_avg:169.33ms
step:869/1530 train_loss:3.6170 train_time:145461ms step_avg:169.34ms
step:870/1530 train_loss:3.4494 train_time:145637ms step_avg:169.35ms
step:871/1530 train_loss:3.3849 train_time:145811ms step_avg:169.35ms
step:872/1530 train_loss:3.6531 train_time:145985ms step_avg:169.36ms
step:873/1530 train_loss:3.4594 train_time:146159ms step_avg:169.36ms
step:874/1530 train_loss:3.2249 train_time:146337ms step_avg:169.37ms
step:875/1530 train_loss:3.6315 train_time:146511ms step_avg:169.38ms
step:875/1530 val_loss:3.5177 train_time:146560ms step_avg:169.43ms
step:876/1530 train_loss:3.4365 train_time:146685ms step_avg:169.38ms
step:877/1530 train_loss:3.6182 train_time:146861ms step_avg:169.39ms
step:878/1530 train_loss:3.4678 train_time:147037ms step_avg:169.40ms
step:879/1530 train_loss:3.6470 train_time:147209ms step_avg:169.40ms
step:880/1530 train_loss:3.3060 train_time:147383ms step_avg:169.41ms
step:881/1530 train_loss:3.4745 train_time:147557ms step_avg:169.41ms
step:882/1530 train_loss:3.6978 train_time:147729ms step_avg:169.41ms
step:883/1530 train_loss:3.8375 train_time:147902ms step_avg:169.42ms
step:884/1530 train_loss:3.5649 train_time:148080ms step_avg:169.43ms
step:885/1530 train_loss:3.4960 train_time:148252ms step_avg:169.43ms
step:886/1530 train_loss:3.5680 train_time:148426ms step_avg:169.44ms
step:887/1530 train_loss:4.0772 train_time:148602ms step_avg:169.44ms
step:888/1530 train_loss:3.8383 train_time:148783ms step_avg:169.46ms
step:889/1530 train_loss:3.5198 train_time:148956ms step_avg:169.46ms
step:890/1530 train_loss:3.5269 train_time:149127ms step_avg:169.46ms
step:891/1530 train_loss:3.3528 train_time:149301ms step_avg:169.47ms
step:892/1530 train_loss:3.7169 train_time:149475ms step_avg:169.47ms
step:893/1530 train_loss:3.4215 train_time:149647ms step_avg:169.48ms
step:894/1530 train_loss:3.6456 train_time:149824ms step_avg:169.48ms
step:895/1530 train_loss:3.6751 train_time:150000ms step_avg:169.49ms
step:896/1530 train_loss:3.4956 train_time:150175ms step_avg:169.50ms
step:897/1530 train_loss:3.5421 train_time:150349ms step_avg:169.50ms
step:898/1530 train_loss:3.5886 train_time:150525ms step_avg:169.51ms
step:899/1530 train_loss:3.4778 train_time:150699ms step_avg:169.51ms
step:900/1530 train_loss:3.4268 train_time:150870ms step_avg:169.52ms
step:901/1530 train_loss:3.6176 train_time:151042ms step_avg:169.52ms
step:902/1530 train_loss:3.6325 train_time:151216ms step_avg:169.52ms
step:903/1530 train_loss:3.5417 train_time:151394ms step_avg:169.53ms
step:904/1530 train_loss:3.4952 train_time:151566ms step_avg:169.54ms
step:905/1530 train_loss:3.5114 train_time:151737ms step_avg:169.54ms
step:906/1530 train_loss:3.7059 train_time:151911ms step_avg:169.54ms
step:907/1530 train_loss:3.5195 train_time:152086ms step_avg:169.55ms
step:908/1530 train_loss:3.5689 train_time:152258ms step_avg:169.55ms
step:909/1530 train_loss:3.4546 train_time:152435ms step_avg:169.56ms
step:910/1530 train_loss:3.5213 train_time:152614ms step_avg:169.57ms
step:911/1530 train_loss:3.6470 train_time:152791ms step_avg:169.58ms
step:912/1530 train_loss:3.6011 train_time:152967ms step_avg:169.59ms
step:913/1530 train_loss:3.4553 train_time:153144ms step_avg:169.59ms
step:914/1530 train_loss:3.7415 train_time:153323ms step_avg:169.60ms
step:915/1530 train_loss:3.5307 train_time:153504ms step_avg:169.62ms
step:916/1530 train_loss:3.6152 train_time:153681ms step_avg:169.63ms
step:917/1530 train_loss:3.5969 train_time:153855ms step_avg:169.63ms
step:918/1530 train_loss:4.8309 train_time:154035ms step_avg:169.64ms
step:919/1530 train_loss:3.5024 train_time:154213ms step_avg:169.65ms
step:920/1530 train_loss:3.5888 train_time:154387ms step_avg:169.66ms
step:921/1530 train_loss:3.5491 train_time:154563ms step_avg:169.66ms
step:922/1530 train_loss:3.5800 train_time:154741ms step_avg:169.67ms
step:923/1530 train_loss:3.6060 train_time:154916ms step_avg:169.68ms
step:924/1530 train_loss:3.6789 train_time:155093ms step_avg:169.69ms
step:925/1530 train_loss:3.6475 train_time:155267ms step_avg:169.69ms
step:926/1530 train_loss:3.5528 train_time:155441ms step_avg:169.70ms
step:927/1530 train_loss:3.5541 train_time:155617ms step_avg:169.70ms
step:928/1530 train_loss:3.7747 train_time:155795ms step_avg:169.71ms
step:929/1530 train_loss:3.6103 train_time:155969ms step_avg:169.72ms
step:930/1530 train_loss:3.4038 train_time:156145ms step_avg:169.72ms
step:931/1530 train_loss:3.4918 train_time:156319ms step_avg:169.73ms
step:932/1530 train_loss:3.6491 train_time:156497ms step_avg:169.74ms
step:933/1530 train_loss:3.3653 train_time:156672ms step_avg:169.74ms
step:934/1530 train_loss:3.5818 train_time:156850ms step_avg:169.75ms
step:935/1530 train_loss:3.4418 train_time:157029ms step_avg:169.76ms
step:936/1530 train_loss:3.5137 train_time:157207ms step_avg:169.77ms
step:937/1530 train_loss:3.6250 train_time:157385ms step_avg:169.78ms
step:938/1530 train_loss:3.5415 train_time:157559ms step_avg:169.78ms
step:939/1530 train_loss:3.6697 train_time:157741ms step_avg:169.80ms
step:940/1530 train_loss:3.4816 train_time:157916ms step_avg:169.80ms
step:941/1530 train_loss:3.5444 train_time:158090ms step_avg:169.81ms
step:942/1530 train_loss:3.3574 train_time:158268ms step_avg:169.82ms
step:943/1530 train_loss:3.7082 train_time:158449ms step_avg:169.83ms
step:944/1530 train_loss:3.4049 train_time:158760ms step_avg:169.98ms
step:945/1530 train_loss:3.4221 train_time:158944ms step_avg:169.99ms
step:946/1530 train_loss:5.0793 train_time:159125ms step_avg:170.01ms
step:947/1530 train_loss:3.5999 train_time:159301ms step_avg:170.01ms
step:948/1530 train_loss:3.4870 train_time:159477ms step_avg:170.02ms
step:949/1530 train_loss:3.3715 train_time:159808ms step_avg:170.19ms
step:950/1530 train_loss:3.4372 train_time:159984ms step_avg:170.20ms
step:951/1530 train_loss:3.4071 train_time:160163ms step_avg:170.21ms
step:952/1530 train_loss:3.4736 train_time:160340ms step_avg:170.21ms
step:953/1530 train_loss:3.5657 train_time:160516ms step_avg:170.22ms
step:954/1530 train_loss:3.4455 train_time:160694ms step_avg:170.23ms
step:955/1530 train_loss:3.4675 train_time:160866ms step_avg:170.23ms
step:956/1530 train_loss:3.4407 train_time:161042ms step_avg:170.23ms
step:957/1530 train_loss:3.4909 train_time:161222ms step_avg:170.25ms
step:958/1530 train_loss:3.5048 train_time:161403ms step_avg:170.26ms
step:959/1530 train_loss:3.5109 train_time:161579ms step_avg:170.26ms
step:960/1530 train_loss:3.4094 train_time:161757ms step_avg:170.27ms
step:961/1530 train_loss:3.6502 train_time:161933ms step_avg:170.28ms
step:962/1530 train_loss:3.5906 train_time:162106ms step_avg:170.28ms
step:963/1530 train_loss:3.5399 train_time:162284ms step_avg:170.29ms
step:964/1530 train_loss:3.4296 train_time:162462ms step_avg:170.30ms
step:965/1530 train_loss:3.4742 train_time:162636ms step_avg:170.30ms
step:966/1530 train_loss:3.7113 train_time:162810ms step_avg:170.30ms
step:967/1530 train_loss:3.5188 train_time:162984ms step_avg:170.31ms
step:968/1530 train_loss:3.5149 train_time:163161ms step_avg:170.31ms
step:969/1530 train_loss:3.5851 train_time:163336ms step_avg:170.32ms
step:970/1530 train_loss:3.3689 train_time:163509ms step_avg:170.32ms
step:971/1530 train_loss:3.5328 train_time:163685ms step_avg:170.33ms
step:972/1530 train_loss:3.4810 train_time:163858ms step_avg:170.33ms
step:973/1530 train_loss:3.5445 train_time:164033ms step_avg:170.34ms
step:974/1530 train_loss:3.5863 train_time:164210ms step_avg:170.34ms
step:975/1530 train_loss:3.4657 train_time:164385ms step_avg:170.35ms
step:976/1530 train_loss:3.6685 train_time:164560ms step_avg:170.35ms
step:977/1530 train_loss:3.5687 train_time:164735ms step_avg:170.36ms
step:978/1530 train_loss:3.3615 train_time:164908ms step_avg:170.36ms
step:979/1530 train_loss:3.6250 train_time:165084ms step_avg:170.37ms
step:980/1530 train_loss:3.4169 train_time:165262ms step_avg:170.37ms
step:981/1530 train_loss:3.5711 train_time:165439ms step_avg:170.38ms
step:982/1530 train_loss:3.5405 train_time:165612ms step_avg:170.38ms
step:983/1530 train_loss:3.5138 train_time:165790ms step_avg:170.39ms
step:984/1530 train_loss:3.4959 train_time:165964ms step_avg:170.39ms
step:985/1530 train_loss:3.5743 train_time:166140ms step_avg:170.40ms
step:986/1530 train_loss:3.4088 train_time:166315ms step_avg:170.41ms
step:987/1530 train_loss:3.4815 train_time:166489ms step_avg:170.41ms
step:988/1530 train_loss:3.4829 train_time:166663ms step_avg:170.41ms
step:989/1530 train_loss:3.4106 train_time:166837ms step_avg:170.42ms
step:990/1530 train_loss:3.6582 train_time:167013ms step_avg:170.42ms
step:991/1530 train_loss:3.4692 train_time:167187ms step_avg:170.43ms
step:992/1530 train_loss:3.4403 train_time:167367ms step_avg:170.44ms
step:993/1530 train_loss:3.5039 train_time:167547ms step_avg:170.44ms
step:994/1530 train_loss:3.5975 train_time:167721ms step_avg:170.45ms
step:995/1530 train_loss:3.5304 train_time:167894ms step_avg:170.45ms
step:996/1530 train_loss:3.4499 train_time:168065ms step_avg:170.45ms
step:997/1530 train_loss:3.7546 train_time:168240ms step_avg:170.46ms
step:998/1530 train_loss:3.4397 train_time:168412ms step_avg:170.46ms
step:999/1530 train_loss:3.5873 train_time:168586ms step_avg:170.46ms
step:1000/1530 train_loss:3.4311 train_time:168764ms step_avg:170.47ms
step:1000/1530 val_loss:3.4643 train_time:168815ms step_avg:170.52ms
step:1001/1530 train_loss:3.4978 train_time:168939ms step_avg:170.47ms
step:1002/1530 train_loss:3.3746 train_time:169114ms step_avg:170.48ms
step:1003/1530 train_loss:3.5526 train_time:169292ms step_avg:170.49ms
step:1004/1530 train_loss:3.6024 train_time:169468ms step_avg:170.49ms
step:1005/1530 train_loss:3.3870 train_time:169644ms step_avg:170.50ms
step:1006/1530 train_loss:3.4635 train_time:169819ms step_avg:170.50ms
step:1007/1530 train_loss:3.4321 train_time:169996ms step_avg:170.51ms
step:1008/1530 train_loss:3.5617 train_time:170172ms step_avg:170.51ms
step:1009/1530 train_loss:3.6625 train_time:170351ms step_avg:170.52ms
step:1010/1530 train_loss:3.5576 train_time:170524ms step_avg:170.52ms
step:1011/1530 train_loss:3.5340 train_time:170697ms step_avg:170.53ms
step:1012/1530 train_loss:3.3911 train_time:170873ms step_avg:170.53ms
step:1013/1530 train_loss:3.5319 train_time:171048ms step_avg:170.54ms
step:1014/1530 train_loss:3.6137 train_time:171223ms step_avg:170.54ms
step:1015/1530 train_loss:3.3271 train_time:171399ms step_avg:170.55ms
step:1016/1530 train_loss:3.4094 train_time:171574ms step_avg:170.55ms
step:1017/1530 train_loss:3.3963 train_time:171750ms step_avg:170.56ms
step:1018/1530 train_loss:3.3926 train_time:171925ms step_avg:170.56ms
step:1019/1530 train_loss:3.5157 train_time:172099ms step_avg:170.56ms
step:1020/1530 train_loss:3.3758 train_time:172277ms step_avg:170.57ms
step:1021/1530 train_loss:3.3542 train_time:172451ms step_avg:170.57ms
step:1022/1530 train_loss:3.4809 train_time:172628ms step_avg:170.58ms
step:1023/1530 train_loss:3.5022 train_time:172803ms step_avg:170.59ms
step:1024/1530 train_loss:3.4741 train_time:172980ms step_avg:170.59ms
step:1025/1530 train_loss:3.4793 train_time:173156ms step_avg:170.60ms
step:1026/1530 train_loss:3.6120 train_time:173332ms step_avg:170.60ms
step:1027/1530 train_loss:3.3183 train_time:173508ms step_avg:170.61ms
step:1028/1530 train_loss:3.3972 train_time:173690ms step_avg:170.62ms
step:1029/1530 train_loss:3.3116 train_time:173870ms step_avg:170.63ms
step:1030/1530 train_loss:3.5356 train_time:174045ms step_avg:170.63ms
step:1031/1530 train_loss:3.5072 train_time:174220ms step_avg:170.64ms
step:1032/1530 train_loss:3.6877 train_time:174402ms step_avg:170.65ms
step:1033/1530 train_loss:3.4918 train_time:174578ms step_avg:170.65ms
step:1034/1530 train_loss:3.3921 train_time:174754ms step_avg:170.66ms
step:1035/1530 train_loss:3.4431 train_time:174933ms step_avg:170.67ms
step:1036/1530 train_loss:3.4852 train_time:175112ms step_avg:170.67ms
step:1037/1530 train_loss:3.7916 train_time:175288ms step_avg:170.68ms
step:1038/1530 train_loss:3.6143 train_time:175463ms step_avg:170.68ms
step:1039/1530 train_loss:3.5080 train_time:175646ms step_avg:170.70ms
step:1040/1530 train_loss:3.4130 train_time:175820ms step_avg:170.70ms
step:1041/1530 train_loss:3.4857 train_time:175998ms step_avg:170.71ms
step:1042/1530 train_loss:3.5223 train_time:176172ms step_avg:170.71ms
step:1043/1530 train_loss:3.4459 train_time:176347ms step_avg:170.71ms
step:1044/1530 train_loss:3.4550 train_time:176522ms step_avg:170.72ms
step:1045/1530 train_loss:3.5119 train_time:176700ms step_avg:170.72ms
step:1046/1530 train_loss:3.4215 train_time:176875ms step_avg:170.73ms
step:1047/1530 train_loss:3.6299 train_time:177052ms step_avg:170.74ms
step:1048/1530 train_loss:3.4918 train_time:177229ms step_avg:170.74ms
step:1049/1530 train_loss:3.3999 train_time:177404ms step_avg:170.75ms
step:1050/1530 train_loss:3.3941 train_time:177581ms step_avg:170.75ms
step:1051/1530 train_loss:3.4952 train_time:177759ms step_avg:170.76ms
step:1052/1530 train_loss:3.3591 train_time:177936ms step_avg:170.76ms
step:1053/1530 train_loss:3.6872 train_time:178115ms step_avg:170.77ms
step:1054/1530 train_loss:3.5397 train_time:178296ms step_avg:170.78ms
step:1055/1530 train_loss:3.3813 train_time:178472ms step_avg:170.79ms
step:1056/1530 train_loss:3.4943 train_time:178646ms step_avg:170.79ms
step:1057/1530 train_loss:3.5791 train_time:178822ms step_avg:170.80ms
step:1058/1530 train_loss:3.2987 train_time:179001ms step_avg:170.80ms
step:1059/1530 train_loss:3.3623 train_time:179182ms step_avg:170.81ms
step:1060/1530 train_loss:3.4357 train_time:179357ms step_avg:170.82ms
step:1061/1530 train_loss:3.4172 train_time:179532ms step_avg:170.82ms
step:1062/1530 train_loss:3.3849 train_time:179710ms step_avg:170.83ms
step:1063/1530 train_loss:3.4567 train_time:179884ms step_avg:170.83ms
step:1064/1530 train_loss:3.3764 train_time:180057ms step_avg:170.83ms
step:1065/1530 train_loss:3.3573 train_time:180235ms step_avg:170.84ms
step:1066/1530 train_loss:3.4095 train_time:180412ms step_avg:170.84ms
step:1067/1530 train_loss:3.2812 train_time:180591ms step_avg:170.85ms
step:1068/1530 train_loss:3.4366 train_time:180767ms step_avg:170.86ms
step:1069/1530 train_loss:3.2960 train_time:180948ms step_avg:170.87ms
step:1070/1530 train_loss:3.5638 train_time:181123ms step_avg:170.87ms
step:1071/1530 train_loss:3.5087 train_time:181302ms step_avg:170.88ms
step:1072/1530 train_loss:3.4354 train_time:181477ms step_avg:170.88ms
step:1073/1530 train_loss:3.5257 train_time:181651ms step_avg:170.89ms
step:1074/1530 train_loss:3.4270 train_time:181828ms step_avg:170.89ms
step:1075/1530 train_loss:3.3963 train_time:182007ms step_avg:170.90ms
step:1076/1530 train_loss:3.7946 train_time:182181ms step_avg:170.90ms
step:1077/1530 train_loss:3.4250 train_time:182355ms step_avg:170.90ms
step:1078/1530 train_loss:3.0815 train_time:182539ms step_avg:170.92ms
step:1079/1530 train_loss:3.5334 train_time:182715ms step_avg:170.92ms
step:1080/1530 train_loss:3.4270 train_time:182893ms step_avg:170.93ms
step:1081/1530 train_loss:3.4979 train_time:183068ms step_avg:170.93ms
step:1082/1530 train_loss:3.5862 train_time:183241ms step_avg:170.93ms
step:1083/1530 train_loss:3.4931 train_time:183418ms step_avg:170.94ms
step:1084/1530 train_loss:3.4623 train_time:183595ms step_avg:170.94ms
step:1085/1530 train_loss:3.4314 train_time:183771ms step_avg:170.95ms
step:1086/1530 train_loss:3.6240 train_time:183945ms step_avg:170.95ms
step:1087/1530 train_loss:3.5052 train_time:184122ms step_avg:170.96ms
step:1088/1530 train_loss:3.3682 train_time:184300ms step_avg:170.96ms
step:1089/1530 train_loss:3.3756 train_time:184479ms step_avg:170.97ms
step:1090/1530 train_loss:3.4791 train_time:184657ms step_avg:170.98ms
step:1091/1530 train_loss:3.2837 train_time:184833ms step_avg:170.98ms
step:1092/1530 train_loss:3.4856 train_time:185010ms step_avg:170.99ms
step:1093/1530 train_loss:3.6014 train_time:185185ms step_avg:170.99ms
step:1094/1530 train_loss:3.4449 train_time:185360ms step_avg:171.00ms
step:1095/1530 train_loss:3.4167 train_time:185535ms step_avg:171.00ms
step:1096/1530 train_loss:3.4196 train_time:185713ms step_avg:171.01ms
step:1097/1530 train_loss:3.4858 train_time:185891ms step_avg:171.01ms
step:1098/1530 train_loss:3.5635 train_time:186070ms step_avg:171.02ms
step:1099/1530 train_loss:3.5244 train_time:186245ms step_avg:171.02ms
step:1100/1530 train_loss:3.4262 train_time:186426ms step_avg:171.03ms
step:1101/1530 train_loss:3.2924 train_time:186606ms step_avg:171.04ms
step:1102/1530 train_loss:3.3101 train_time:186784ms step_avg:171.05ms
step:1103/1530 train_loss:3.4438 train_time:186964ms step_avg:171.06ms
step:1104/1530 train_loss:3.3211 train_time:187140ms step_avg:171.06ms
step:1105/1530 train_loss:4.0584 train_time:187319ms step_avg:171.07ms
step:1106/1530 train_loss:3.2175 train_time:187494ms step_avg:171.07ms
step:1107/1530 train_loss:3.5630 train_time:187671ms step_avg:171.08ms
step:1108/1530 train_loss:3.3434 train_time:187844ms step_avg:171.08ms
step:1109/1530 train_loss:3.4994 train_time:188018ms step_avg:171.08ms
step:1110/1530 train_loss:3.4208 train_time:188192ms step_avg:171.08ms
step:1111/1530 train_loss:3.4843 train_time:188367ms step_avg:171.09ms
step:1112/1530 train_loss:3.5544 train_time:188546ms step_avg:171.09ms
step:1113/1530 train_loss:3.4256 train_time:188727ms step_avg:171.10ms
step:1114/1530 train_loss:3.3645 train_time:188904ms step_avg:171.11ms
step:1115/1530 train_loss:3.2365 train_time:189084ms step_avg:171.12ms
step:1116/1530 train_loss:3.4244 train_time:189259ms step_avg:171.12ms
step:1117/1530 train_loss:3.5908 train_time:189437ms step_avg:171.13ms
step:1118/1530 train_loss:3.6253 train_time:189614ms step_avg:171.13ms
step:1119/1530 train_loss:3.4808 train_time:189790ms step_avg:171.14ms
step:1120/1530 train_loss:3.4917 train_time:189966ms step_avg:171.14ms
step:1121/1530 train_loss:3.3864 train_time:190143ms step_avg:171.15ms
step:1122/1530 train_loss:3.4603 train_time:190318ms step_avg:171.15ms
step:1123/1530 train_loss:3.5765 train_time:190495ms step_avg:171.15ms
step:1124/1530 train_loss:3.3384 train_time:190672ms step_avg:171.16ms
step:1125/1530 train_loss:3.2307 train_time:190849ms step_avg:171.16ms
step:1125/1530 val_loss:3.4072 train_time:190900ms step_avg:171.21ms
step:1126/1530 train_loss:3.4713 train_time:191025ms step_avg:171.17ms
step:1127/1530 train_loss:3.6735 train_time:191203ms step_avg:171.18ms
step:1128/1530 train_loss:3.2266 train_time:191382ms step_avg:171.18ms
step:1129/1530 train_loss:3.5544 train_time:191561ms step_avg:171.19ms
step:1130/1530 train_loss:3.3762 train_time:191740ms step_avg:171.20ms
step:1131/1530 train_loss:3.3969 train_time:191923ms step_avg:171.21ms
step:1132/1530 train_loss:3.3635 train_time:192098ms step_avg:171.21ms
step:1133/1530 train_loss:3.4912 train_time:192408ms step_avg:171.33ms
step:1134/1530 train_loss:3.4467 train_time:192594ms step_avg:171.35ms
step:1135/1530 train_loss:3.5164 train_time:192769ms step_avg:171.35ms
step:1136/1530 train_loss:3.5630 train_time:192946ms step_avg:171.36ms
step:1137/1530 train_loss:3.4595 train_time:193123ms step_avg:171.36ms
step:1138/1530 train_loss:3.3467 train_time:193301ms step_avg:171.37ms
step:1139/1530 train_loss:3.6490 train_time:193635ms step_avg:171.51ms
step:1140/1530 train_loss:3.4531 train_time:193811ms step_avg:171.51ms
step:1141/1530 train_loss:3.5915 train_time:193992ms step_avg:171.52ms
step:1142/1530 train_loss:3.4454 train_time:194169ms step_avg:171.53ms
step:1143/1530 train_loss:3.3577 train_time:194348ms step_avg:171.53ms
step:1144/1530 train_loss:3.4432 train_time:194524ms step_avg:171.54ms
step:1145/1530 train_loss:3.5918 train_time:194700ms step_avg:171.54ms
step:1146/1530 train_loss:3.5525 train_time:194880ms step_avg:171.55ms
step:1147/1530 train_loss:3.4916 train_time:195059ms step_avg:171.56ms
step:1148/1530 train_loss:3.4962 train_time:195238ms step_avg:171.56ms
step:1149/1530 train_loss:3.3199 train_time:195421ms step_avg:171.57ms
step:1150/1530 train_loss:3.3738 train_time:195597ms step_avg:171.58ms
step:1151/1530 train_loss:3.3237 train_time:195777ms step_avg:171.58ms
step:1152/1530 train_loss:3.3926 train_time:195958ms step_avg:171.59ms
step:1153/1530 train_loss:3.4255 train_time:196139ms step_avg:171.60ms
step:1154/1530 train_loss:3.5193 train_time:196316ms step_avg:171.60ms
step:1155/1530 train_loss:3.3140 train_time:196498ms step_avg:171.61ms
step:1156/1530 train_loss:3.5375 train_time:196680ms step_avg:171.62ms
step:1157/1530 train_loss:3.4943 train_time:196857ms step_avg:171.63ms
step:1158/1530 train_loss:3.2515 train_time:197033ms step_avg:171.63ms
step:1159/1530 train_loss:3.3469 train_time:197210ms step_avg:171.64ms
step:1160/1530 train_loss:3.3352 train_time:197384ms step_avg:171.64ms
step:1161/1530 train_loss:3.0869 train_time:197563ms step_avg:171.64ms
step:1162/1530 train_loss:3.4247 train_time:197740ms step_avg:171.65ms
step:1163/1530 train_loss:3.3901 train_time:197920ms step_avg:171.66ms
step:1164/1530 train_loss:3.2878 train_time:198097ms step_avg:171.66ms
step:1165/1530 train_loss:3.2471 train_time:198272ms step_avg:171.66ms
step:1166/1530 train_loss:3.3871 train_time:198452ms step_avg:171.67ms
step:1167/1530 train_loss:3.4155 train_time:198626ms step_avg:171.67ms
step:1168/1530 train_loss:3.7183 train_time:198801ms step_avg:171.68ms
step:1169/1530 train_loss:3.3766 train_time:198978ms step_avg:171.68ms
step:1170/1530 train_loss:3.3883 train_time:199156ms step_avg:171.69ms
step:1171/1530 train_loss:3.3143 train_time:199332ms step_avg:171.69ms
step:1172/1530 train_loss:3.4205 train_time:199507ms step_avg:171.69ms
step:1173/1530 train_loss:3.5393 train_time:199688ms step_avg:171.70ms
step:1174/1530 train_loss:3.3877 train_time:199874ms step_avg:171.71ms
step:1175/1530 train_loss:3.3596 train_time:200054ms step_avg:171.72ms
step:1176/1530 train_loss:3.4205 train_time:200234ms step_avg:171.73ms
step:1177/1530 train_loss:3.4504 train_time:200418ms step_avg:171.74ms
step:1178/1530 train_loss:3.5001 train_time:200596ms step_avg:171.74ms
step:1179/1530 train_loss:3.4030 train_time:200771ms step_avg:171.75ms
step:1180/1530 train_loss:3.3556 train_time:200960ms step_avg:171.76ms
step:1181/1530 train_loss:3.3352 train_time:201137ms step_avg:171.77ms
step:1182/1530 train_loss:3.3690 train_time:201316ms step_avg:171.77ms
step:1183/1530 train_loss:3.3365 train_time:201493ms step_avg:171.78ms
step:1184/1530 train_loss:3.5082 train_time:201668ms step_avg:171.78ms
step:1185/1530 train_loss:3.5421 train_time:201849ms step_avg:171.79ms
step:1186/1530 train_loss:3.3650 train_time:202028ms step_avg:171.79ms
step:1187/1530 train_loss:3.4122 train_time:202216ms step_avg:171.81ms
step:1188/1530 train_loss:3.4379 train_time:202392ms step_avg:171.81ms
step:1189/1530 train_loss:3.2772 train_time:202573ms step_avg:171.82ms
step:1190/1530 train_loss:3.4379 train_time:202750ms step_avg:171.82ms
step:1191/1530 train_loss:3.5840 train_time:202931ms step_avg:171.83ms
step:1192/1530 train_loss:3.3903 train_time:203106ms step_avg:171.83ms
step:1193/1530 train_loss:3.2759 train_time:203281ms step_avg:171.84ms
step:1194/1530 train_loss:3.5541 train_time:203459ms step_avg:171.84ms
step:1195/1530 train_loss:3.3659 train_time:203641ms step_avg:171.85ms
step:1196/1530 train_loss:3.3813 train_time:203828ms step_avg:171.86ms
step:1197/1530 train_loss:3.2907 train_time:204008ms step_avg:171.87ms
step:1198/1530 train_loss:3.2958 train_time:204193ms step_avg:171.88ms
step:1199/1530 train_loss:3.3405 train_time:204372ms step_avg:171.89ms
step:1200/1530 train_loss:3.4457 train_time:204548ms step_avg:171.89ms
step:1201/1530 train_loss:3.4793 train_time:204726ms step_avg:171.89ms
step:1202/1530 train_loss:3.6101 train_time:204917ms step_avg:171.91ms
step:1203/1530 train_loss:3.4048 train_time:205097ms step_avg:171.92ms
step:1204/1530 train_loss:3.3055 train_time:205278ms step_avg:171.92ms
step:1205/1530 train_loss:3.4328 train_time:205454ms step_avg:171.93ms
step:1206/1530 train_loss:3.4773 train_time:205629ms step_avg:171.93ms
step:1207/1530 train_loss:3.5096 train_time:205805ms step_avg:171.93ms
step:1208/1530 train_loss:3.3931 train_time:205980ms step_avg:171.94ms
step:1209/1530 train_loss:3.2436 train_time:206160ms step_avg:171.94ms
step:1210/1530 train_loss:3.3040 train_time:206338ms step_avg:171.95ms
step:1211/1530 train_loss:3.3941 train_time:206517ms step_avg:171.95ms
step:1212/1530 train_loss:3.3841 train_time:206695ms step_avg:171.96ms
step:1213/1530 train_loss:3.4105 train_time:206874ms step_avg:171.97ms
step:1214/1530 train_loss:3.2525 train_time:207056ms step_avg:171.97ms
step:1215/1530 train_loss:3.3941 train_time:207232ms step_avg:171.98ms
step:1216/1530 train_loss:3.3288 train_time:207407ms step_avg:171.98ms
step:1217/1530 train_loss:3.3211 train_time:207583ms step_avg:171.98ms
step:1218/1530 train_loss:3.4090 train_time:207760ms step_avg:171.99ms
step:1219/1530 train_loss:3.2518 train_time:207945ms step_avg:172.00ms
step:1220/1530 train_loss:3.4775 train_time:208121ms step_avg:172.00ms
step:1221/1530 train_loss:3.5034 train_time:208297ms step_avg:172.00ms
step:1222/1530 train_loss:3.4380 train_time:208471ms step_avg:172.01ms
step:1223/1530 train_loss:3.2902 train_time:208648ms step_avg:172.01ms
step:1224/1530 train_loss:3.2513 train_time:208830ms step_avg:172.02ms
step:1225/1530 train_loss:3.3656 train_time:209008ms step_avg:172.02ms
step:1226/1530 train_loss:3.3268 train_time:209187ms step_avg:172.03ms
step:1227/1530 train_loss:3.2766 train_time:209366ms step_avg:172.03ms
step:1228/1530 train_loss:3.4437 train_time:209542ms step_avg:172.04ms
step:1229/1530 train_loss:3.3657 train_time:209723ms step_avg:172.05ms
step:1230/1530 train_loss:3.3936 train_time:209906ms step_avg:172.05ms
step:1231/1530 train_loss:3.5829 train_time:210085ms step_avg:172.06ms
step:1232/1530 train_loss:3.4942 train_time:210265ms step_avg:172.07ms
step:1233/1530 train_loss:3.4262 train_time:210443ms step_avg:172.07ms
step:1234/1530 train_loss:3.5817 train_time:210621ms step_avg:172.08ms
step:1235/1530 train_loss:3.3203 train_time:210803ms step_avg:172.08ms
step:1236/1530 train_loss:3.2871 train_time:210981ms step_avg:172.09ms
step:1237/1530 train_loss:3.2691 train_time:211159ms step_avg:172.09ms
step:1238/1530 train_loss:3.2775 train_time:211342ms step_avg:172.10ms
step:1239/1530 train_loss:3.3310 train_time:211521ms step_avg:172.11ms
step:1240/1530 train_loss:3.3825 train_time:211698ms step_avg:172.11ms
step:1241/1530 train_loss:3.4213 train_time:211877ms step_avg:172.12ms
step:1242/1530 train_loss:3.2944 train_time:212055ms step_avg:172.12ms
step:1243/1530 train_loss:3.4043 train_time:212235ms step_avg:172.13ms
step:1244/1530 train_loss:3.4042 train_time:212408ms step_avg:172.13ms
step:1245/1530 train_loss:3.4091 train_time:212585ms step_avg:172.13ms
step:1246/1530 train_loss:3.2431 train_time:212762ms step_avg:172.14ms
step:1247/1530 train_loss:3.3729 train_time:212937ms step_avg:172.14ms
step:1248/1530 train_loss:3.4250 train_time:213114ms step_avg:172.14ms
step:1249/1530 train_loss:3.4227 train_time:213292ms step_avg:172.15ms
step:1250/1530 train_loss:3.3060 train_time:213470ms step_avg:172.15ms
step:1250/1530 val_loss:3.3533 train_time:213523ms step_avg:172.20ms
step:1251/1530 train_loss:3.4886 train_time:213654ms step_avg:172.16ms
step:1252/1530 train_loss:3.3600 train_time:213831ms step_avg:172.17ms
step:1253/1530 train_loss:3.3067 train_time:214010ms step_avg:172.17ms
step:1254/1530 train_loss:3.4168 train_time:214191ms step_avg:172.18ms
step:1255/1530 train_loss:3.5163 train_time:214379ms step_avg:172.19ms
step:1256/1530 train_loss:3.3019 train_time:214561ms step_avg:172.20ms
step:1257/1530 train_loss:3.3745 train_time:214739ms step_avg:172.20ms
step:1258/1530 train_loss:3.3607 train_time:214921ms step_avg:172.21ms
step:1259/1530 train_loss:3.3244 train_time:215100ms step_avg:172.22ms
step:1260/1530 train_loss:3.2074 train_time:215276ms step_avg:172.22ms
step:1261/1530 train_loss:3.3028 train_time:215455ms step_avg:172.23ms
step:1262/1530 train_loss:3.3273 train_time:215638ms step_avg:172.24ms
step:1263/1530 train_loss:3.2387 train_time:215820ms step_avg:172.24ms
step:1264/1530 train_loss:3.4374 train_time:215996ms step_avg:172.25ms
step:1265/1530 train_loss:3.4250 train_time:216171ms step_avg:172.25ms
step:1266/1530 train_loss:3.4393 train_time:216351ms step_avg:172.25ms
step:1267/1530 train_loss:3.3703 train_time:216532ms step_avg:172.26ms
step:1268/1530 train_loss:3.4119 train_time:216713ms step_avg:172.27ms
step:1269/1530 train_loss:3.2533 train_time:216900ms step_avg:172.28ms
step:1270/1530 train_loss:3.1088 train_time:217077ms step_avg:172.28ms
step:1271/1530 train_loss:3.4028 train_time:217255ms step_avg:172.29ms
step:1272/1530 train_loss:3.3511 train_time:217432ms step_avg:172.29ms
step:1273/1530 train_loss:3.3759 train_time:217616ms step_avg:172.30ms
step:1274/1530 train_loss:3.3616 train_time:217797ms step_avg:172.31ms
step:1275/1530 train_loss:3.4307 train_time:217975ms step_avg:172.31ms
step:1276/1530 train_loss:3.4719 train_time:218149ms step_avg:172.31ms
step:1277/1530 train_loss:3.4111 train_time:218330ms step_avg:172.32ms
step:1278/1530 train_loss:3.4108 train_time:218506ms step_avg:172.32ms
step:1279/1530 train_loss:3.2605 train_time:218687ms step_avg:172.33ms
step:1280/1530 train_loss:3.3617 train_time:218871ms step_avg:172.34ms
step:1281/1530 train_loss:3.4219 train_time:219049ms step_avg:172.34ms
step:1282/1530 train_loss:3.4648 train_time:219224ms step_avg:172.35ms
step:1283/1530 train_loss:3.3348 train_time:219404ms step_avg:172.35ms
step:1284/1530 train_loss:3.3673 train_time:219585ms step_avg:172.36ms
step:1285/1530 train_loss:3.3590 train_time:219761ms step_avg:172.36ms
step:1286/1530 train_loss:3.3302 train_time:219940ms step_avg:172.37ms
step:1287/1530 train_loss:3.4850 train_time:220118ms step_avg:172.37ms
step:1288/1530 train_loss:3.2934 train_time:220299ms step_avg:172.38ms
step:1289/1530 train_loss:3.3790 train_time:220485ms step_avg:172.39ms
step:1290/1530 train_loss:3.4595 train_time:220672ms step_avg:172.40ms
step:1291/1530 train_loss:3.3837 train_time:220852ms step_avg:172.41ms
step:1292/1530 train_loss:3.4774 train_time:221035ms step_avg:172.41ms
step:1293/1530 train_loss:3.5129 train_time:221215ms step_avg:172.42ms
step:1294/1530 train_loss:3.4557 train_time:221397ms step_avg:172.43ms
step:1295/1530 train_loss:3.2787 train_time:221576ms step_avg:172.43ms
step:1296/1530 train_loss:3.3763 train_time:221757ms step_avg:172.44ms
step:1297/1530 train_loss:3.2772 train_time:221936ms step_avg:172.44ms
step:1298/1530 train_loss:3.2653 train_time:222117ms step_avg:172.45ms
step:1299/1530 train_loss:3.3941 train_time:222296ms step_avg:172.46ms
step:1300/1530 train_loss:3.4017 train_time:222472ms step_avg:172.46ms
step:1301/1530 train_loss:3.4015 train_time:222649ms step_avg:172.46ms
step:1302/1530 train_loss:3.5697 train_time:222831ms step_avg:172.47ms
step:1303/1530 train_loss:3.3045 train_time:223013ms step_avg:172.48ms
step:1304/1530 train_loss:3.5139 train_time:223195ms step_avg:172.48ms
step:1305/1530 train_loss:3.2566 train_time:223371ms step_avg:172.49ms
step:1306/1530 train_loss:3.4529 train_time:223553ms step_avg:172.49ms
step:1307/1530 train_loss:3.4519 train_time:223728ms step_avg:172.50ms
step:1308/1530 train_loss:3.2835 train_time:223906ms step_avg:172.50ms
step:1309/1530 train_loss:3.3105 train_time:224087ms step_avg:172.51ms
step:1310/1530 train_loss:3.2885 train_time:224265ms step_avg:172.51ms
step:1311/1530 train_loss:3.2956 train_time:224442ms step_avg:172.52ms
step:1312/1530 train_loss:3.3744 train_time:224622ms step_avg:172.52ms
step:1313/1530 train_loss:3.3417 train_time:224798ms step_avg:172.52ms
step:1314/1530 train_loss:3.0420 train_time:224981ms step_avg:172.53ms
step:1315/1530 train_loss:3.2721 train_time:225158ms step_avg:172.53ms
step:1316/1530 train_loss:3.3965 train_time:225334ms step_avg:172.54ms
step:1317/1530 train_loss:3.4198 train_time:225513ms step_avg:172.54ms
step:1318/1530 train_loss:3.2995 train_time:225698ms step_avg:172.55ms
step:1319/1530 train_loss:3.4256 train_time:225878ms step_avg:172.56ms
step:1320/1530 train_loss:3.4628 train_time:226059ms step_avg:172.56ms
step:1321/1530 train_loss:3.3638 train_time:226237ms step_avg:172.57ms
step:1322/1530 train_loss:3.3281 train_time:226549ms step_avg:172.67ms
step:1323/1530 train_loss:3.3173 train_time:226740ms step_avg:172.69ms
step:1324/1530 train_loss:3.4338 train_time:226920ms step_avg:172.69ms
step:1325/1530 train_loss:3.4950 train_time:227105ms step_avg:172.70ms
step:1326/1530 train_loss:3.2103 train_time:227283ms step_avg:172.71ms
step:1327/1530 train_loss:3.1651 train_time:227458ms step_avg:172.71ms
step:1328/1530 train_loss:3.4939 train_time:227637ms step_avg:172.71ms
step:1329/1530 train_loss:3.2986 train_time:227984ms step_avg:172.85ms
step:1330/1530 train_loss:3.4250 train_time:228166ms step_avg:172.85ms
step:1331/1530 train_loss:3.3250 train_time:228342ms step_avg:172.86ms
step:1332/1530 train_loss:3.7409 train_time:228522ms step_avg:172.86ms
step:1333/1530 train_loss:3.4808 train_time:228704ms step_avg:172.87ms
step:1334/1530 train_loss:3.3676 train_time:228880ms step_avg:172.87ms
step:1335/1530 train_loss:3.2902 train_time:229057ms step_avg:172.87ms
step:1336/1530 train_loss:3.2941 train_time:229242ms step_avg:172.88ms
step:1337/1530 train_loss:3.5492 train_time:229421ms step_avg:172.89ms
step:1338/1530 train_loss:3.5194 train_time:229599ms step_avg:172.89ms
step:1339/1530 train_loss:3.3368 train_time:229780ms step_avg:172.90ms
step:1340/1530 train_loss:3.2875 train_time:229957ms step_avg:172.90ms
step:1341/1530 train_loss:3.5907 train_time:230134ms step_avg:172.90ms
step:1342/1530 train_loss:3.3550 train_time:230315ms step_avg:172.91ms
step:1343/1530 train_loss:3.3637 train_time:230493ms step_avg:172.91ms
step:1344/1530 train_loss:3.4118 train_time:230672ms step_avg:172.92ms
step:1345/1530 train_loss:3.3839 train_time:230854ms step_avg:172.92ms
step:1346/1530 train_loss:3.2984 train_time:231030ms step_avg:172.93ms
step:1347/1530 train_loss:3.2745 train_time:231210ms step_avg:172.93ms
step:1348/1530 train_loss:3.3444 train_time:231388ms step_avg:172.94ms
step:1349/1530 train_loss:3.2768 train_time:231564ms step_avg:172.94ms
step:1350/1530 train_loss:3.3903 train_time:231744ms step_avg:172.94ms
step:1351/1530 train_loss:3.2436 train_time:231920ms step_avg:172.95ms
step:1352/1530 train_loss:3.3041 train_time:232098ms step_avg:172.95ms
step:1353/1530 train_loss:3.3999 train_time:232278ms step_avg:172.95ms
step:1354/1530 train_loss:3.2589 train_time:232455ms step_avg:172.96ms
step:1355/1530 train_loss:3.1869 train_time:232632ms step_avg:172.96ms
step:1356/1530 train_loss:3.5075 train_time:232813ms step_avg:172.97ms
step:1357/1530 train_loss:3.4253 train_time:232994ms step_avg:172.97ms
step:1358/1530 train_loss:3.1845 train_time:233173ms step_avg:172.98ms
step:1359/1530 train_loss:3.4369 train_time:233353ms step_avg:172.98ms
step:1360/1530 train_loss:3.3476 train_time:233533ms step_avg:172.99ms
step:1361/1530 train_loss:3.1271 train_time:233720ms step_avg:173.00ms
step:1362/1530 train_loss:3.3903 train_time:233901ms step_avg:173.00ms
step:1363/1530 train_loss:3.2824 train_time:234090ms step_avg:173.02ms
step:1364/1530 train_loss:3.2991 train_time:234267ms step_avg:173.02ms
step:1365/1530 train_loss:3.3134 train_time:234443ms step_avg:173.02ms
step:1366/1530 train_loss:3.4254 train_time:234623ms step_avg:173.03ms
step:1367/1530 train_loss:3.3948 train_time:234802ms step_avg:173.03ms
step:1368/1530 train_loss:3.3447 train_time:234984ms step_avg:173.04ms
step:1369/1530 train_loss:3.2770 train_time:235171ms step_avg:173.05ms
step:1370/1530 train_loss:3.6058 train_time:235352ms step_avg:173.05ms
step:1371/1530 train_loss:3.3140 train_time:235534ms step_avg:173.06ms
step:1372/1530 train_loss:3.3675 train_time:235717ms step_avg:173.07ms
step:1373/1530 train_loss:3.3655 train_time:235897ms step_avg:173.07ms
step:1374/1530 train_loss:3.1531 train_time:236077ms step_avg:173.08ms
step:1375/1530 train_loss:3.5340 train_time:236256ms step_avg:173.08ms
step:1375/1530 val_loss:3.3109 train_time:236307ms step_avg:173.12ms
step:1376/1530 train_loss:3.3506 train_time:236435ms step_avg:173.09ms
step:1377/1530 train_loss:3.4762 train_time:236617ms step_avg:173.09ms
step:1378/1530 train_loss:3.4655 train_time:236797ms step_avg:173.10ms
step:1379/1530 train_loss:3.1227 train_time:236980ms step_avg:173.10ms
step:1380/1530 train_loss:3.3170 train_time:237160ms step_avg:173.11ms
step:1381/1530 train_loss:3.6968 train_time:237344ms step_avg:173.12ms
step:1382/1530 train_loss:3.2070 train_time:237522ms step_avg:173.12ms
step:1383/1530 train_loss:3.3923 train_time:237704ms step_avg:173.13ms
step:1384/1530 train_loss:3.4739 train_time:237889ms step_avg:173.14ms
step:1385/1530 train_loss:3.4071 train_time:238063ms step_avg:173.14ms
step:1386/1530 train_loss:3.3442 train_time:238241ms step_avg:173.14ms
step:1387/1530 train_loss:3.2039 train_time:238421ms step_avg:173.14ms
step:1388/1530 train_loss:3.3451 train_time:238599ms step_avg:173.15ms
step:1389/1530 train_loss:3.3216 train_time:238782ms step_avg:173.16ms
step:1390/1530 train_loss:3.5710 train_time:238958ms step_avg:173.16ms
step:1391/1530 train_loss:3.2864 train_time:239136ms step_avg:173.16ms
step:1392/1530 train_loss:3.2871 train_time:239315ms step_avg:173.17ms
step:1393/1530 train_loss:3.2389 train_time:239496ms step_avg:173.17ms
step:1394/1530 train_loss:3.4938 train_time:239674ms step_avg:173.17ms
step:1395/1530 train_loss:3.3912 train_time:239853ms step_avg:173.18ms
step:1396/1530 train_loss:3.4033 train_time:240030ms step_avg:173.18ms
step:1397/1530 train_loss:3.3112 train_time:240206ms step_avg:173.18ms
step:1398/1530 train_loss:3.2542 train_time:240381ms step_avg:173.19ms
step:1399/1530 train_loss:3.3174 train_time:240560ms step_avg:173.19ms
step:1400/1530 train_loss:3.3225 train_time:240744ms step_avg:173.20ms
step:1401/1530 train_loss:3.3455 train_time:240918ms step_avg:173.20ms
step:1402/1530 train_loss:3.2993 train_time:241098ms step_avg:173.20ms
step:1403/1530 train_loss:3.4943 train_time:241284ms step_avg:173.21ms
step:1404/1530 train_loss:3.2801 train_time:241460ms step_avg:173.21ms
step:1405/1530 train_loss:3.3143 train_time:241641ms step_avg:173.22ms
step:1406/1530 train_loss:3.3119 train_time:241820ms step_avg:173.22ms
step:1407/1530 train_loss:3.1757 train_time:241997ms step_avg:173.23ms
step:1408/1530 train_loss:3.3088 train_time:242177ms step_avg:173.23ms
step:1409/1530 train_loss:3.3024 train_time:242364ms step_avg:173.24ms
step:1410/1530 train_loss:3.2895 train_time:242541ms step_avg:173.24ms
step:1411/1530 train_loss:3.3595 train_time:242717ms step_avg:173.25ms
step:1412/1530 train_loss:3.3316 train_time:242895ms step_avg:173.25ms
step:1413/1530 train_loss:3.3588 train_time:243074ms step_avg:173.25ms
step:1414/1530 train_loss:3.3286 train_time:243254ms step_avg:173.26ms
step:1415/1530 train_loss:3.4019 train_time:243438ms step_avg:173.27ms
step:1416/1530 train_loss:3.2305 train_time:243626ms step_avg:173.28ms
step:1417/1530 train_loss:3.2817 train_time:243807ms step_avg:173.28ms
step:1418/1530 train_loss:3.3915 train_time:243987ms step_avg:173.29ms
step:1419/1530 train_loss:3.3432 train_time:244169ms step_avg:173.29ms
step:1420/1530 train_loss:3.3651 train_time:244350ms step_avg:173.30ms
step:1421/1530 train_loss:3.3699 train_time:244529ms step_avg:173.30ms
step:1422/1530 train_loss:3.3358 train_time:244707ms step_avg:173.31ms
step:1423/1530 train_loss:3.3136 train_time:244887ms step_avg:173.31ms
step:1424/1530 train_loss:3.3338 train_time:245072ms step_avg:173.32ms
step:1425/1530 train_loss:3.1890 train_time:245258ms step_avg:173.33ms
step:1426/1530 train_loss:3.3221 train_time:245436ms step_avg:173.33ms
step:1427/1530 train_loss:3.2855 train_time:245619ms step_avg:173.34ms
step:1428/1530 train_loss:3.3737 train_time:245797ms step_avg:173.34ms
step:1429/1530 train_loss:3.3518 train_time:245975ms step_avg:173.34ms
step:1430/1530 train_loss:3.2622 train_time:246157ms step_avg:173.35ms
step:1431/1530 train_loss:3.3224 train_time:246337ms step_avg:173.35ms
step:1432/1530 train_loss:3.3366 train_time:246519ms step_avg:173.36ms
step:1433/1530 train_loss:3.1343 train_time:246702ms step_avg:173.37ms
step:1434/1530 train_loss:3.2867 train_time:246887ms step_avg:173.38ms
step:1435/1530 train_loss:3.1180 train_time:247067ms step_avg:173.38ms
step:1436/1530 train_loss:3.2320 train_time:247246ms step_avg:173.38ms
step:1437/1530 train_loss:3.4069 train_time:247422ms step_avg:173.39ms
step:1438/1530 train_loss:3.3843 train_time:247600ms step_avg:173.39ms
step:1439/1530 train_loss:3.3129 train_time:247780ms step_avg:173.39ms
step:1440/1530 train_loss:3.1903 train_time:247956ms step_avg:173.40ms
step:1441/1530 train_loss:3.3364 train_time:248135ms step_avg:173.40ms
step:1442/1530 train_loss:3.3862 train_time:248318ms step_avg:173.41ms
step:1443/1530 train_loss:3.4881 train_time:248505ms step_avg:173.42ms
step:1444/1530 train_loss:3.4479 train_time:248681ms step_avg:173.42ms
step:1445/1530 train_loss:3.3356 train_time:248861ms step_avg:173.42ms
step:1446/1530 train_loss:3.1976 train_time:249041ms step_avg:173.43ms
step:1447/1530 train_loss:3.2972 train_time:249223ms step_avg:173.43ms
step:1448/1530 train_loss:3.2954 train_time:249401ms step_avg:173.44ms
step:1449/1530 train_loss:3.3944 train_time:249580ms step_avg:173.44ms
step:1450/1530 train_loss:3.3851 train_time:249761ms step_avg:173.45ms
step:1451/1530 train_loss:3.2039 train_time:249938ms step_avg:173.45ms
step:1452/1530 train_loss:3.3269 train_time:250119ms step_avg:173.45ms
step:1453/1530 train_loss:3.2577 train_time:250294ms step_avg:173.45ms
step:1454/1530 train_loss:3.2910 train_time:250473ms step_avg:173.46ms
step:1455/1530 train_loss:3.3289 train_time:250655ms step_avg:173.46ms
step:1456/1530 train_loss:3.2827 train_time:250831ms step_avg:173.47ms
step:1457/1530 train_loss:3.1539 train_time:251009ms step_avg:173.47ms
step:1458/1530 train_loss:3.4231 train_time:251188ms step_avg:173.47ms
step:1459/1530 train_loss:3.2710 train_time:251370ms step_avg:173.48ms
step:1460/1530 train_loss:3.3156 train_time:251549ms step_avg:173.48ms
step:1461/1530 train_loss:3.4263 train_time:251729ms step_avg:173.49ms
step:1462/1530 train_loss:3.2637 train_time:251903ms step_avg:173.49ms
step:1463/1530 train_loss:3.4641 train_time:252086ms step_avg:173.49ms
step:1464/1530 train_loss:3.3612 train_time:252263ms step_avg:173.50ms
step:1465/1530 train_loss:3.3619 train_time:252443ms step_avg:173.50ms
step:1466/1530 train_loss:3.2832 train_time:252620ms step_avg:173.50ms
step:1467/1530 train_loss:3.3958 train_time:252799ms step_avg:173.51ms
step:1468/1530 train_loss:3.2901 train_time:252976ms step_avg:173.51ms
step:1469/1530 train_loss:3.2728 train_time:253156ms step_avg:173.51ms
step:1470/1530 train_loss:3.3315 train_time:253339ms step_avg:173.52ms
step:1471/1530 train_loss:3.2589 train_time:253524ms step_avg:173.53ms
step:1472/1530 train_loss:3.2508 train_time:253711ms step_avg:173.54ms
step:1473/1530 train_loss:3.4412 train_time:253889ms step_avg:173.54ms
step:1474/1530 train_loss:3.3124 train_time:254072ms step_avg:173.55ms
step:1475/1530 train_loss:3.1519 train_time:254258ms step_avg:173.55ms
step:1476/1530 train_loss:3.2624 train_time:254437ms step_avg:173.56ms
step:1477/1530 train_loss:3.2374 train_time:254625ms step_avg:173.57ms
step:1478/1530 train_loss:3.3062 train_time:254811ms step_avg:173.58ms
step:1479/1530 train_loss:3.3947 train_time:254994ms step_avg:173.58ms
step:1480/1530 train_loss:3.2733 train_time:255172ms step_avg:173.59ms
step:1481/1530 train_loss:3.4473 train_time:255354ms step_avg:173.59ms
step:1482/1530 train_loss:3.3664 train_time:255542ms step_avg:173.60ms
step:1483/1530 train_loss:3.2795 train_time:255734ms step_avg:173.61ms
step:1484/1530 train_loss:3.2661 train_time:255921ms step_avg:173.62ms
step:1485/1530 train_loss:3.2824 train_time:256100ms step_avg:173.63ms
step:1486/1530 train_loss:3.2281 train_time:256286ms step_avg:173.64ms
step:1487/1530 train_loss:3.3427 train_time:256469ms step_avg:173.64ms
step:1488/1530 train_loss:3.2428 train_time:256653ms step_avg:173.65ms
step:1489/1530 train_loss:3.3156 train_time:256834ms step_avg:173.65ms
step:1490/1530 train_loss:3.2515 train_time:257015ms step_avg:173.66ms
step:1491/1530 train_loss:3.1613 train_time:257195ms step_avg:173.66ms
step:1492/1530 train_loss:3.2667 train_time:257376ms step_avg:173.67ms
step:1493/1530 train_loss:3.4327 train_time:257555ms step_avg:173.67ms
step:1494/1530 train_loss:3.2976 train_time:257734ms step_avg:173.68ms
step:1495/1530 train_loss:3.0329 train_time:257921ms step_avg:173.68ms
step:1496/1530 train_loss:3.3596 train_time:258104ms step_avg:173.69ms
step:1497/1530 train_loss:3.3091 train_time:258289ms step_avg:173.70ms
step:1498/1530 train_loss:3.3456 train_time:258474ms step_avg:173.71ms
step:1499/1530 train_loss:3.3113 train_time:258658ms step_avg:173.71ms
step:1500/1530 train_loss:3.3005 train_time:258849ms step_avg:173.72ms
step:1500/1530 val_loss:3.2795 train_time:258903ms step_avg:173.76ms
step:1501/1530 train_loss:3.0857 train_time:259039ms step_avg:173.73ms
step:1502/1530 train_loss:3.3588 train_time:259230ms step_avg:173.75ms
step:1503/1530 train_loss:3.2414 train_time:259406ms step_avg:173.75ms
step:1504/1530 train_loss:3.2481 train_time:259588ms step_avg:173.75ms
step:1505/1530 train_loss:3.2154 train_time:259768ms step_avg:173.76ms
step:1506/1530 train_loss:3.2765 train_time:259951ms step_avg:173.76ms
step:1507/1530 train_loss:3.1721 train_time:260147ms step_avg:173.78ms
step:1508/1530 train_loss:3.4795 train_time:260331ms step_avg:173.79ms
step:1509/1530 train_loss:3.2796 train_time:260509ms step_avg:173.79ms
step:1510/1530 train_loss:3.2703 train_time:260689ms step_avg:173.79ms
step:1511/1530 train_loss:3.4140 train_time:261001ms step_avg:173.88ms
step:1512/1530 train_loss:3.4170 train_time:261189ms step_avg:173.89ms
step:1513/1530 train_loss:3.2695 train_time:261374ms step_avg:173.90ms
step:1514/1530 train_loss:3.0867 train_time:261558ms step_avg:173.91ms
step:1515/1530 train_loss:3.2425 train_time:261738ms step_avg:173.91ms
step:1516/1530 train_loss:3.2561 train_time:261923ms step_avg:173.92ms
step:1517/1530 train_loss:3.2978 train_time:262106ms step_avg:173.93ms
step:1518/1530 train_loss:3.2069 train_time:262288ms step_avg:173.93ms
step:1519/1530 train_loss:3.5086 train_time:262623ms step_avg:174.04ms
step:1520/1530 train_loss:3.1266 train_time:262810ms step_avg:174.05ms
step:1521/1530 train_loss:3.2063 train_time:262988ms step_avg:174.05ms
step:1522/1530 train_loss:3.3556 train_time:263176ms step_avg:174.06ms
step:1523/1530 train_loss:3.2306 train_time:263356ms step_avg:174.06ms
step:1524/1530 train_loss:3.3459 train_time:263537ms step_avg:174.07ms
step:1525/1530 train_loss:3.3383 train_time:263724ms step_avg:174.07ms
step:1526/1530 train_loss:3.2787 train_time:263913ms step_avg:174.08ms
step:1527/1530 train_loss:3.2895 train_time:264094ms step_avg:174.09ms
step:1528/1530 train_loss:3.4127 train_time:264274ms step_avg:174.09ms
step:1529/1530 train_loss:3.4058 train_time:264453ms step_avg:174.10ms
step:1530/1530 train_loss:3.2391 train_time:264631ms step_avg:174.10ms
step:1530/1530 val_loss:3.2771 train_time:264684ms step_avg:174.13ms