records/120424_ValueEmbed/2577721d-9ce9-400c-8902-ce95d6fbcf64.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 01:35:29 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   39C    P0              76W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   31C    P0              99W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0              98W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   38C    P0              85W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   39C    P0             123W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   30C    P0             110W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   39C    P0             127W / 700W |     41MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   30C    P0             115W / 700W |     33MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31947ms step_avg:nanms
step:2/1530 train_loss:10.0697 train_time:32057ms step_avg:nanms
step:3/1530 train_loss:8.3696 train_time:32218ms step_avg:nanms
step:4/1530 train_loss:7.5850 train_time:32380ms step_avg:nanms
step:5/1530 train_loss:7.4726 train_time:32542ms step_avg:nanms
step:6/1530 train_loss:6.9754 train_time:32702ms step_avg:nanms
step:7/1530 train_loss:7.1870 train_time:32862ms step_avg:nanms
step:8/1530 train_loss:6.7258 train_time:33022ms step_avg:nanms
step:9/1530 train_loss:6.5983 train_time:33182ms step_avg:nanms
step:10/1530 train_loss:6.4784 train_time:33344ms step_avg:nanms
step:11/1530 train_loss:6.4280 train_time:114ms step_avg:nanms
step:12/1530 train_loss:6.3271 train_time:274ms step_avg:nanms
step:13/1530 train_loss:6.2857 train_time:434ms step_avg:144.73ms
step:14/1530 train_loss:6.2339 train_time:594ms step_avg:148.49ms
step:15/1530 train_loss:6.2048 train_time:754ms step_avg:150.74ms
step:16/1530 train_loss:6.1200 train_time:914ms step_avg:152.26ms
step:17/1530 train_loss:6.1709 train_time:1073ms step_avg:153.34ms
step:18/1530 train_loss:5.9504 train_time:1233ms step_avg:154.18ms
step:19/1530 train_loss:6.0127 train_time:1393ms step_avg:154.82ms
step:20/1530 train_loss:5.6765 train_time:1554ms step_avg:155.43ms
step:21/1530 train_loss:5.9609 train_time:1713ms step_avg:155.74ms
step:22/1530 train_loss:6.1912 train_time:1873ms step_avg:156.09ms
step:23/1530 train_loss:5.8560 train_time:2034ms step_avg:156.44ms
step:24/1530 train_loss:6.0175 train_time:2193ms step_avg:156.68ms
step:25/1530 train_loss:5.6931 train_time:2354ms step_avg:156.91ms
step:26/1530 train_loss:5.5766 train_time:2514ms step_avg:157.09ms
step:27/1530 train_loss:5.7799 train_time:2674ms step_avg:157.29ms
step:28/1530 train_loss:5.4007 train_time:2834ms step_avg:157.42ms
step:29/1530 train_loss:5.6770 train_time:2994ms step_avg:157.56ms
step:30/1530 train_loss:5.4640 train_time:3154ms step_avg:157.69ms
step:31/1530 train_loss:5.4435 train_time:3314ms step_avg:157.79ms
step:32/1530 train_loss:5.2760 train_time:3473ms step_avg:157.88ms
step:33/1530 train_loss:5.5739 train_time:3634ms step_avg:157.98ms
step:34/1530 train_loss:5.4952 train_time:3793ms step_avg:158.05ms
step:35/1530 train_loss:5.6186 train_time:3954ms step_avg:158.14ms
step:36/1530 train_loss:5.5360 train_time:4114ms step_avg:158.23ms
step:37/1530 train_loss:5.4582 train_time:4273ms step_avg:158.27ms
step:38/1530 train_loss:5.3059 train_time:4433ms step_avg:158.34ms
step:39/1530 train_loss:5.3292 train_time:4593ms step_avg:158.39ms
step:40/1530 train_loss:5.2473 train_time:4754ms step_avg:158.47ms
step:41/1530 train_loss:5.2356 train_time:4913ms step_avg:158.49ms
step:42/1530 train_loss:5.1588 train_time:5073ms step_avg:158.53ms
step:43/1530 train_loss:5.2640 train_time:5234ms step_avg:158.60ms
step:44/1530 train_loss:5.2345 train_time:5394ms step_avg:158.64ms
step:45/1530 train_loss:5.3923 train_time:5555ms step_avg:158.71ms
step:46/1530 train_loss:5.1739 train_time:5714ms step_avg:158.73ms
step:47/1530 train_loss:5.0730 train_time:5874ms step_avg:158.75ms
step:48/1530 train_loss:5.1992 train_time:6034ms step_avg:158.79ms
step:49/1530 train_loss:5.1483 train_time:6194ms step_avg:158.83ms
step:50/1530 train_loss:5.2675 train_time:6354ms step_avg:158.85ms
step:51/1530 train_loss:5.1527 train_time:6514ms step_avg:158.89ms
step:52/1530 train_loss:5.0327 train_time:6674ms step_avg:158.90ms
step:53/1530 train_loss:5.1775 train_time:6834ms step_avg:158.94ms
step:54/1530 train_loss:5.0139 train_time:6993ms step_avg:158.94ms
step:55/1530 train_loss:5.4128 train_time:7153ms step_avg:158.96ms
step:56/1530 train_loss:5.0373 train_time:7313ms step_avg:158.99ms
step:57/1530 train_loss:4.9028 train_time:7473ms step_avg:159.01ms
step:58/1530 train_loss:5.0554 train_time:7634ms step_avg:159.03ms
step:59/1530 train_loss:5.0375 train_time:7793ms step_avg:159.04ms
step:60/1530 train_loss:5.1596 train_time:7954ms step_avg:159.07ms
step:61/1530 train_loss:4.8506 train_time:8114ms step_avg:159.09ms
step:62/1530 train_loss:4.9757 train_time:8274ms step_avg:159.12ms
step:63/1530 train_loss:4.9793 train_time:8435ms step_avg:159.14ms
step:64/1530 train_loss:4.9431 train_time:8595ms step_avg:159.17ms
step:65/1530 train_loss:4.8167 train_time:8756ms step_avg:159.20ms
step:66/1530 train_loss:4.9180 train_time:8915ms step_avg:159.20ms
step:67/1530 train_loss:4.8200 train_time:9075ms step_avg:159.21ms
step:68/1530 train_loss:5.0877 train_time:9235ms step_avg:159.22ms
step:69/1530 train_loss:4.7179 train_time:9394ms step_avg:159.22ms
step:70/1530 train_loss:4.8356 train_time:9555ms step_avg:159.24ms
step:71/1530 train_loss:4.9795 train_time:9714ms step_avg:159.25ms
step:72/1530 train_loss:4.8994 train_time:9874ms step_avg:159.25ms
step:73/1530 train_loss:4.7825 train_time:10034ms step_avg:159.27ms
step:74/1530 train_loss:4.9081 train_time:10193ms step_avg:159.27ms
step:75/1530 train_loss:4.8667 train_time:10354ms step_avg:159.29ms
step:76/1530 train_loss:4.8048 train_time:10513ms step_avg:159.29ms
step:77/1530 train_loss:4.9221 train_time:10674ms step_avg:159.31ms
step:78/1530 train_loss:5.1269 train_time:10834ms step_avg:159.33ms
step:79/1530 train_loss:4.8379 train_time:10994ms step_avg:159.33ms
step:80/1530 train_loss:4.8743 train_time:11155ms step_avg:159.36ms
step:81/1530 train_loss:4.6781 train_time:11315ms step_avg:159.37ms
step:82/1530 train_loss:4.8280 train_time:11475ms step_avg:159.38ms
step:83/1530 train_loss:4.7785 train_time:11637ms step_avg:159.41ms
step:84/1530 train_loss:4.7636 train_time:11798ms step_avg:159.43ms
step:85/1530 train_loss:4.6259 train_time:11958ms step_avg:159.44ms
step:86/1530 train_loss:4.8355 train_time:12118ms step_avg:159.44ms
step:87/1530 train_loss:4.7631 train_time:12277ms step_avg:159.44ms
step:88/1530 train_loss:4.7432 train_time:12436ms step_avg:159.44ms
step:89/1530 train_loss:4.7157 train_time:12596ms step_avg:159.44ms
step:90/1530 train_loss:4.6505 train_time:12757ms step_avg:159.46ms
step:91/1530 train_loss:4.6519 train_time:12917ms step_avg:159.47ms
step:92/1530 train_loss:4.8125 train_time:13077ms step_avg:159.47ms
step:93/1530 train_loss:4.6269 train_time:13237ms step_avg:159.48ms
step:94/1530 train_loss:4.6454 train_time:13397ms step_avg:159.49ms
step:95/1530 train_loss:4.6968 train_time:13558ms step_avg:159.51ms
step:96/1530 train_loss:4.5802 train_time:13717ms step_avg:159.50ms
step:97/1530 train_loss:4.6444 train_time:13878ms step_avg:159.51ms
step:98/1530 train_loss:4.5875 train_time:14038ms step_avg:159.53ms
step:99/1530 train_loss:4.6785 train_time:14198ms step_avg:159.52ms
step:100/1530 train_loss:4.6853 train_time:14358ms step_avg:159.54ms
step:101/1530 train_loss:4.5525 train_time:14518ms step_avg:159.54ms
step:102/1530 train_loss:4.7222 train_time:14677ms step_avg:159.54ms
step:103/1530 train_loss:4.6044 train_time:14836ms step_avg:159.52ms
step:104/1530 train_loss:4.5320 train_time:14996ms step_avg:159.53ms
step:105/1530 train_loss:4.5545 train_time:15156ms step_avg:159.53ms
step:106/1530 train_loss:4.6397 train_time:15317ms step_avg:159.55ms
step:107/1530 train_loss:4.5298 train_time:15477ms step_avg:159.56ms
step:108/1530 train_loss:4.3718 train_time:15638ms step_avg:159.57ms
step:109/1530 train_loss:4.5142 train_time:15798ms step_avg:159.57ms
step:110/1530 train_loss:4.5056 train_time:15957ms step_avg:159.57ms
step:111/1530 train_loss:4.4402 train_time:16117ms step_avg:159.58ms
step:112/1530 train_loss:4.6204 train_time:16277ms step_avg:159.58ms
step:113/1530 train_loss:4.5086 train_time:16438ms step_avg:159.59ms
step:114/1530 train_loss:4.3774 train_time:16598ms step_avg:159.59ms
step:115/1530 train_loss:4.5306 train_time:16761ms step_avg:159.63ms
step:116/1530 train_loss:4.4876 train_time:16926ms step_avg:159.67ms
step:117/1530 train_loss:4.4004 train_time:17089ms step_avg:159.71ms
step:118/1530 train_loss:4.6093 train_time:17254ms step_avg:159.76ms
step:119/1530 train_loss:4.4918 train_time:17417ms step_avg:159.79ms
step:120/1530 train_loss:4.3462 train_time:17580ms step_avg:159.82ms
step:121/1530 train_loss:4.3118 train_time:17745ms step_avg:159.86ms
step:122/1530 train_loss:4.4638 train_time:17908ms step_avg:159.89ms
step:123/1530 train_loss:4.3011 train_time:18072ms step_avg:159.93ms
step:124/1530 train_loss:4.6008 train_time:18237ms step_avg:159.97ms
step:125/1530 train_loss:4.4714 train_time:18401ms step_avg:160.01ms
step:125/1530 val_loss:4.4155 train_time:18448ms step_avg:160.41ms
step:126/1530 train_loss:4.4274 train_time:18566ms step_avg:160.05ms
step:127/1530 train_loss:4.4548 train_time:18731ms step_avg:160.09ms
step:128/1530 train_loss:4.3988 train_time:18895ms step_avg:160.13ms
step:129/1530 train_loss:4.6939 train_time:19059ms step_avg:160.16ms
step:130/1530 train_loss:4.3719 train_time:19222ms step_avg:160.19ms
step:131/1530 train_loss:4.4097 train_time:19385ms step_avg:160.21ms
step:132/1530 train_loss:4.3579 train_time:19548ms step_avg:160.23ms
step:133/1530 train_loss:4.4561 train_time:19713ms step_avg:160.26ms
step:134/1530 train_loss:4.2671 train_time:19876ms step_avg:160.29ms
step:135/1530 train_loss:4.4578 train_time:20040ms step_avg:160.32ms
step:136/1530 train_loss:4.2217 train_time:20203ms step_avg:160.34ms
step:137/1530 train_loss:4.3926 train_time:20366ms step_avg:160.36ms
step:138/1530 train_loss:4.3004 train_time:20529ms step_avg:160.38ms
step:139/1530 train_loss:4.3962 train_time:20693ms step_avg:160.41ms
step:140/1530 train_loss:4.4972 train_time:20857ms step_avg:160.44ms
step:141/1530 train_loss:4.3222 train_time:21021ms step_avg:160.46ms
step:142/1530 train_loss:4.3131 train_time:21185ms step_avg:160.49ms
step:143/1530 train_loss:4.2799 train_time:21348ms step_avg:160.51ms
step:144/1530 train_loss:4.3715 train_time:21512ms step_avg:160.54ms
step:145/1530 train_loss:4.3141 train_time:21675ms step_avg:160.55ms
step:146/1530 train_loss:4.1735 train_time:21839ms step_avg:160.58ms
step:147/1530 train_loss:4.3355 train_time:22003ms step_avg:160.60ms
step:148/1530 train_loss:4.3686 train_time:22166ms step_avg:160.62ms
step:149/1530 train_loss:4.3067 train_time:22331ms step_avg:160.66ms
step:150/1530 train_loss:4.4441 train_time:22495ms step_avg:160.68ms
step:151/1530 train_loss:4.2764 train_time:22659ms step_avg:160.70ms
step:152/1530 train_loss:4.2953 train_time:22824ms step_avg:160.73ms
step:153/1530 train_loss:4.3719 train_time:22988ms step_avg:160.76ms
step:154/1530 train_loss:4.3804 train_time:23152ms step_avg:160.77ms
step:155/1530 train_loss:4.2864 train_time:23315ms step_avg:160.80ms
step:156/1530 train_loss:4.3634 train_time:23479ms step_avg:160.81ms
step:157/1530 train_loss:4.4183 train_time:23643ms step_avg:160.84ms
step:158/1530 train_loss:4.2596 train_time:23806ms step_avg:160.85ms
step:159/1530 train_loss:4.3134 train_time:23970ms step_avg:160.87ms
step:160/1530 train_loss:4.1447 train_time:24134ms step_avg:160.89ms
step:161/1530 train_loss:4.3673 train_time:24297ms step_avg:160.91ms
step:162/1530 train_loss:4.3695 train_time:24460ms step_avg:160.92ms
step:163/1530 train_loss:4.3415 train_time:24625ms step_avg:160.95ms
step:164/1530 train_loss:4.1964 train_time:24790ms step_avg:160.97ms
step:165/1530 train_loss:4.2986 train_time:24953ms step_avg:160.99ms
step:166/1530 train_loss:4.3572 train_time:25118ms step_avg:161.01ms
step:167/1530 train_loss:4.2265 train_time:25281ms step_avg:161.03ms
step:168/1530 train_loss:4.3119 train_time:25445ms step_avg:161.04ms
step:169/1530 train_loss:4.1711 train_time:25610ms step_avg:161.07ms
step:170/1530 train_loss:4.0386 train_time:25773ms step_avg:161.08ms
step:171/1530 train_loss:4.2067 train_time:25937ms step_avg:161.10ms
step:172/1530 train_loss:4.2165 train_time:26100ms step_avg:161.11ms
step:173/1530 train_loss:4.2651 train_time:26263ms step_avg:161.12ms
step:174/1530 train_loss:4.4292 train_time:26425ms step_avg:161.13ms
step:175/1530 train_loss:4.2601 train_time:26588ms step_avg:161.14ms
step:176/1530 train_loss:4.1032 train_time:26751ms step_avg:161.15ms
step:177/1530 train_loss:4.0644 train_time:26915ms step_avg:161.17ms
step:178/1530 train_loss:4.1816 train_time:27078ms step_avg:161.18ms
step:179/1530 train_loss:4.1356 train_time:27241ms step_avg:161.19ms
step:180/1530 train_loss:4.1182 train_time:27404ms step_avg:161.20ms
step:181/1530 train_loss:4.3019 train_time:27566ms step_avg:161.20ms
step:182/1530 train_loss:4.1678 train_time:27729ms step_avg:161.22ms
step:183/1530 train_loss:4.1408 train_time:27892ms step_avg:161.23ms
step:184/1530 train_loss:4.1342 train_time:28054ms step_avg:161.23ms
step:185/1530 train_loss:4.2286 train_time:28217ms step_avg:161.24ms
step:186/1530 train_loss:4.2023 train_time:28380ms step_avg:161.25ms
step:187/1530 train_loss:4.2470 train_time:28542ms step_avg:161.25ms
step:188/1530 train_loss:4.1785 train_time:28839ms step_avg:162.02ms
step:189/1530 train_loss:4.1184 train_time:29172ms step_avg:162.97ms
step:190/1530 train_loss:4.2192 train_time:29337ms step_avg:162.98ms
step:191/1530 train_loss:4.0882 train_time:29500ms step_avg:162.98ms
step:192/1530 train_loss:4.0395 train_time:29662ms step_avg:162.98ms
step:193/1530 train_loss:4.2707 train_time:29825ms step_avg:162.98ms
step:194/1530 train_loss:4.1811 train_time:29987ms step_avg:162.97ms
step:195/1530 train_loss:4.3545 train_time:30151ms step_avg:162.98ms
step:196/1530 train_loss:4.1814 train_time:30314ms step_avg:162.98ms
step:197/1530 train_loss:4.0546 train_time:30477ms step_avg:162.98ms
step:198/1530 train_loss:4.1830 train_time:30640ms step_avg:162.98ms
step:199/1530 train_loss:4.0327 train_time:30803ms step_avg:162.98ms
step:200/1530 train_loss:4.1211 train_time:30964ms step_avg:162.97ms
step:201/1530 train_loss:4.0239 train_time:31129ms step_avg:162.98ms
step:202/1530 train_loss:4.2668 train_time:31292ms step_avg:162.98ms
step:203/1530 train_loss:4.0678 train_time:31454ms step_avg:162.98ms
step:204/1530 train_loss:4.1955 train_time:31617ms step_avg:162.97ms
step:205/1530 train_loss:4.2531 train_time:31780ms step_avg:162.97ms
step:206/1530 train_loss:3.9517 train_time:31941ms step_avg:162.97ms
step:207/1530 train_loss:4.0919 train_time:32104ms step_avg:162.97ms
step:208/1530 train_loss:4.0992 train_time:32267ms step_avg:162.97ms
step:209/1530 train_loss:4.2476 train_time:32430ms step_avg:162.96ms
step:210/1530 train_loss:4.1709 train_time:32594ms step_avg:162.97ms
step:211/1530 train_loss:4.0714 train_time:32756ms step_avg:162.97ms
step:212/1530 train_loss:4.1329 train_time:32919ms step_avg:162.97ms
step:213/1530 train_loss:4.0542 train_time:33081ms step_avg:162.96ms
step:214/1530 train_loss:4.1246 train_time:33243ms step_avg:162.96ms
step:215/1530 train_loss:3.9717 train_time:33407ms step_avg:162.96ms
step:216/1530 train_loss:4.0108 train_time:33571ms step_avg:162.96ms
step:217/1530 train_loss:4.0133 train_time:33734ms step_avg:162.96ms
step:218/1530 train_loss:4.0899 train_time:33896ms step_avg:162.96ms
step:219/1530 train_loss:4.0826 train_time:34059ms step_avg:162.96ms
step:220/1530 train_loss:4.0971 train_time:34222ms step_avg:162.96ms
step:221/1530 train_loss:4.1040 train_time:34385ms step_avg:162.96ms
step:222/1530 train_loss:4.0078 train_time:34547ms step_avg:162.96ms
step:223/1530 train_loss:4.0077 train_time:34711ms step_avg:162.96ms
step:224/1530 train_loss:4.3071 train_time:34873ms step_avg:162.96ms
step:225/1530 train_loss:3.9130 train_time:35038ms step_avg:162.97ms
step:226/1530 train_loss:3.9929 train_time:35201ms step_avg:162.97ms
step:227/1530 train_loss:3.9850 train_time:35363ms step_avg:162.96ms
step:228/1530 train_loss:4.1483 train_time:35528ms step_avg:162.97ms
step:229/1530 train_loss:3.9254 train_time:35694ms step_avg:162.99ms
step:230/1530 train_loss:4.0490 train_time:35860ms step_avg:163.00ms
step:231/1530 train_loss:3.9106 train_time:36026ms step_avg:163.01ms
step:232/1530 train_loss:3.9818 train_time:36192ms step_avg:163.03ms
step:233/1530 train_loss:4.0983 train_time:36357ms step_avg:163.04ms
step:234/1530 train_loss:4.0336 train_time:36524ms step_avg:163.05ms
step:235/1530 train_loss:3.9024 train_time:36689ms step_avg:163.06ms
step:236/1530 train_loss:4.0856 train_time:36855ms step_avg:163.08ms
step:237/1530 train_loss:4.0866 train_time:37022ms step_avg:163.09ms
step:238/1530 train_loss:3.9494 train_time:37189ms step_avg:163.11ms
step:239/1530 train_loss:4.0889 train_time:37355ms step_avg:163.12ms
step:240/1530 train_loss:4.1219 train_time:37521ms step_avg:163.14ms
step:241/1530 train_loss:3.9760 train_time:37686ms step_avg:163.14ms
step:242/1530 train_loss:4.1537 train_time:37853ms step_avg:163.16ms
step:243/1530 train_loss:4.0111 train_time:38020ms step_avg:163.18ms
step:244/1530 train_loss:4.0887 train_time:38186ms step_avg:163.19ms
step:245/1530 train_loss:4.1430 train_time:38352ms step_avg:163.20ms
step:246/1530 train_loss:4.0635 train_time:38518ms step_avg:163.21ms
step:247/1530 train_loss:4.0147 train_time:38683ms step_avg:163.22ms
step:248/1530 train_loss:4.1206 train_time:38847ms step_avg:163.22ms
step:249/1530 train_loss:3.9349 train_time:39014ms step_avg:163.24ms
step:250/1530 train_loss:3.9790 train_time:39179ms step_avg:163.25ms
step:250/1530 val_loss:4.0105 train_time:39227ms step_avg:163.45ms
step:251/1530 train_loss:4.0852 train_time:39346ms step_avg:163.26ms
step:252/1530 train_loss:4.1754 train_time:39514ms step_avg:163.28ms
step:253/1530 train_loss:3.9356 train_time:39682ms step_avg:163.30ms
step:254/1530 train_loss:3.8895 train_time:39847ms step_avg:163.31ms
step:255/1530 train_loss:4.0902 train_time:40012ms step_avg:163.31ms
step:256/1530 train_loss:3.9998 train_time:40180ms step_avg:163.33ms
step:257/1530 train_loss:3.9992 train_time:40346ms step_avg:163.34ms
step:258/1530 train_loss:3.9936 train_time:40511ms step_avg:163.35ms
step:259/1530 train_loss:4.0343 train_time:40678ms step_avg:163.37ms
step:260/1530 train_loss:4.0620 train_time:40845ms step_avg:163.38ms
step:261/1530 train_loss:4.0243 train_time:41011ms step_avg:163.39ms
step:262/1530 train_loss:4.0039 train_time:41178ms step_avg:163.40ms
step:263/1530 train_loss:3.8970 train_time:41343ms step_avg:163.41ms
step:264/1530 train_loss:3.9954 train_time:41509ms step_avg:163.42ms
step:265/1530 train_loss:3.8801 train_time:41675ms step_avg:163.43ms
step:266/1530 train_loss:3.9284 train_time:41842ms step_avg:163.44ms
step:267/1530 train_loss:3.9348 train_time:42009ms step_avg:163.46ms
step:268/1530 train_loss:3.9628 train_time:42174ms step_avg:163.46ms
step:269/1530 train_loss:3.8621 train_time:42340ms step_avg:163.48ms
step:270/1530 train_loss:4.1100 train_time:42507ms step_avg:163.49ms
step:271/1530 train_loss:3.9759 train_time:42673ms step_avg:163.50ms
step:272/1530 train_loss:3.9388 train_time:42839ms step_avg:163.51ms
step:273/1530 train_loss:3.9512 train_time:43004ms step_avg:163.51ms
step:274/1530 train_loss:4.0445 train_time:43172ms step_avg:163.53ms
step:275/1530 train_loss:4.0678 train_time:43338ms step_avg:163.54ms
step:276/1530 train_loss:4.2365 train_time:43504ms step_avg:163.55ms
step:277/1530 train_loss:4.0496 train_time:43671ms step_avg:163.56ms
step:278/1530 train_loss:4.1044 train_time:43837ms step_avg:163.57ms
step:279/1530 train_loss:4.0083 train_time:44003ms step_avg:163.58ms
step:280/1530 train_loss:4.2011 train_time:44171ms step_avg:163.59ms
step:281/1530 train_loss:3.9941 train_time:44336ms step_avg:163.60ms
step:282/1530 train_loss:3.9525 train_time:44503ms step_avg:163.61ms
step:283/1530 train_loss:3.9166 train_time:44668ms step_avg:163.62ms
step:284/1530 train_loss:4.0496 train_time:44834ms step_avg:163.63ms
step:285/1530 train_loss:4.0709 train_time:44999ms step_avg:163.63ms
step:286/1530 train_loss:4.0963 train_time:45165ms step_avg:163.64ms
step:287/1530 train_loss:3.9059 train_time:45329ms step_avg:163.64ms
step:288/1530 train_loss:4.0113 train_time:45494ms step_avg:163.65ms
step:289/1530 train_loss:3.8807 train_time:45660ms step_avg:163.65ms
step:290/1530 train_loss:3.8640 train_time:45824ms step_avg:163.66ms
step:291/1530 train_loss:3.9158 train_time:45989ms step_avg:163.66ms
step:292/1530 train_loss:3.8650 train_time:46155ms step_avg:163.67ms
step:293/1530 train_loss:3.9088 train_time:46320ms step_avg:163.67ms
step:294/1530 train_loss:3.9401 train_time:46485ms step_avg:163.68ms
step:295/1530 train_loss:3.8514 train_time:46650ms step_avg:163.68ms
step:296/1530 train_loss:3.8666 train_time:46815ms step_avg:163.69ms
step:297/1530 train_loss:3.8774 train_time:46981ms step_avg:163.70ms
step:298/1530 train_loss:3.9693 train_time:47145ms step_avg:163.70ms
step:299/1530 train_loss:3.8256 train_time:47310ms step_avg:163.70ms
step:300/1530 train_loss:3.9796 train_time:47475ms step_avg:163.71ms
step:301/1530 train_loss:3.9692 train_time:47641ms step_avg:163.71ms
step:302/1530 train_loss:3.9427 train_time:47805ms step_avg:163.72ms
step:303/1530 train_loss:3.9911 train_time:47971ms step_avg:163.72ms
step:304/1530 train_loss:3.9825 train_time:48137ms step_avg:163.73ms
step:305/1530 train_loss:4.4643 train_time:48302ms step_avg:163.74ms
step:306/1530 train_loss:3.9461 train_time:48467ms step_avg:163.74ms
step:307/1530 train_loss:3.8411 train_time:48632ms step_avg:163.74ms
step:308/1530 train_loss:3.9853 train_time:48796ms step_avg:163.75ms
step:309/1530 train_loss:3.8637 train_time:48962ms step_avg:163.75ms
step:310/1530 train_loss:4.0890 train_time:49126ms step_avg:163.75ms
step:311/1530 train_loss:3.9316 train_time:49290ms step_avg:163.76ms
step:312/1530 train_loss:3.8718 train_time:49454ms step_avg:163.75ms
step:313/1530 train_loss:3.9395 train_time:49620ms step_avg:163.76ms
step:314/1530 train_loss:4.0660 train_time:49785ms step_avg:163.77ms
step:315/1530 train_loss:3.9593 train_time:49950ms step_avg:163.77ms
step:316/1530 train_loss:3.8081 train_time:50115ms step_avg:163.77ms
step:317/1530 train_loss:3.8867 train_time:50281ms step_avg:163.78ms
step:318/1530 train_loss:3.9297 train_time:50446ms step_avg:163.78ms
step:319/1530 train_loss:3.9021 train_time:50610ms step_avg:163.79ms
step:320/1530 train_loss:4.0227 train_time:50777ms step_avg:163.80ms
step:321/1530 train_loss:3.9630 train_time:50941ms step_avg:163.80ms
step:322/1530 train_loss:3.9358 train_time:51107ms step_avg:163.80ms
step:323/1530 train_loss:4.0113 train_time:51271ms step_avg:163.81ms
step:324/1530 train_loss:3.9499 train_time:51437ms step_avg:163.81ms
step:325/1530 train_loss:4.0242 train_time:51602ms step_avg:163.82ms
step:326/1530 train_loss:3.9042 train_time:51768ms step_avg:163.82ms
step:327/1530 train_loss:4.4079 train_time:51934ms step_avg:163.83ms
step:328/1530 train_loss:4.0801 train_time:52098ms step_avg:163.83ms
step:329/1530 train_loss:3.8046 train_time:52264ms step_avg:163.84ms
step:330/1530 train_loss:3.7522 train_time:52429ms step_avg:163.84ms
step:331/1530 train_loss:3.9802 train_time:52593ms step_avg:163.84ms
step:332/1530 train_loss:3.9178 train_time:52760ms step_avg:163.85ms
step:333/1530 train_loss:3.9009 train_time:52924ms step_avg:163.85ms
step:334/1530 train_loss:3.8513 train_time:53089ms step_avg:163.85ms
step:335/1530 train_loss:4.0221 train_time:53254ms step_avg:163.86ms
step:336/1530 train_loss:3.9728 train_time:53419ms step_avg:163.86ms
step:337/1530 train_loss:4.4226 train_time:53584ms step_avg:163.87ms
step:338/1530 train_loss:3.9419 train_time:53750ms step_avg:163.87ms
step:339/1530 train_loss:3.8713 train_time:53916ms step_avg:163.88ms
step:340/1530 train_loss:3.9451 train_time:54081ms step_avg:163.88ms
step:341/1530 train_loss:3.8608 train_time:54247ms step_avg:163.89ms
step:342/1530 train_loss:3.8168 train_time:54414ms step_avg:163.90ms
step:343/1530 train_loss:3.8464 train_time:54583ms step_avg:163.91ms
step:344/1530 train_loss:4.0017 train_time:54750ms step_avg:163.92ms
step:345/1530 train_loss:3.8217 train_time:54919ms step_avg:163.94ms
step:346/1530 train_loss:3.7677 train_time:55086ms step_avg:163.95ms
step:347/1530 train_loss:3.8031 train_time:55255ms step_avg:163.96ms
step:348/1530 train_loss:3.8694 train_time:55423ms step_avg:163.97ms
step:349/1530 train_loss:3.8411 train_time:55590ms step_avg:163.98ms
step:350/1530 train_loss:3.5723 train_time:55761ms step_avg:164.00ms
step:351/1530 train_loss:3.8285 train_time:55928ms step_avg:164.01ms
step:352/1530 train_loss:4.1932 train_time:56095ms step_avg:164.02ms
step:353/1530 train_loss:3.6633 train_time:56263ms step_avg:164.03ms
step:354/1530 train_loss:3.9332 train_time:56430ms step_avg:164.04ms
step:355/1530 train_loss:3.7884 train_time:56599ms step_avg:164.06ms
step:356/1530 train_loss:3.8919 train_time:56767ms step_avg:164.07ms
step:357/1530 train_loss:3.7704 train_time:56936ms step_avg:164.08ms
step:358/1530 train_loss:3.8688 train_time:57104ms step_avg:164.09ms
step:359/1530 train_loss:3.7790 train_time:57273ms step_avg:164.11ms
step:360/1530 train_loss:3.4371 train_time:57443ms step_avg:164.12ms
step:361/1530 train_loss:4.0341 train_time:57612ms step_avg:164.14ms
step:362/1530 train_loss:3.9243 train_time:57781ms step_avg:164.15ms
step:363/1530 train_loss:3.8474 train_time:57947ms step_avg:164.16ms
step:364/1530 train_loss:3.7523 train_time:58116ms step_avg:164.17ms
step:365/1530 train_loss:3.9203 train_time:58284ms step_avg:164.18ms
step:366/1530 train_loss:3.8626 train_time:58451ms step_avg:164.19ms
step:367/1530 train_loss:3.8704 train_time:58619ms step_avg:164.20ms
step:368/1530 train_loss:3.8533 train_time:58786ms step_avg:164.21ms
step:369/1530 train_loss:3.7470 train_time:58954ms step_avg:164.22ms
step:370/1530 train_loss:3.8861 train_time:59121ms step_avg:164.23ms
step:371/1530 train_loss:3.7367 train_time:59289ms step_avg:164.24ms
step:372/1530 train_loss:3.7032 train_time:59457ms step_avg:164.25ms
step:373/1530 train_loss:3.9221 train_time:59624ms step_avg:164.25ms
step:374/1530 train_loss:3.8358 train_time:59792ms step_avg:164.26ms
step:375/1530 train_loss:3.8066 train_time:59961ms step_avg:164.28ms
step:375/1530 val_loss:3.8336 train_time:60009ms step_avg:164.41ms
step:376/1530 train_loss:3.8719 train_time:60132ms step_avg:164.30ms
step:377/1530 train_loss:3.7963 train_time:60437ms step_avg:164.68ms
step:378/1530 train_loss:3.8404 train_time:60615ms step_avg:164.71ms
step:379/1530 train_loss:3.8825 train_time:60940ms step_avg:165.15ms
step:380/1530 train_loss:3.9499 train_time:61110ms step_avg:165.16ms
step:381/1530 train_loss:3.8511 train_time:61277ms step_avg:165.17ms
step:382/1530 train_loss:3.8097 train_time:61446ms step_avg:165.18ms
step:383/1530 train_loss:3.8032 train_time:61614ms step_avg:165.19ms
step:384/1530 train_loss:3.8729 train_time:61780ms step_avg:165.19ms
step:385/1530 train_loss:3.7983 train_time:61949ms step_avg:165.20ms
step:386/1530 train_loss:3.9022 train_time:62117ms step_avg:165.20ms
step:387/1530 train_loss:4.0638 train_time:62286ms step_avg:165.21ms
step:388/1530 train_loss:3.8067 train_time:62454ms step_avg:165.22ms
step:389/1530 train_loss:3.8012 train_time:62621ms step_avg:165.23ms
step:390/1530 train_loss:3.9051 train_time:62790ms step_avg:165.24ms
step:391/1530 train_loss:3.8163 train_time:62957ms step_avg:165.24ms
step:392/1530 train_loss:3.9340 train_time:63125ms step_avg:165.25ms
step:393/1530 train_loss:3.7722 train_time:63293ms step_avg:165.25ms
step:394/1530 train_loss:3.8934 train_time:63460ms step_avg:165.26ms
step:395/1530 train_loss:3.6347 train_time:63630ms step_avg:165.27ms
step:396/1530 train_loss:3.8468 train_time:63796ms step_avg:165.28ms
step:397/1530 train_loss:3.8677 train_time:63964ms step_avg:165.28ms
step:398/1530 train_loss:3.8911 train_time:64131ms step_avg:165.29ms
step:399/1530 train_loss:3.7753 train_time:64297ms step_avg:165.29ms
step:400/1530 train_loss:3.8429 train_time:64465ms step_avg:165.29ms
step:401/1530 train_loss:3.9208 train_time:64632ms step_avg:165.30ms
step:402/1530 train_loss:3.8472 train_time:64800ms step_avg:165.31ms
step:403/1530 train_loss:3.9629 train_time:64968ms step_avg:165.31ms
step:404/1530 train_loss:3.6907 train_time:65135ms step_avg:165.32ms
step:405/1530 train_loss:3.7913 train_time:65302ms step_avg:165.32ms
step:406/1530 train_loss:4.1024 train_time:65468ms step_avg:165.32ms
step:407/1530 train_loss:3.7806 train_time:65635ms step_avg:165.33ms
step:408/1530 train_loss:3.8228 train_time:65802ms step_avg:165.33ms
step:409/1530 train_loss:3.8553 train_time:65969ms step_avg:165.33ms
step:410/1530 train_loss:3.7614 train_time:66136ms step_avg:165.34ms
step:411/1530 train_loss:3.7703 train_time:66302ms step_avg:165.34ms
step:412/1530 train_loss:4.1881 train_time:66469ms step_avg:165.34ms
step:413/1530 train_loss:3.6412 train_time:66635ms step_avg:165.35ms
step:414/1530 train_loss:4.0180 train_time:66802ms step_avg:165.35ms
step:415/1530 train_loss:3.7611 train_time:66969ms step_avg:165.36ms
step:416/1530 train_loss:3.7753 train_time:67135ms step_avg:165.36ms
step:417/1530 train_loss:3.9557 train_time:67304ms step_avg:165.37ms
step:418/1530 train_loss:3.6907 train_time:67470ms step_avg:165.37ms
step:419/1530 train_loss:3.8089 train_time:67637ms step_avg:165.37ms
step:420/1530 train_loss:3.7125 train_time:67805ms step_avg:165.38ms
step:421/1530 train_loss:3.6585 train_time:67971ms step_avg:165.38ms
step:422/1530 train_loss:3.7903 train_time:68138ms step_avg:165.38ms
step:423/1530 train_loss:3.8841 train_time:68307ms step_avg:165.39ms
step:424/1530 train_loss:3.6209 train_time:68473ms step_avg:165.39ms
step:425/1530 train_loss:3.8045 train_time:68640ms step_avg:165.40ms
step:426/1530 train_loss:3.6576 train_time:68809ms step_avg:165.41ms
step:427/1530 train_loss:3.8956 train_time:68976ms step_avg:165.41ms
step:428/1530 train_loss:3.8172 train_time:69145ms step_avg:165.42ms
step:429/1530 train_loss:3.7608 train_time:69313ms step_avg:165.43ms
step:430/1530 train_loss:3.7132 train_time:69480ms step_avg:165.43ms
step:431/1530 train_loss:3.6301 train_time:69648ms step_avg:165.43ms
step:432/1530 train_loss:3.7680 train_time:69816ms step_avg:165.44ms
step:433/1530 train_loss:3.8206 train_time:69983ms step_avg:165.44ms
step:434/1530 train_loss:3.7750 train_time:70149ms step_avg:165.45ms
step:435/1530 train_loss:3.8150 train_time:70316ms step_avg:165.45ms
step:436/1530 train_loss:3.8362 train_time:70484ms step_avg:165.45ms
step:437/1530 train_loss:3.7321 train_time:70650ms step_avg:165.46ms
step:438/1530 train_loss:3.7112 train_time:70817ms step_avg:165.46ms
step:439/1530 train_loss:3.7179 train_time:70985ms step_avg:165.47ms
step:440/1530 train_loss:3.8926 train_time:71151ms step_avg:165.47ms
step:441/1530 train_loss:3.7673 train_time:71320ms step_avg:165.48ms
step:442/1530 train_loss:3.7387 train_time:71487ms step_avg:165.48ms
step:443/1530 train_loss:3.6261 train_time:71655ms step_avg:165.48ms
step:444/1530 train_loss:3.9298 train_time:71822ms step_avg:165.49ms
step:445/1530 train_loss:3.8501 train_time:71988ms step_avg:165.49ms
step:446/1530 train_loss:3.8407 train_time:72156ms step_avg:165.49ms
step:447/1530 train_loss:3.7584 train_time:72323ms step_avg:165.50ms
step:448/1530 train_loss:3.8561 train_time:72490ms step_avg:165.50ms
step:449/1530 train_loss:3.6930 train_time:72657ms step_avg:165.51ms
step:450/1530 train_loss:3.7372 train_time:72825ms step_avg:165.51ms
step:451/1530 train_loss:3.5911 train_time:72992ms step_avg:165.51ms
step:452/1530 train_loss:3.7222 train_time:73159ms step_avg:165.52ms
step:453/1530 train_loss:3.6766 train_time:73326ms step_avg:165.52ms
step:454/1530 train_loss:3.6414 train_time:73494ms step_avg:165.53ms
step:455/1530 train_loss:3.8473 train_time:73662ms step_avg:165.53ms
step:456/1530 train_loss:3.7249 train_time:73831ms step_avg:165.54ms
step:457/1530 train_loss:3.7921 train_time:74001ms step_avg:165.55ms
step:458/1530 train_loss:3.8384 train_time:74170ms step_avg:165.56ms
step:459/1530 train_loss:3.6382 train_time:74341ms step_avg:165.57ms
step:460/1530 train_loss:3.8000 train_time:74511ms step_avg:165.58ms
step:461/1530 train_loss:3.6981 train_time:74679ms step_avg:165.59ms
step:462/1530 train_loss:3.7441 train_time:74849ms step_avg:165.60ms
step:463/1530 train_loss:3.7824 train_time:75019ms step_avg:165.61ms
step:464/1530 train_loss:3.7147 train_time:75189ms step_avg:165.61ms
step:465/1530 train_loss:3.7193 train_time:75357ms step_avg:165.62ms
step:466/1530 train_loss:3.8012 train_time:75527ms step_avg:165.63ms
step:467/1530 train_loss:3.8320 train_time:75698ms step_avg:165.64ms
step:468/1530 train_loss:3.7974 train_time:75867ms step_avg:165.65ms
step:469/1530 train_loss:3.6907 train_time:76035ms step_avg:165.65ms
step:470/1530 train_loss:3.7739 train_time:76204ms step_avg:165.66ms
step:471/1530 train_loss:3.8154 train_time:76374ms step_avg:165.67ms
step:472/1530 train_loss:3.7882 train_time:76545ms step_avg:165.68ms
step:473/1530 train_loss:3.7197 train_time:76715ms step_avg:165.69ms
step:474/1530 train_loss:3.6018 train_time:76884ms step_avg:165.70ms
step:475/1530 train_loss:4.0412 train_time:77053ms step_avg:165.71ms
step:476/1530 train_loss:3.7601 train_time:77223ms step_avg:165.71ms
step:477/1530 train_loss:3.6005 train_time:77393ms step_avg:165.72ms
step:478/1530 train_loss:3.8275 train_time:77562ms step_avg:165.73ms
step:479/1530 train_loss:3.7762 train_time:77732ms step_avg:165.74ms
step:480/1530 train_loss:3.9291 train_time:77900ms step_avg:165.74ms
step:481/1530 train_loss:3.7318 train_time:78069ms step_avg:165.75ms
step:482/1530 train_loss:3.5325 train_time:78239ms step_avg:165.76ms
step:483/1530 train_loss:3.8111 train_time:78410ms step_avg:165.77ms
step:484/1530 train_loss:3.6607 train_time:78578ms step_avg:165.78ms
step:485/1530 train_loss:3.6617 train_time:78749ms step_avg:165.79ms
step:486/1530 train_loss:3.5758 train_time:78918ms step_avg:165.79ms
step:487/1530 train_loss:3.6840 train_time:79088ms step_avg:165.80ms
step:488/1530 train_loss:3.8833 train_time:79258ms step_avg:165.81ms
step:489/1530 train_loss:3.7191 train_time:79428ms step_avg:165.82ms
step:490/1530 train_loss:3.5998 train_time:79596ms step_avg:165.83ms
step:491/1530 train_loss:3.6226 train_time:79765ms step_avg:165.83ms
step:492/1530 train_loss:3.7377 train_time:79935ms step_avg:165.84ms
step:493/1530 train_loss:3.5821 train_time:80106ms step_avg:165.85ms
step:494/1530 train_loss:3.7045 train_time:80275ms step_avg:165.86ms
step:495/1530 train_loss:3.6656 train_time:80447ms step_avg:165.87ms
step:496/1530 train_loss:3.5151 train_time:80619ms step_avg:165.88ms
step:497/1530 train_loss:3.7385 train_time:80788ms step_avg:165.89ms
step:498/1530 train_loss:3.7888 train_time:80957ms step_avg:165.90ms
step:499/1530 train_loss:3.8181 train_time:81129ms step_avg:165.91ms
step:500/1530 train_loss:3.7332 train_time:81298ms step_avg:165.91ms
step:500/1530 val_loss:3.7085 train_time:81346ms step_avg:166.01ms
step:501/1530 train_loss:3.8070 train_time:81468ms step_avg:165.92ms
step:502/1530 train_loss:3.7552 train_time:81643ms step_avg:165.94ms
step:503/1530 train_loss:3.7805 train_time:81811ms step_avg:165.95ms
step:504/1530 train_loss:3.7252 train_time:81979ms step_avg:165.95ms
step:505/1530 train_loss:3.8195 train_time:82150ms step_avg:165.96ms
step:506/1530 train_loss:3.6548 train_time:82321ms step_avg:165.97ms
step:507/1530 train_loss:3.7631 train_time:82489ms step_avg:165.97ms
step:508/1530 train_loss:3.8311 train_time:82661ms step_avg:165.99ms
step:509/1530 train_loss:3.7767 train_time:82829ms step_avg:165.99ms
step:510/1530 train_loss:3.5870 train_time:82999ms step_avg:166.00ms
step:511/1530 train_loss:3.7832 train_time:83170ms step_avg:166.01ms
step:512/1530 train_loss:3.7216 train_time:83342ms step_avg:166.02ms
step:513/1530 train_loss:3.6692 train_time:83510ms step_avg:166.02ms
step:514/1530 train_loss:3.8278 train_time:83680ms step_avg:166.03ms
step:515/1530 train_loss:3.7349 train_time:83849ms step_avg:166.04ms
step:516/1530 train_loss:4.0775 train_time:84020ms step_avg:166.05ms
step:517/1530 train_loss:3.6896 train_time:84188ms step_avg:166.05ms
step:518/1530 train_loss:3.7777 train_time:84357ms step_avg:166.06ms
step:519/1530 train_loss:3.6651 train_time:84526ms step_avg:166.06ms
step:520/1530 train_loss:3.6892 train_time:84696ms step_avg:166.07ms
step:521/1530 train_loss:3.6677 train_time:84865ms step_avg:166.08ms
step:522/1530 train_loss:3.6598 train_time:85034ms step_avg:166.08ms
step:523/1530 train_loss:4.2924 train_time:85204ms step_avg:166.09ms
step:524/1530 train_loss:3.7400 train_time:85372ms step_avg:166.09ms
step:525/1530 train_loss:3.6807 train_time:85542ms step_avg:166.10ms
step:526/1530 train_loss:3.7011 train_time:85710ms step_avg:166.10ms
step:527/1530 train_loss:3.6584 train_time:85879ms step_avg:166.11ms
step:528/1530 train_loss:3.6319 train_time:86048ms step_avg:166.12ms
step:529/1530 train_loss:3.8499 train_time:86217ms step_avg:166.12ms
step:530/1530 train_loss:3.6496 train_time:86387ms step_avg:166.13ms
step:531/1530 train_loss:3.9198 train_time:86559ms step_avg:166.14ms
step:532/1530 train_loss:3.7320 train_time:86727ms step_avg:166.14ms
step:533/1530 train_loss:3.6589 train_time:86896ms step_avg:166.15ms
step:534/1530 train_loss:3.6729 train_time:87064ms step_avg:166.15ms
step:535/1530 train_loss:3.6120 train_time:87234ms step_avg:166.16ms
step:536/1530 train_loss:3.7578 train_time:87404ms step_avg:166.17ms
step:537/1530 train_loss:3.7282 train_time:87573ms step_avg:166.17ms
step:538/1530 train_loss:3.6329 train_time:87743ms step_avg:166.18ms
step:539/1530 train_loss:4.1134 train_time:87914ms step_avg:166.19ms
step:540/1530 train_loss:3.6764 train_time:88084ms step_avg:166.20ms
step:541/1530 train_loss:3.7862 train_time:88252ms step_avg:166.20ms
step:542/1530 train_loss:3.5888 train_time:88420ms step_avg:166.20ms
step:543/1530 train_loss:3.5947 train_time:88588ms step_avg:166.21ms
step:544/1530 train_loss:3.6495 train_time:88759ms step_avg:166.21ms
step:545/1530 train_loss:3.5983 train_time:88928ms step_avg:166.22ms
step:546/1530 train_loss:3.6350 train_time:89097ms step_avg:166.23ms
step:547/1530 train_loss:3.6473 train_time:89266ms step_avg:166.23ms
step:548/1530 train_loss:3.6157 train_time:89435ms step_avg:166.24ms
step:549/1530 train_loss:3.7292 train_time:89603ms step_avg:166.24ms
step:550/1530 train_loss:3.6190 train_time:89771ms step_avg:166.24ms
step:551/1530 train_loss:3.6358 train_time:89940ms step_avg:166.25ms
step:552/1530 train_loss:3.9398 train_time:90109ms step_avg:166.25ms
step:553/1530 train_loss:3.7624 train_time:90278ms step_avg:166.26ms
step:554/1530 train_loss:3.7206 train_time:90447ms step_avg:166.26ms
step:555/1530 train_loss:3.6303 train_time:90614ms step_avg:166.26ms
step:556/1530 train_loss:3.7009 train_time:90783ms step_avg:166.27ms
step:557/1530 train_loss:3.3186 train_time:90952ms step_avg:166.27ms
step:558/1530 train_loss:3.6127 train_time:91122ms step_avg:166.28ms
step:559/1530 train_loss:3.6481 train_time:91290ms step_avg:166.28ms
step:560/1530 train_loss:3.6945 train_time:91461ms step_avg:166.29ms
step:561/1530 train_loss:3.6136 train_time:91629ms step_avg:166.30ms
step:562/1530 train_loss:3.5511 train_time:91798ms step_avg:166.30ms
step:563/1530 train_loss:3.7617 train_time:91967ms step_avg:166.30ms
step:564/1530 train_loss:3.5779 train_time:92138ms step_avg:166.31ms
step:565/1530 train_loss:3.6842 train_time:92306ms step_avg:166.32ms
step:566/1530 train_loss:3.6233 train_time:92610ms step_avg:166.57ms
step:567/1530 train_loss:3.6056 train_time:92789ms step_avg:166.59ms
step:568/1530 train_loss:3.6896 train_time:92959ms step_avg:166.59ms
step:569/1530 train_loss:3.6540 train_time:93279ms step_avg:166.87ms
step:570/1530 train_loss:3.6931 train_time:93452ms step_avg:166.88ms
step:571/1530 train_loss:3.7617 train_time:93623ms step_avg:166.89ms
step:572/1530 train_loss:3.7273 train_time:93793ms step_avg:166.89ms
step:573/1530 train_loss:3.7349 train_time:93966ms step_avg:166.90ms
step:574/1530 train_loss:3.7846 train_time:94140ms step_avg:166.91ms
step:575/1530 train_loss:3.7346 train_time:94310ms step_avg:166.92ms
step:576/1530 train_loss:3.7661 train_time:94481ms step_avg:166.93ms
step:577/1530 train_loss:3.6754 train_time:94653ms step_avg:166.94ms
step:578/1530 train_loss:3.6774 train_time:94825ms step_avg:166.95ms
step:579/1530 train_loss:3.6700 train_time:94997ms step_avg:166.95ms
step:580/1530 train_loss:3.5875 train_time:95167ms step_avg:166.96ms
step:581/1530 train_loss:3.6416 train_time:95339ms step_avg:166.97ms
step:582/1530 train_loss:3.8580 train_time:95508ms step_avg:166.97ms
step:583/1530 train_loss:3.6295 train_time:95679ms step_avg:166.98ms
step:584/1530 train_loss:3.5926 train_time:95851ms step_avg:166.99ms
step:585/1530 train_loss:3.7907 train_time:96022ms step_avg:166.99ms
step:586/1530 train_loss:3.5182 train_time:96193ms step_avg:167.00ms
step:587/1530 train_loss:3.6713 train_time:96365ms step_avg:167.01ms
step:588/1530 train_loss:3.6491 train_time:96535ms step_avg:167.02ms
step:589/1530 train_loss:4.0010 train_time:96707ms step_avg:167.02ms
step:590/1530 train_loss:3.7879 train_time:96879ms step_avg:167.03ms
step:591/1530 train_loss:3.5142 train_time:97050ms step_avg:167.04ms
step:592/1530 train_loss:3.5425 train_time:97224ms step_avg:167.05ms
step:593/1530 train_loss:3.5028 train_time:97397ms step_avg:167.06ms
step:594/1530 train_loss:3.5575 train_time:97568ms step_avg:167.07ms
step:595/1530 train_loss:3.9188 train_time:97742ms step_avg:167.08ms
step:596/1530 train_loss:3.6478 train_time:97914ms step_avg:167.09ms
step:597/1530 train_loss:3.5910 train_time:98084ms step_avg:167.09ms
step:598/1530 train_loss:3.6588 train_time:98256ms step_avg:167.10ms
step:599/1530 train_loss:3.4757 train_time:98426ms step_avg:167.11ms
step:600/1530 train_loss:3.5983 train_time:98596ms step_avg:167.11ms
step:601/1530 train_loss:3.6541 train_time:98770ms step_avg:167.12ms
step:602/1530 train_loss:3.6729 train_time:98943ms step_avg:167.13ms
step:603/1530 train_loss:3.7796 train_time:99113ms step_avg:167.14ms
step:604/1530 train_loss:3.6129 train_time:99285ms step_avg:167.15ms
step:605/1530 train_loss:3.6147 train_time:99456ms step_avg:167.15ms
step:606/1530 train_loss:3.5777 train_time:99629ms step_avg:167.16ms
step:607/1530 train_loss:3.8416 train_time:99801ms step_avg:167.17ms
step:608/1530 train_loss:3.6407 train_time:99972ms step_avg:167.18ms
step:609/1530 train_loss:3.6208 train_time:100143ms step_avg:167.18ms
step:610/1530 train_loss:3.7055 train_time:100313ms step_avg:167.19ms
step:611/1530 train_loss:3.6028 train_time:100484ms step_avg:167.19ms
step:612/1530 train_loss:3.5751 train_time:100656ms step_avg:167.20ms
step:613/1530 train_loss:3.7619 train_time:100826ms step_avg:167.21ms
step:614/1530 train_loss:3.7090 train_time:100999ms step_avg:167.22ms
step:615/1530 train_loss:3.6864 train_time:101169ms step_avg:167.22ms
step:616/1530 train_loss:3.6289 train_time:101340ms step_avg:167.23ms
step:617/1530 train_loss:3.5583 train_time:101511ms step_avg:167.23ms
step:618/1530 train_loss:3.6906 train_time:101681ms step_avg:167.24ms
step:619/1530 train_loss:3.5564 train_time:101852ms step_avg:167.24ms
step:620/1530 train_loss:3.5874 train_time:102022ms step_avg:167.25ms
step:621/1530 train_loss:3.9317 train_time:102195ms step_avg:167.26ms
step:622/1530 train_loss:3.5707 train_time:102367ms step_avg:167.27ms
step:623/1530 train_loss:3.6016 train_time:102540ms step_avg:167.28ms
step:624/1530 train_loss:3.6986 train_time:102710ms step_avg:167.28ms
step:625/1530 train_loss:3.7066 train_time:102880ms step_avg:167.28ms
step:625/1530 val_loss:3.6241 train_time:102930ms step_avg:167.37ms
step:626/1530 train_loss:3.7401 train_time:103053ms step_avg:167.29ms
step:627/1530 train_loss:3.7107 train_time:103224ms step_avg:167.30ms
step:628/1530 train_loss:3.7641 train_time:103394ms step_avg:167.30ms
step:629/1530 train_loss:3.5948 train_time:103563ms step_avg:167.31ms
step:630/1530 train_loss:3.7266 train_time:103733ms step_avg:167.31ms
step:631/1530 train_loss:3.7434 train_time:103903ms step_avg:167.32ms
step:632/1530 train_loss:3.6517 train_time:104076ms step_avg:167.32ms
step:633/1530 train_loss:3.6061 train_time:104247ms step_avg:167.33ms
step:634/1530 train_loss:3.6978 train_time:104418ms step_avg:167.34ms
step:635/1530 train_loss:3.9526 train_time:104588ms step_avg:167.34ms
step:636/1530 train_loss:3.5489 train_time:104758ms step_avg:167.35ms
step:637/1530 train_loss:3.3602 train_time:104930ms step_avg:167.35ms
step:638/1530 train_loss:3.5923 train_time:105099ms step_avg:167.35ms
step:639/1530 train_loss:3.6380 train_time:105269ms step_avg:167.36ms
step:640/1530 train_loss:3.5747 train_time:105438ms step_avg:167.36ms
step:641/1530 train_loss:3.5899 train_time:105608ms step_avg:167.37ms
step:642/1530 train_loss:3.6301 train_time:105779ms step_avg:167.37ms
step:643/1530 train_loss:3.6022 train_time:105949ms step_avg:167.38ms
step:644/1530 train_loss:3.5589 train_time:106119ms step_avg:167.38ms
step:645/1530 train_loss:3.7731 train_time:106291ms step_avg:167.39ms
step:646/1530 train_loss:3.6787 train_time:106461ms step_avg:167.39ms
step:647/1530 train_loss:3.6691 train_time:106631ms step_avg:167.40ms
step:648/1530 train_loss:3.7214 train_time:106803ms step_avg:167.40ms
step:649/1530 train_loss:3.7697 train_time:106975ms step_avg:167.41ms
step:650/1530 train_loss:3.6258 train_time:107144ms step_avg:167.41ms
step:651/1530 train_loss:3.7707 train_time:107315ms step_avg:167.42ms
step:652/1530 train_loss:3.5838 train_time:107485ms step_avg:167.42ms
step:653/1530 train_loss:3.6576 train_time:107656ms step_avg:167.43ms
step:654/1530 train_loss:3.4330 train_time:107826ms step_avg:167.43ms
step:655/1530 train_loss:3.5852 train_time:107995ms step_avg:167.43ms
step:656/1530 train_loss:3.5762 train_time:108166ms step_avg:167.44ms
step:657/1530 train_loss:3.4973 train_time:108336ms step_avg:167.44ms
step:658/1530 train_loss:3.6902 train_time:108507ms step_avg:167.45ms
step:659/1530 train_loss:3.5907 train_time:108678ms step_avg:167.45ms
step:660/1530 train_loss:3.6822 train_time:108849ms step_avg:167.46ms
step:661/1530 train_loss:3.7573 train_time:109019ms step_avg:167.46ms
step:662/1530 train_loss:3.6755 train_time:109191ms step_avg:167.47ms
step:663/1530 train_loss:3.5561 train_time:109360ms step_avg:167.47ms
step:664/1530 train_loss:3.6121 train_time:109532ms step_avg:167.48ms
step:665/1530 train_loss:3.4966 train_time:109702ms step_avg:167.48ms
step:666/1530 train_loss:3.7812 train_time:109872ms step_avg:167.49ms
step:667/1530 train_loss:3.6092 train_time:110042ms step_avg:167.49ms
step:668/1530 train_loss:3.6455 train_time:110213ms step_avg:167.50ms
step:669/1530 train_loss:3.4913 train_time:110384ms step_avg:167.50ms
step:670/1530 train_loss:3.6048 train_time:110554ms step_avg:167.51ms
step:671/1530 train_loss:3.5655 train_time:110726ms step_avg:167.51ms
step:672/1530 train_loss:3.5670 train_time:110898ms step_avg:167.52ms
step:673/1530 train_loss:3.8503 train_time:111067ms step_avg:167.52ms
step:674/1530 train_loss:3.6262 train_time:111237ms step_avg:167.53ms
step:675/1530 train_loss:3.7068 train_time:111407ms step_avg:167.53ms
step:676/1530 train_loss:3.4957 train_time:111578ms step_avg:167.54ms
step:677/1530 train_loss:3.6052 train_time:111749ms step_avg:167.54ms
step:678/1530 train_loss:3.5572 train_time:111922ms step_avg:167.55ms
step:679/1530 train_loss:3.6851 train_time:112095ms step_avg:167.56ms
step:680/1530 train_loss:3.5883 train_time:112264ms step_avg:167.56ms
step:681/1530 train_loss:3.6207 train_time:112435ms step_avg:167.56ms
step:682/1530 train_loss:3.6719 train_time:112610ms step_avg:167.57ms
step:683/1530 train_loss:3.7416 train_time:112783ms step_avg:167.58ms
step:684/1530 train_loss:3.6509 train_time:112955ms step_avg:167.59ms
step:685/1530 train_loss:3.6892 train_time:113129ms step_avg:167.60ms
step:686/1530 train_loss:3.6357 train_time:113301ms step_avg:167.60ms
step:687/1530 train_loss:3.6658 train_time:113474ms step_avg:167.61ms
step:688/1530 train_loss:3.2054 train_time:113649ms step_avg:167.62ms
step:689/1530 train_loss:3.4104 train_time:113823ms step_avg:167.63ms
step:690/1530 train_loss:3.5407 train_time:113999ms step_avg:167.65ms
step:691/1530 train_loss:3.4112 train_time:114170ms step_avg:167.65ms
step:692/1530 train_loss:3.6300 train_time:114341ms step_avg:167.66ms
step:693/1530 train_loss:3.6505 train_time:114515ms step_avg:167.66ms
step:694/1530 train_loss:3.5576 train_time:114686ms step_avg:167.67ms
step:695/1530 train_loss:3.5388 train_time:114858ms step_avg:167.68ms
step:696/1530 train_loss:3.8538 train_time:115030ms step_avg:167.68ms
step:697/1530 train_loss:3.5841 train_time:115205ms step_avg:167.69ms
step:698/1530 train_loss:3.6451 train_time:115377ms step_avg:167.70ms
step:699/1530 train_loss:3.7809 train_time:115552ms step_avg:167.71ms
step:700/1530 train_loss:3.5697 train_time:115724ms step_avg:167.72ms
step:701/1530 train_loss:3.5455 train_time:115897ms step_avg:167.72ms
step:702/1530 train_loss:3.5113 train_time:116070ms step_avg:167.73ms
step:703/1530 train_loss:3.5026 train_time:116241ms step_avg:167.74ms
step:704/1530 train_loss:3.5802 train_time:116415ms step_avg:167.74ms
step:705/1530 train_loss:3.5745 train_time:116591ms step_avg:167.76ms
step:706/1530 train_loss:3.5814 train_time:116767ms step_avg:167.77ms
step:707/1530 train_loss:3.6511 train_time:116940ms step_avg:167.78ms
step:708/1530 train_loss:3.6086 train_time:117114ms step_avg:167.79ms
step:709/1530 train_loss:3.5887 train_time:117288ms step_avg:167.79ms
step:710/1530 train_loss:3.5437 train_time:117460ms step_avg:167.80ms
step:711/1530 train_loss:3.5940 train_time:117633ms step_avg:167.81ms
step:712/1530 train_loss:3.6506 train_time:117809ms step_avg:167.82ms
step:713/1530 train_loss:3.6554 train_time:117985ms step_avg:167.83ms
step:714/1530 train_loss:3.5658 train_time:118157ms step_avg:167.84ms
step:715/1530 train_loss:3.5742 train_time:118328ms step_avg:167.84ms
step:716/1530 train_loss:3.5966 train_time:118501ms step_avg:167.85ms
step:717/1530 train_loss:3.7112 train_time:118677ms step_avg:167.86ms
step:718/1530 train_loss:3.6005 train_time:118848ms step_avg:167.86ms
step:719/1530 train_loss:3.6808 train_time:119021ms step_avg:167.87ms
step:720/1530 train_loss:3.8449 train_time:119197ms step_avg:167.88ms
step:721/1530 train_loss:3.4701 train_time:119370ms step_avg:167.89ms
step:722/1530 train_loss:3.7410 train_time:119541ms step_avg:167.90ms
step:723/1530 train_loss:3.7708 train_time:119714ms step_avg:167.90ms
step:724/1530 train_loss:3.5745 train_time:119888ms step_avg:167.91ms
step:725/1530 train_loss:3.6540 train_time:120060ms step_avg:167.92ms
step:726/1530 train_loss:3.5368 train_time:120234ms step_avg:167.92ms
step:727/1530 train_loss:3.5789 train_time:120408ms step_avg:167.93ms
step:728/1530 train_loss:3.7323 train_time:120581ms step_avg:167.94ms
step:729/1530 train_loss:3.6755 train_time:120755ms step_avg:167.95ms
step:730/1530 train_loss:3.6646 train_time:120926ms step_avg:167.95ms
step:731/1530 train_loss:3.5550 train_time:121098ms step_avg:167.96ms
step:732/1530 train_loss:3.6006 train_time:121268ms step_avg:167.96ms
step:733/1530 train_loss:3.8361 train_time:121443ms step_avg:167.97ms
step:734/1530 train_loss:3.5636 train_time:121618ms step_avg:167.98ms
step:735/1530 train_loss:3.6222 train_time:121790ms step_avg:167.99ms
step:736/1530 train_loss:3.7397 train_time:121962ms step_avg:167.99ms
step:737/1530 train_loss:3.6829 train_time:122134ms step_avg:168.00ms
step:738/1530 train_loss:3.6019 train_time:122305ms step_avg:168.00ms
step:739/1530 train_loss:3.4995 train_time:122477ms step_avg:168.01ms
step:740/1530 train_loss:4.1184 train_time:122655ms step_avg:168.02ms
step:741/1530 train_loss:3.4919 train_time:122827ms step_avg:168.03ms
step:742/1530 train_loss:3.5509 train_time:122999ms step_avg:168.03ms
step:743/1530 train_loss:3.5844 train_time:123173ms step_avg:168.04ms
step:744/1530 train_loss:3.6476 train_time:123345ms step_avg:168.04ms
step:745/1530 train_loss:3.5972 train_time:123519ms step_avg:168.05ms
step:746/1530 train_loss:3.5964 train_time:123692ms step_avg:168.06ms
step:747/1530 train_loss:3.6500 train_time:123864ms step_avg:168.07ms
step:748/1530 train_loss:3.5689 train_time:124039ms step_avg:168.07ms
step:749/1530 train_loss:3.5605 train_time:124211ms step_avg:168.08ms
step:750/1530 train_loss:3.5981 train_time:124382ms step_avg:168.08ms
step:750/1530 val_loss:3.5685 train_time:124431ms step_avg:168.15ms
step:751/1530 train_loss:3.5778 train_time:124557ms step_avg:168.09ms
step:752/1530 train_loss:3.6185 train_time:124727ms step_avg:168.10ms
step:753/1530 train_loss:3.6218 train_time:124900ms step_avg:168.10ms
step:754/1530 train_loss:3.5994 train_time:125073ms step_avg:168.11ms
step:755/1530 train_loss:3.6842 train_time:125378ms step_avg:168.29ms
step:756/1530 train_loss:3.4650 train_time:125563ms step_avg:168.31ms
step:757/1530 train_loss:3.7300 train_time:125737ms step_avg:168.32ms
step:758/1530 train_loss:3.6612 train_time:125908ms step_avg:168.33ms
step:759/1530 train_loss:3.5986 train_time:126230ms step_avg:168.53ms
step:760/1530 train_loss:3.7051 train_time:126402ms step_avg:168.54ms
step:761/1530 train_loss:3.4014 train_time:126573ms step_avg:168.54ms
step:762/1530 train_loss:3.5572 train_time:126744ms step_avg:168.54ms
step:763/1530 train_loss:3.6646 train_time:126919ms step_avg:168.55ms
step:764/1530 train_loss:3.3222 train_time:127093ms step_avg:168.56ms
step:765/1530 train_loss:3.7335 train_time:127264ms step_avg:168.56ms
step:766/1530 train_loss:3.5754 train_time:127438ms step_avg:168.57ms
step:767/1530 train_loss:3.5702 train_time:127610ms step_avg:168.57ms
step:768/1530 train_loss:3.5742 train_time:127784ms step_avg:168.58ms
step:769/1530 train_loss:3.5893 train_time:127958ms step_avg:168.59ms
step:770/1530 train_loss:3.6419 train_time:128128ms step_avg:168.59ms
step:771/1530 train_loss:3.8910 train_time:128301ms step_avg:168.60ms
step:772/1530 train_loss:3.4517 train_time:128473ms step_avg:168.60ms
step:773/1530 train_loss:3.6344 train_time:128645ms step_avg:168.60ms
step:774/1530 train_loss:3.6401 train_time:128817ms step_avg:168.61ms
step:775/1530 train_loss:3.6130 train_time:128988ms step_avg:168.61ms
step:776/1530 train_loss:3.4038 train_time:129161ms step_avg:168.62ms
step:777/1530 train_loss:3.3930 train_time:129335ms step_avg:168.63ms
step:778/1530 train_loss:3.4961 train_time:129506ms step_avg:168.63ms
step:779/1530 train_loss:3.5829 train_time:129680ms step_avg:168.63ms
step:780/1530 train_loss:3.5860 train_time:129852ms step_avg:168.64ms
step:781/1530 train_loss:3.6790 train_time:130024ms step_avg:168.64ms
step:782/1530 train_loss:3.5898 train_time:130198ms step_avg:168.65ms
step:783/1530 train_loss:3.5709 train_time:130368ms step_avg:168.65ms
step:784/1530 train_loss:3.6058 train_time:130540ms step_avg:168.66ms
step:785/1530 train_loss:3.5648 train_time:130712ms step_avg:168.66ms
step:786/1530 train_loss:3.4445 train_time:130884ms step_avg:168.66ms
step:787/1530 train_loss:3.7383 train_time:131056ms step_avg:168.67ms
step:788/1530 train_loss:3.5021 train_time:131227ms step_avg:168.67ms
step:789/1530 train_loss:3.5539 train_time:131399ms step_avg:168.68ms
step:790/1530 train_loss:3.6336 train_time:131574ms step_avg:168.68ms
step:791/1530 train_loss:3.7694 train_time:131749ms step_avg:168.69ms
step:792/1530 train_loss:3.7636 train_time:131921ms step_avg:168.70ms
step:793/1530 train_loss:3.4580 train_time:132094ms step_avg:168.70ms
step:794/1530 train_loss:3.5945 train_time:132265ms step_avg:168.71ms
step:795/1530 train_loss:3.6792 train_time:132440ms step_avg:168.71ms
step:796/1530 train_loss:3.7550 train_time:132615ms step_avg:168.72ms
step:797/1530 train_loss:3.5300 train_time:132788ms step_avg:168.73ms
step:798/1530 train_loss:3.6507 train_time:132962ms step_avg:168.73ms
step:799/1530 train_loss:3.5438 train_time:133138ms step_avg:168.74ms
step:800/1530 train_loss:3.5317 train_time:133312ms step_avg:168.75ms
step:801/1530 train_loss:3.6271 train_time:133484ms step_avg:168.75ms
step:802/1530 train_loss:3.5012 train_time:133660ms step_avg:168.76ms
step:803/1530 train_loss:3.4891 train_time:133832ms step_avg:168.77ms
step:804/1530 train_loss:3.6303 train_time:134006ms step_avg:168.77ms
step:805/1530 train_loss:3.5203 train_time:134182ms step_avg:168.78ms
step:806/1530 train_loss:3.5644 train_time:134356ms step_avg:168.79ms
step:807/1530 train_loss:3.6478 train_time:134528ms step_avg:168.79ms
step:808/1530 train_loss:3.5523 train_time:134704ms step_avg:168.80ms
step:809/1530 train_loss:3.4993 train_time:134878ms step_avg:168.81ms
step:810/1530 train_loss:3.5627 train_time:135050ms step_avg:168.81ms
step:811/1530 train_loss:3.5817 train_time:135225ms step_avg:168.82ms
step:812/1530 train_loss:3.6029 train_time:135399ms step_avg:168.83ms
step:813/1530 train_loss:3.6309 train_time:135570ms step_avg:168.83ms
step:814/1530 train_loss:3.5718 train_time:135745ms step_avg:168.84ms
step:815/1530 train_loss:3.5643 train_time:135919ms step_avg:168.84ms
step:816/1530 train_loss:3.6863 train_time:136095ms step_avg:168.85ms
step:817/1530 train_loss:3.7748 train_time:136268ms step_avg:168.86ms
step:818/1530 train_loss:3.5290 train_time:136442ms step_avg:168.86ms
step:819/1530 train_loss:3.7214 train_time:136618ms step_avg:168.87ms
step:820/1530 train_loss:3.4934 train_time:136792ms step_avg:168.88ms
step:821/1530 train_loss:3.5630 train_time:136965ms step_avg:168.88ms
step:822/1530 train_loss:3.6997 train_time:137141ms step_avg:168.89ms
step:823/1530 train_loss:3.5754 train_time:137316ms step_avg:168.90ms
step:824/1530 train_loss:3.5147 train_time:137488ms step_avg:168.90ms
step:825/1530 train_loss:3.6193 train_time:137662ms step_avg:168.91ms
step:826/1530 train_loss:3.4848 train_time:137838ms step_avg:168.92ms
step:827/1530 train_loss:3.7342 train_time:138012ms step_avg:168.93ms
step:828/1530 train_loss:3.6216 train_time:138186ms step_avg:168.93ms
step:829/1530 train_loss:3.6271 train_time:138361ms step_avg:168.94ms
step:830/1530 train_loss:3.5442 train_time:138536ms step_avg:168.95ms
step:831/1530 train_loss:3.6047 train_time:138709ms step_avg:168.95ms
step:832/1530 train_loss:3.5179 train_time:138882ms step_avg:168.96ms
step:833/1530 train_loss:3.6549 train_time:139058ms step_avg:168.96ms
step:834/1530 train_loss:3.4741 train_time:139232ms step_avg:168.97ms
step:835/1530 train_loss:3.4643 train_time:139405ms step_avg:168.98ms
step:836/1530 train_loss:3.7136 train_time:139582ms step_avg:168.98ms
step:837/1530 train_loss:3.3993 train_time:139756ms step_avg:168.99ms
step:838/1530 train_loss:3.5993 train_time:139929ms step_avg:169.00ms
step:839/1530 train_loss:3.4203 train_time:140104ms step_avg:169.00ms
step:840/1530 train_loss:3.4713 train_time:140277ms step_avg:169.01ms
step:841/1530 train_loss:3.5724 train_time:140449ms step_avg:169.01ms
step:842/1530 train_loss:3.5834 train_time:140625ms step_avg:169.02ms
step:843/1530 train_loss:3.5637 train_time:140799ms step_avg:169.03ms
step:844/1530 train_loss:3.4309 train_time:140972ms step_avg:169.03ms
step:845/1530 train_loss:3.6670 train_time:141147ms step_avg:169.04ms
step:846/1530 train_loss:3.5149 train_time:141322ms step_avg:169.05ms
step:847/1530 train_loss:3.4988 train_time:141498ms step_avg:169.05ms
step:848/1530 train_loss:3.6414 train_time:141670ms step_avg:169.06ms
step:849/1530 train_loss:3.4903 train_time:141844ms step_avg:169.06ms
step:850/1530 train_loss:3.4489 train_time:142018ms step_avg:169.07ms
step:851/1530 train_loss:3.7359 train_time:142192ms step_avg:169.07ms
step:852/1530 train_loss:3.4420 train_time:142364ms step_avg:169.08ms
step:853/1530 train_loss:3.5658 train_time:142537ms step_avg:169.08ms
step:854/1530 train_loss:3.6560 train_time:142713ms step_avg:169.09ms
step:855/1530 train_loss:3.5152 train_time:142885ms step_avg:169.10ms
step:856/1530 train_loss:3.5508 train_time:143058ms step_avg:169.10ms
step:857/1530 train_loss:3.6029 train_time:143233ms step_avg:169.11ms
step:858/1530 train_loss:3.4739 train_time:143408ms step_avg:169.11ms
step:859/1530 train_loss:3.5675 train_time:143582ms step_avg:169.12ms
step:860/1530 train_loss:3.5905 train_time:143753ms step_avg:169.12ms
step:861/1530 train_loss:3.6346 train_time:143929ms step_avg:169.13ms
step:862/1530 train_loss:3.6026 train_time:144107ms step_avg:169.14ms
step:863/1530 train_loss:3.5715 train_time:144282ms step_avg:169.15ms
step:864/1530 train_loss:3.3856 train_time:144457ms step_avg:169.15ms
step:865/1530 train_loss:3.6007 train_time:144628ms step_avg:169.16ms
step:866/1530 train_loss:3.8940 train_time:144805ms step_avg:169.16ms
step:867/1530 train_loss:3.4608 train_time:144978ms step_avg:169.17ms
step:868/1530 train_loss:3.6441 train_time:145149ms step_avg:169.17ms
step:869/1530 train_loss:3.6220 train_time:145322ms step_avg:169.18ms
step:870/1530 train_loss:3.4514 train_time:145498ms step_avg:169.18ms
step:871/1530 train_loss:3.4036 train_time:145671ms step_avg:169.19ms
step:872/1530 train_loss:3.6485 train_time:145845ms step_avg:169.19ms
step:873/1530 train_loss:3.4606 train_time:146018ms step_avg:169.20ms
step:874/1530 train_loss:3.2225 train_time:146196ms step_avg:169.21ms
step:875/1530 train_loss:3.6342 train_time:146369ms step_avg:169.21ms
step:875/1530 val_loss:3.5200 train_time:146419ms step_avg:169.27ms
step:876/1530 train_loss:3.4396 train_time:146541ms step_avg:169.22ms
step:877/1530 train_loss:3.6244 train_time:146717ms step_avg:169.22ms
step:878/1530 train_loss:3.4664 train_time:146892ms step_avg:169.23ms
step:879/1530 train_loss:3.6513 train_time:147065ms step_avg:169.23ms
step:880/1530 train_loss:3.3072 train_time:147236ms step_avg:169.24ms
step:881/1530 train_loss:3.4777 train_time:147410ms step_avg:169.24ms
step:882/1530 train_loss:3.6938 train_time:147581ms step_avg:169.24ms
step:883/1530 train_loss:3.8421 train_time:147755ms step_avg:169.25ms
step:884/1530 train_loss:3.5655 train_time:147931ms step_avg:169.26ms
step:885/1530 train_loss:3.4946 train_time:148104ms step_avg:169.26ms
step:886/1530 train_loss:3.5721 train_time:148278ms step_avg:169.27ms
step:887/1530 train_loss:4.0966 train_time:148452ms step_avg:169.27ms
step:888/1530 train_loss:3.8368 train_time:148633ms step_avg:169.29ms
step:889/1530 train_loss:3.5224 train_time:148806ms step_avg:169.29ms
step:890/1530 train_loss:3.5346 train_time:148977ms step_avg:169.29ms
step:891/1530 train_loss:3.3632 train_time:149151ms step_avg:169.30ms
step:892/1530 train_loss:3.7189 train_time:149325ms step_avg:169.30ms
step:893/1530 train_loss:3.4236 train_time:149496ms step_avg:169.31ms
step:894/1530 train_loss:3.6360 train_time:149672ms step_avg:169.31ms
step:895/1530 train_loss:3.6833 train_time:149847ms step_avg:169.32ms
step:896/1530 train_loss:3.5089 train_time:150019ms step_avg:169.32ms
step:897/1530 train_loss:3.5413 train_time:150195ms step_avg:169.33ms
step:898/1530 train_loss:3.5861 train_time:150370ms step_avg:169.34ms
step:899/1530 train_loss:3.4771 train_time:150542ms step_avg:169.34ms
step:900/1530 train_loss:3.4253 train_time:150714ms step_avg:169.34ms
step:901/1530 train_loss:3.6216 train_time:150887ms step_avg:169.35ms
step:902/1530 train_loss:3.6341 train_time:151059ms step_avg:169.35ms
step:903/1530 train_loss:3.5457 train_time:151235ms step_avg:169.36ms
step:904/1530 train_loss:3.4932 train_time:151410ms step_avg:169.36ms
step:905/1530 train_loss:3.5021 train_time:151580ms step_avg:169.36ms
step:906/1530 train_loss:3.7019 train_time:151754ms step_avg:169.37ms
step:907/1530 train_loss:3.5189 train_time:151928ms step_avg:169.37ms
step:908/1530 train_loss:3.5665 train_time:152099ms step_avg:169.37ms
step:909/1530 train_loss:3.4566 train_time:152274ms step_avg:169.38ms
step:910/1530 train_loss:3.5274 train_time:152454ms step_avg:169.39ms
step:911/1530 train_loss:3.6433 train_time:152632ms step_avg:169.40ms
step:912/1530 train_loss:3.5847 train_time:152810ms step_avg:169.41ms
step:913/1530 train_loss:3.4605 train_time:152989ms step_avg:169.42ms
step:914/1530 train_loss:3.7468 train_time:153167ms step_avg:169.43ms
step:915/1530 train_loss:3.5328 train_time:153346ms step_avg:169.44ms
step:916/1530 train_loss:3.6197 train_time:153521ms step_avg:169.45ms
step:917/1530 train_loss:3.6005 train_time:153695ms step_avg:169.45ms
step:918/1530 train_loss:4.8310 train_time:153874ms step_avg:169.46ms
step:919/1530 train_loss:3.4981 train_time:154052ms step_avg:169.47ms
step:920/1530 train_loss:3.5929 train_time:154226ms step_avg:169.48ms
step:921/1530 train_loss:3.5529 train_time:154400ms step_avg:169.48ms
step:922/1530 train_loss:3.5864 train_time:154578ms step_avg:169.49ms
step:923/1530 train_loss:3.6105 train_time:154754ms step_avg:169.50ms
step:924/1530 train_loss:3.6810 train_time:154932ms step_avg:169.51ms
step:925/1530 train_loss:3.6481 train_time:155106ms step_avg:169.51ms
step:926/1530 train_loss:3.5581 train_time:155279ms step_avg:169.52ms
step:927/1530 train_loss:3.5600 train_time:155455ms step_avg:169.53ms
step:928/1530 train_loss:3.7829 train_time:155633ms step_avg:169.53ms
step:929/1530 train_loss:3.6088 train_time:155808ms step_avg:169.54ms
step:930/1530 train_loss:3.4021 train_time:155985ms step_avg:169.55ms
step:931/1530 train_loss:3.4909 train_time:156159ms step_avg:169.55ms
step:932/1530 train_loss:3.6524 train_time:156336ms step_avg:169.56ms
step:933/1530 train_loss:3.3668 train_time:156513ms step_avg:169.57ms
step:934/1530 train_loss:3.5828 train_time:156691ms step_avg:169.58ms
step:935/1530 train_loss:3.4385 train_time:156869ms step_avg:169.59ms
step:936/1530 train_loss:3.5290 train_time:157046ms step_avg:169.60ms
step:937/1530 train_loss:3.6252 train_time:157226ms step_avg:169.61ms
step:938/1530 train_loss:3.5434 train_time:157399ms step_avg:169.61ms
step:939/1530 train_loss:3.6694 train_time:157578ms step_avg:169.62ms
step:940/1530 train_loss:3.4786 train_time:157753ms step_avg:169.63ms
step:941/1530 train_loss:3.5526 train_time:157928ms step_avg:169.63ms
step:942/1530 train_loss:3.3605 train_time:158104ms step_avg:169.64ms
step:943/1530 train_loss:3.7133 train_time:158283ms step_avg:169.65ms
step:944/1530 train_loss:3.4067 train_time:158595ms step_avg:169.80ms
step:945/1530 train_loss:3.4291 train_time:158780ms step_avg:169.82ms
step:946/1530 train_loss:5.0735 train_time:158959ms step_avg:169.83ms
step:947/1530 train_loss:3.5988 train_time:159135ms step_avg:169.83ms
step:948/1530 train_loss:3.4890 train_time:159311ms step_avg:169.84ms
step:949/1530 train_loss:3.3731 train_time:159634ms step_avg:170.00ms
step:950/1530 train_loss:3.4450 train_time:159814ms step_avg:170.02ms
step:951/1530 train_loss:3.4079 train_time:159994ms step_avg:170.03ms
step:952/1530 train_loss:3.4774 train_time:160171ms step_avg:170.03ms
step:953/1530 train_loss:3.5702 train_time:160347ms step_avg:170.04ms
step:954/1530 train_loss:3.4457 train_time:160527ms step_avg:170.05ms
step:955/1530 train_loss:3.4825 train_time:160698ms step_avg:170.05ms
step:956/1530 train_loss:3.4432 train_time:160876ms step_avg:170.06ms
step:957/1530 train_loss:3.4974 train_time:161056ms step_avg:170.07ms
step:958/1530 train_loss:3.5085 train_time:161236ms step_avg:170.08ms
step:959/1530 train_loss:3.5118 train_time:161413ms step_avg:170.09ms
step:960/1530 train_loss:3.4073 train_time:161591ms step_avg:170.10ms
step:961/1530 train_loss:3.6477 train_time:161765ms step_avg:170.10ms
step:962/1530 train_loss:3.5933 train_time:161940ms step_avg:170.10ms
step:963/1530 train_loss:3.6027 train_time:162117ms step_avg:170.11ms
step:964/1530 train_loss:3.4278 train_time:162295ms step_avg:170.12ms
step:965/1530 train_loss:3.4782 train_time:162468ms step_avg:170.12ms
step:966/1530 train_loss:3.7125 train_time:162642ms step_avg:170.13ms
step:967/1530 train_loss:3.5224 train_time:162816ms step_avg:170.13ms
step:968/1530 train_loss:3.5183 train_time:162992ms step_avg:170.14ms
step:969/1530 train_loss:3.5835 train_time:163168ms step_avg:170.14ms
step:970/1530 train_loss:3.3710 train_time:163339ms step_avg:170.15ms
step:971/1530 train_loss:3.5335 train_time:163514ms step_avg:170.15ms
step:972/1530 train_loss:3.4686 train_time:163688ms step_avg:170.15ms
step:973/1530 train_loss:3.5408 train_time:163860ms step_avg:170.16ms
step:974/1530 train_loss:3.5900 train_time:164037ms step_avg:170.16ms
step:975/1530 train_loss:3.4682 train_time:164213ms step_avg:170.17ms
step:976/1530 train_loss:3.6704 train_time:164387ms step_avg:170.17ms
step:977/1530 train_loss:3.5668 train_time:164559ms step_avg:170.17ms
step:978/1530 train_loss:3.3605 train_time:164735ms step_avg:170.18ms
step:979/1530 train_loss:3.6310 train_time:164912ms step_avg:170.19ms
step:980/1530 train_loss:3.4167 train_time:165089ms step_avg:170.20ms
step:981/1530 train_loss:3.5809 train_time:165267ms step_avg:170.20ms
step:982/1530 train_loss:3.5441 train_time:165441ms step_avg:170.21ms
step:983/1530 train_loss:3.5143 train_time:165618ms step_avg:170.21ms
step:984/1530 train_loss:3.4922 train_time:165792ms step_avg:170.22ms
step:985/1530 train_loss:3.5762 train_time:165970ms step_avg:170.23ms
step:986/1530 train_loss:3.4142 train_time:166145ms step_avg:170.23ms
step:987/1530 train_loss:3.4889 train_time:166316ms step_avg:170.23ms
step:988/1530 train_loss:3.5014 train_time:166491ms step_avg:170.24ms
step:989/1530 train_loss:3.4239 train_time:166664ms step_avg:170.24ms
step:990/1530 train_loss:3.6633 train_time:166840ms step_avg:170.24ms
step:991/1530 train_loss:3.4711 train_time:167014ms step_avg:170.25ms
step:992/1530 train_loss:3.4434 train_time:167194ms step_avg:170.26ms
step:993/1530 train_loss:3.4978 train_time:167372ms step_avg:170.27ms
step:994/1530 train_loss:3.5980 train_time:167546ms step_avg:170.27ms
step:995/1530 train_loss:3.5326 train_time:167718ms step_avg:170.27ms
step:996/1530 train_loss:3.4608 train_time:167891ms step_avg:170.28ms
step:997/1530 train_loss:3.7506 train_time:168067ms step_avg:170.28ms
step:998/1530 train_loss:3.4384 train_time:168239ms step_avg:170.28ms
step:999/1530 train_loss:3.5862 train_time:168415ms step_avg:170.29ms
step:1000/1530 train_loss:3.4404 train_time:168592ms step_avg:170.30ms
step:1000/1530 val_loss:3.4675 train_time:168644ms step_avg:170.35ms
step:1001/1530 train_loss:3.4995 train_time:168768ms step_avg:170.30ms
step:1002/1530 train_loss:3.3761 train_time:168943ms step_avg:170.31ms
step:1003/1530 train_loss:3.5588 train_time:169120ms step_avg:170.31ms
step:1004/1530 train_loss:3.6050 train_time:169295ms step_avg:170.32ms
step:1005/1530 train_loss:3.3961 train_time:169470ms step_avg:170.32ms
step:1006/1530 train_loss:3.4686 train_time:169645ms step_avg:170.33ms
step:1007/1530 train_loss:3.4398 train_time:169822ms step_avg:170.33ms
step:1008/1530 train_loss:3.5559 train_time:169999ms step_avg:170.34ms
step:1009/1530 train_loss:3.6641 train_time:170176ms step_avg:170.35ms
step:1010/1530 train_loss:3.5641 train_time:170349ms step_avg:170.35ms
step:1011/1530 train_loss:3.5363 train_time:170522ms step_avg:170.35ms
step:1012/1530 train_loss:3.3933 train_time:170697ms step_avg:170.36ms
step:1013/1530 train_loss:3.5360 train_time:170873ms step_avg:170.36ms
step:1014/1530 train_loss:3.6213 train_time:171049ms step_avg:170.37ms
step:1015/1530 train_loss:3.3251 train_time:171225ms step_avg:170.37ms
step:1016/1530 train_loss:3.4114 train_time:171399ms step_avg:170.38ms
step:1017/1530 train_loss:3.3961 train_time:171576ms step_avg:170.38ms
step:1018/1530 train_loss:3.3958 train_time:171750ms step_avg:170.39ms
step:1019/1530 train_loss:3.5210 train_time:171925ms step_avg:170.39ms
step:1020/1530 train_loss:3.3831 train_time:172101ms step_avg:170.40ms
step:1021/1530 train_loss:3.3571 train_time:172277ms step_avg:170.40ms
step:1022/1530 train_loss:3.4791 train_time:172453ms step_avg:170.41ms
step:1023/1530 train_loss:3.5026 train_time:172629ms step_avg:170.41ms
step:1024/1530 train_loss:3.4772 train_time:172806ms step_avg:170.42ms
step:1025/1530 train_loss:3.4802 train_time:172982ms step_avg:170.43ms
step:1026/1530 train_loss:3.6209 train_time:173158ms step_avg:170.43ms
step:1027/1530 train_loss:3.3177 train_time:173336ms step_avg:170.44ms
step:1028/1530 train_loss:3.3983 train_time:173517ms step_avg:170.45ms
step:1029/1530 train_loss:3.3120 train_time:173696ms step_avg:170.46ms
step:1030/1530 train_loss:3.5357 train_time:173873ms step_avg:170.46ms
step:1031/1530 train_loss:3.5050 train_time:174047ms step_avg:170.47ms
step:1032/1530 train_loss:3.6948 train_time:174230ms step_avg:170.48ms
step:1033/1530 train_loss:3.4897 train_time:174405ms step_avg:170.48ms
step:1034/1530 train_loss:3.4006 train_time:174581ms step_avg:170.49ms
step:1035/1530 train_loss:3.4413 train_time:174761ms step_avg:170.50ms
step:1036/1530 train_loss:3.4822 train_time:174940ms step_avg:170.51ms
step:1037/1530 train_loss:3.7841 train_time:175118ms step_avg:170.51ms
step:1038/1530 train_loss:3.6149 train_time:175296ms step_avg:170.52ms
step:1039/1530 train_loss:3.5097 train_time:175475ms step_avg:170.53ms
step:1040/1530 train_loss:3.4155 train_time:175650ms step_avg:170.53ms
step:1041/1530 train_loss:3.4870 train_time:175828ms step_avg:170.54ms
step:1042/1530 train_loss:3.5223 train_time:176003ms step_avg:170.55ms
step:1043/1530 train_loss:3.4443 train_time:176178ms step_avg:170.55ms
step:1044/1530 train_loss:3.4552 train_time:176356ms step_avg:170.56ms
step:1045/1530 train_loss:3.5152 train_time:176536ms step_avg:170.57ms
step:1046/1530 train_loss:3.4271 train_time:176710ms step_avg:170.57ms
step:1047/1530 train_loss:3.6378 train_time:176886ms step_avg:170.57ms
step:1048/1530 train_loss:3.4967 train_time:177061ms step_avg:170.58ms
step:1049/1530 train_loss:3.3968 train_time:177238ms step_avg:170.59ms
step:1050/1530 train_loss:3.3933 train_time:177416ms step_avg:170.59ms
step:1051/1530 train_loss:3.4940 train_time:177595ms step_avg:170.60ms
step:1052/1530 train_loss:3.3646 train_time:177772ms step_avg:170.61ms
step:1053/1530 train_loss:3.6894 train_time:177948ms step_avg:170.61ms
step:1054/1530 train_loss:3.5368 train_time:178127ms step_avg:170.62ms
step:1055/1530 train_loss:3.3844 train_time:178302ms step_avg:170.62ms
step:1056/1530 train_loss:3.4986 train_time:178476ms step_avg:170.63ms
step:1057/1530 train_loss:3.5765 train_time:178654ms step_avg:170.63ms
step:1058/1530 train_loss:3.3032 train_time:178833ms step_avg:170.64ms
step:1059/1530 train_loss:3.3675 train_time:179013ms step_avg:170.65ms
step:1060/1530 train_loss:3.4335 train_time:179189ms step_avg:170.66ms
step:1061/1530 train_loss:3.4138 train_time:179363ms step_avg:170.66ms
step:1062/1530 train_loss:3.3783 train_time:179540ms step_avg:170.67ms
step:1063/1530 train_loss:3.4605 train_time:179715ms step_avg:170.67ms
step:1064/1530 train_loss:3.3835 train_time:179888ms step_avg:170.67ms
step:1065/1530 train_loss:3.3612 train_time:180065ms step_avg:170.68ms
step:1066/1530 train_loss:3.4139 train_time:180242ms step_avg:170.68ms
step:1067/1530 train_loss:3.2886 train_time:180421ms step_avg:170.69ms
step:1068/1530 train_loss:3.4342 train_time:180597ms step_avg:170.70ms
step:1069/1530 train_loss:3.2945 train_time:180777ms step_avg:170.71ms
step:1070/1530 train_loss:3.5673 train_time:180953ms step_avg:170.71ms
step:1071/1530 train_loss:3.5093 train_time:181134ms step_avg:170.72ms
step:1072/1530 train_loss:3.4391 train_time:181308ms step_avg:170.72ms
step:1073/1530 train_loss:3.5238 train_time:181481ms step_avg:170.73ms
step:1074/1530 train_loss:3.4282 train_time:181659ms step_avg:170.73ms
step:1075/1530 train_loss:3.3979 train_time:181837ms step_avg:170.74ms
step:1076/1530 train_loss:3.7942 train_time:182013ms step_avg:170.74ms
step:1077/1530 train_loss:3.4360 train_time:182186ms step_avg:170.75ms
step:1078/1530 train_loss:3.0987 train_time:182369ms step_avg:170.76ms
step:1079/1530 train_loss:3.5356 train_time:182545ms step_avg:170.76ms
step:1080/1530 train_loss:3.4280 train_time:182722ms step_avg:170.77ms
step:1081/1530 train_loss:3.4953 train_time:182897ms step_avg:170.77ms
step:1082/1530 train_loss:3.5903 train_time:183071ms step_avg:170.78ms
step:1083/1530 train_loss:3.4952 train_time:183247ms step_avg:170.78ms
step:1084/1530 train_loss:3.4626 train_time:183423ms step_avg:170.78ms
step:1085/1530 train_loss:3.4306 train_time:183599ms step_avg:170.79ms
step:1086/1530 train_loss:3.6300 train_time:183776ms step_avg:170.80ms
step:1087/1530 train_loss:3.5044 train_time:183951ms step_avg:170.80ms
step:1088/1530 train_loss:3.3656 train_time:184128ms step_avg:170.81ms
step:1089/1530 train_loss:3.3750 train_time:184307ms step_avg:170.81ms
step:1090/1530 train_loss:3.4842 train_time:184486ms step_avg:170.82ms
step:1091/1530 train_loss:3.2833 train_time:184664ms step_avg:170.83ms
step:1092/1530 train_loss:3.4938 train_time:184841ms step_avg:170.83ms
step:1093/1530 train_loss:3.6022 train_time:185020ms step_avg:170.84ms
step:1094/1530 train_loss:3.4451 train_time:185195ms step_avg:170.84ms
step:1095/1530 train_loss:3.4184 train_time:185369ms step_avg:170.85ms
step:1096/1530 train_loss:3.4275 train_time:185547ms step_avg:170.85ms
step:1097/1530 train_loss:3.4901 train_time:185726ms step_avg:170.86ms
step:1098/1530 train_loss:3.5625 train_time:185903ms step_avg:170.87ms
step:1099/1530 train_loss:3.5278 train_time:186081ms step_avg:170.87ms
step:1100/1530 train_loss:3.4260 train_time:186261ms step_avg:170.88ms
step:1101/1530 train_loss:3.2926 train_time:186440ms step_avg:170.89ms
step:1102/1530 train_loss:3.3098 train_time:186620ms step_avg:170.90ms
step:1103/1530 train_loss:3.4460 train_time:186802ms step_avg:170.91ms
step:1104/1530 train_loss:3.3276 train_time:186978ms step_avg:170.91ms
step:1105/1530 train_loss:4.0652 train_time:187156ms step_avg:170.92ms
step:1106/1530 train_loss:3.2240 train_time:187332ms step_avg:170.92ms
step:1107/1530 train_loss:3.5697 train_time:187506ms step_avg:170.93ms
step:1108/1530 train_loss:3.3459 train_time:187680ms step_avg:170.93ms
step:1109/1530 train_loss:3.5005 train_time:187856ms step_avg:170.93ms
step:1110/1530 train_loss:3.4231 train_time:188030ms step_avg:170.94ms
step:1111/1530 train_loss:3.4846 train_time:188205ms step_avg:170.94ms
step:1112/1530 train_loss:3.5586 train_time:188383ms step_avg:170.95ms
step:1113/1530 train_loss:3.4304 train_time:188567ms step_avg:170.96ms
step:1114/1530 train_loss:3.3666 train_time:188745ms step_avg:170.97ms
step:1115/1530 train_loss:3.2418 train_time:188925ms step_avg:170.97ms
step:1116/1530 train_loss:3.4251 train_time:189098ms step_avg:170.97ms
step:1117/1530 train_loss:3.5899 train_time:189277ms step_avg:170.98ms
step:1118/1530 train_loss:3.6235 train_time:189455ms step_avg:170.99ms
step:1119/1530 train_loss:3.4807 train_time:189629ms step_avg:170.99ms
step:1120/1530 train_loss:3.4903 train_time:189806ms step_avg:171.00ms
step:1121/1530 train_loss:3.3904 train_time:189983ms step_avg:171.00ms
step:1122/1530 train_loss:3.4589 train_time:190159ms step_avg:171.01ms
step:1123/1530 train_loss:3.5774 train_time:190338ms step_avg:171.01ms
step:1124/1530 train_loss:3.3410 train_time:190512ms step_avg:171.02ms
step:1125/1530 train_loss:3.2157 train_time:190688ms step_avg:171.02ms
step:1125/1530 val_loss:3.4084 train_time:190738ms step_avg:171.07ms
step:1126/1530 train_loss:3.4742 train_time:190864ms step_avg:171.03ms
step:1127/1530 train_loss:3.6721 train_time:191043ms step_avg:171.03ms
step:1128/1530 train_loss:3.2352 train_time:191222ms step_avg:171.04ms
step:1129/1530 train_loss:3.5561 train_time:191402ms step_avg:171.05ms
step:1130/1530 train_loss:3.3774 train_time:191581ms step_avg:171.05ms
step:1131/1530 train_loss:3.4014 train_time:191764ms step_avg:171.07ms
step:1132/1530 train_loss:3.3661 train_time:191939ms step_avg:171.07ms
step:1133/1530 train_loss:3.4913 train_time:192251ms step_avg:171.19ms
step:1134/1530 train_loss:3.4455 train_time:192438ms step_avg:171.21ms
step:1135/1530 train_loss:3.5211 train_time:192615ms step_avg:171.21ms
step:1136/1530 train_loss:3.5617 train_time:192793ms step_avg:171.22ms
step:1137/1530 train_loss:3.4535 train_time:192970ms step_avg:171.22ms
step:1138/1530 train_loss:3.3547 train_time:193151ms step_avg:171.23ms
step:1139/1530 train_loss:3.6529 train_time:193476ms step_avg:171.37ms
step:1140/1530 train_loss:3.4575 train_time:193654ms step_avg:171.38ms
step:1141/1530 train_loss:3.5951 train_time:193835ms step_avg:171.38ms
step:1142/1530 train_loss:3.4444 train_time:194012ms step_avg:171.39ms
step:1143/1530 train_loss:3.3602 train_time:194193ms step_avg:171.40ms
step:1144/1530 train_loss:3.4418 train_time:194369ms step_avg:171.40ms
step:1145/1530 train_loss:3.5872 train_time:194543ms step_avg:171.40ms
step:1146/1530 train_loss:3.5565 train_time:194726ms step_avg:171.41ms
step:1147/1530 train_loss:3.4938 train_time:194905ms step_avg:171.42ms
step:1148/1530 train_loss:3.4958 train_time:195083ms step_avg:171.43ms
step:1149/1530 train_loss:3.3239 train_time:195264ms step_avg:171.43ms
step:1150/1530 train_loss:3.3724 train_time:195439ms step_avg:171.44ms
step:1151/1530 train_loss:3.3207 train_time:195619ms step_avg:171.45ms
step:1152/1530 train_loss:3.3912 train_time:195801ms step_avg:171.45ms
step:1153/1530 train_loss:3.4290 train_time:195981ms step_avg:171.46ms
step:1154/1530 train_loss:3.5178 train_time:196157ms step_avg:171.47ms
step:1155/1530 train_loss:3.3189 train_time:196339ms step_avg:171.48ms
step:1156/1530 train_loss:3.5391 train_time:196522ms step_avg:171.49ms
step:1157/1530 train_loss:3.4944 train_time:196700ms step_avg:171.49ms
step:1158/1530 train_loss:3.2474 train_time:196876ms step_avg:171.50ms
step:1159/1530 train_loss:3.3447 train_time:197052ms step_avg:171.50ms
step:1160/1530 train_loss:3.3356 train_time:197225ms step_avg:171.50ms
step:1161/1530 train_loss:3.0922 train_time:197405ms step_avg:171.51ms
step:1162/1530 train_loss:3.4263 train_time:197581ms step_avg:171.51ms
step:1163/1530 train_loss:3.3922 train_time:197760ms step_avg:171.52ms
step:1164/1530 train_loss:3.2929 train_time:197938ms step_avg:171.52ms
step:1165/1530 train_loss:3.2473 train_time:198113ms step_avg:171.53ms
step:1166/1530 train_loss:3.3886 train_time:198293ms step_avg:171.53ms
step:1167/1530 train_loss:3.4122 train_time:198468ms step_avg:171.54ms
step:1168/1530 train_loss:3.7248 train_time:198643ms step_avg:171.54ms
step:1169/1530 train_loss:3.3733 train_time:198820ms step_avg:171.54ms
step:1170/1530 train_loss:3.3882 train_time:198998ms step_avg:171.55ms
step:1171/1530 train_loss:3.3167 train_time:199174ms step_avg:171.55ms
step:1172/1530 train_loss:3.4232 train_time:199348ms step_avg:171.56ms
step:1173/1530 train_loss:3.5399 train_time:199529ms step_avg:171.56ms
step:1174/1530 train_loss:3.3810 train_time:199714ms step_avg:171.58ms
step:1175/1530 train_loss:3.3618 train_time:199894ms step_avg:171.58ms
step:1176/1530 train_loss:3.4252 train_time:200075ms step_avg:171.59ms
step:1177/1530 train_loss:3.4498 train_time:200256ms step_avg:171.60ms
step:1178/1530 train_loss:3.5001 train_time:200435ms step_avg:171.61ms
step:1179/1530 train_loss:3.4053 train_time:200610ms step_avg:171.61ms
step:1180/1530 train_loss:3.3542 train_time:200798ms step_avg:171.62ms
step:1181/1530 train_loss:3.3376 train_time:200976ms step_avg:171.63ms
step:1182/1530 train_loss:3.3710 train_time:201151ms step_avg:171.63ms
step:1183/1530 train_loss:3.3301 train_time:201329ms step_avg:171.64ms
step:1184/1530 train_loss:3.5137 train_time:201505ms step_avg:171.64ms
step:1185/1530 train_loss:3.5359 train_time:201686ms step_avg:171.65ms
step:1186/1530 train_loss:3.3644 train_time:201864ms step_avg:171.65ms
step:1187/1530 train_loss:3.4152 train_time:202047ms step_avg:171.66ms
step:1188/1530 train_loss:3.4416 train_time:202223ms step_avg:171.67ms
step:1189/1530 train_loss:3.2762 train_time:202403ms step_avg:171.67ms
step:1190/1530 train_loss:3.4426 train_time:202581ms step_avg:171.68ms
step:1191/1530 train_loss:3.5858 train_time:202761ms step_avg:171.69ms
step:1192/1530 train_loss:3.3924 train_time:202938ms step_avg:171.69ms
step:1193/1530 train_loss:3.2729 train_time:203114ms step_avg:171.69ms
step:1194/1530 train_loss:3.5514 train_time:203290ms step_avg:171.70ms
step:1195/1530 train_loss:3.3716 train_time:203470ms step_avg:171.71ms
step:1196/1530 train_loss:3.3854 train_time:203659ms step_avg:171.72ms
step:1197/1530 train_loss:3.2965 train_time:203839ms step_avg:171.73ms
step:1198/1530 train_loss:3.3017 train_time:204023ms step_avg:171.74ms
step:1199/1530 train_loss:3.3401 train_time:204204ms step_avg:171.74ms
step:1200/1530 train_loss:3.4463 train_time:204381ms step_avg:171.75ms
step:1201/1530 train_loss:3.4785 train_time:204560ms step_avg:171.75ms
step:1202/1530 train_loss:3.5857 train_time:204749ms step_avg:171.77ms
step:1203/1530 train_loss:3.4081 train_time:204928ms step_avg:171.78ms
step:1204/1530 train_loss:3.3044 train_time:205106ms step_avg:171.78ms
step:1205/1530 train_loss:3.4365 train_time:205282ms step_avg:171.78ms
step:1206/1530 train_loss:3.4713 train_time:205460ms step_avg:171.79ms
step:1207/1530 train_loss:3.5195 train_time:205639ms step_avg:171.80ms
step:1208/1530 train_loss:3.3962 train_time:205815ms step_avg:171.80ms
step:1209/1530 train_loss:3.2409 train_time:205992ms step_avg:171.80ms
step:1210/1530 train_loss:3.3064 train_time:206174ms step_avg:171.81ms
step:1211/1530 train_loss:3.3979 train_time:206352ms step_avg:171.82ms
step:1212/1530 train_loss:3.3946 train_time:206531ms step_avg:171.82ms
step:1213/1530 train_loss:3.4091 train_time:206711ms step_avg:171.83ms
step:1214/1530 train_loss:3.2526 train_time:206891ms step_avg:171.84ms
step:1215/1530 train_loss:3.3954 train_time:207065ms step_avg:171.84ms
step:1216/1530 train_loss:3.3353 train_time:207243ms step_avg:171.84ms
step:1217/1530 train_loss:3.3220 train_time:207420ms step_avg:171.85ms
step:1218/1530 train_loss:3.4060 train_time:207599ms step_avg:171.85ms
step:1219/1530 train_loss:3.2507 train_time:207783ms step_avg:171.86ms
step:1220/1530 train_loss:3.4763 train_time:207959ms step_avg:171.87ms
step:1221/1530 train_loss:3.5053 train_time:208136ms step_avg:171.87ms
step:1222/1530 train_loss:3.4289 train_time:208310ms step_avg:171.87ms
step:1223/1530 train_loss:3.2953 train_time:208487ms step_avg:171.88ms
step:1224/1530 train_loss:3.2587 train_time:208669ms step_avg:171.89ms
step:1225/1530 train_loss:3.3698 train_time:208846ms step_avg:171.89ms
step:1226/1530 train_loss:3.3376 train_time:209026ms step_avg:171.90ms
step:1227/1530 train_loss:3.2782 train_time:209205ms step_avg:171.90ms
step:1228/1530 train_loss:3.4448 train_time:209380ms step_avg:171.91ms
step:1229/1530 train_loss:3.3674 train_time:209561ms step_avg:171.91ms
step:1230/1530 train_loss:3.3984 train_time:209745ms step_avg:171.92ms
step:1231/1530 train_loss:3.5795 train_time:209926ms step_avg:171.93ms
step:1232/1530 train_loss:3.4955 train_time:210106ms step_avg:171.94ms
step:1233/1530 train_loss:3.4294 train_time:210283ms step_avg:171.94ms
step:1234/1530 train_loss:3.5863 train_time:210461ms step_avg:171.95ms
step:1235/1530 train_loss:3.3263 train_time:210643ms step_avg:171.95ms
step:1236/1530 train_loss:3.2928 train_time:210820ms step_avg:171.96ms
step:1237/1530 train_loss:3.2720 train_time:210998ms step_avg:171.96ms
step:1238/1530 train_loss:3.2774 train_time:211181ms step_avg:171.97ms
step:1239/1530 train_loss:3.3349 train_time:211360ms step_avg:171.98ms
step:1240/1530 train_loss:3.3815 train_time:211538ms step_avg:171.98ms
step:1241/1530 train_loss:3.4229 train_time:211718ms step_avg:171.99ms
step:1242/1530 train_loss:3.2973 train_time:211895ms step_avg:171.99ms
step:1243/1530 train_loss:3.4016 train_time:212074ms step_avg:172.00ms
step:1244/1530 train_loss:3.4039 train_time:212246ms step_avg:172.00ms
step:1245/1530 train_loss:3.4098 train_time:212424ms step_avg:172.00ms
step:1246/1530 train_loss:3.2430 train_time:212603ms step_avg:172.01ms
step:1247/1530 train_loss:3.3771 train_time:212779ms step_avg:172.01ms
step:1248/1530 train_loss:3.4281 train_time:212956ms step_avg:172.02ms
step:1249/1530 train_loss:3.4239 train_time:213137ms step_avg:172.02ms
step:1250/1530 train_loss:3.3046 train_time:213315ms step_avg:172.03ms
step:1250/1530 val_loss:3.3553 train_time:213369ms step_avg:172.07ms
step:1251/1530 train_loss:3.4902 train_time:213500ms step_avg:172.04ms
step:1252/1530 train_loss:3.3595 train_time:213675ms step_avg:172.04ms
step:1253/1530 train_loss:3.3108 train_time:213853ms step_avg:172.05ms
step:1254/1530 train_loss:3.4112 train_time:214034ms step_avg:172.05ms
step:1255/1530 train_loss:3.5179 train_time:214222ms step_avg:172.07ms
step:1256/1530 train_loss:3.3050 train_time:214404ms step_avg:172.07ms
step:1257/1530 train_loss:3.3790 train_time:214581ms step_avg:172.08ms
step:1258/1530 train_loss:3.3645 train_time:214763ms step_avg:172.09ms
step:1259/1530 train_loss:3.3269 train_time:214941ms step_avg:172.09ms
step:1260/1530 train_loss:3.2060 train_time:215118ms step_avg:172.09ms
step:1261/1530 train_loss:3.3034 train_time:215298ms step_avg:172.10ms
step:1262/1530 train_loss:3.3260 train_time:215481ms step_avg:172.11ms
step:1263/1530 train_loss:3.2412 train_time:215662ms step_avg:172.12ms
step:1264/1530 train_loss:3.4449 train_time:215838ms step_avg:172.12ms
step:1265/1530 train_loss:3.4257 train_time:216015ms step_avg:172.12ms
step:1266/1530 train_loss:3.4401 train_time:216193ms step_avg:172.13ms
step:1267/1530 train_loss:3.3700 train_time:216373ms step_avg:172.13ms
step:1268/1530 train_loss:3.4076 train_time:216555ms step_avg:172.14ms
step:1269/1530 train_loss:3.2557 train_time:216742ms step_avg:172.15ms
step:1270/1530 train_loss:3.1038 train_time:216919ms step_avg:172.16ms
step:1271/1530 train_loss:3.4078 train_time:217097ms step_avg:172.16ms
step:1272/1530 train_loss:3.3553 train_time:217273ms step_avg:172.17ms
step:1273/1530 train_loss:3.3795 train_time:217455ms step_avg:172.17ms
step:1274/1530 train_loss:3.3612 train_time:217635ms step_avg:172.18ms
step:1275/1530 train_loss:3.4362 train_time:217813ms step_avg:172.18ms
step:1276/1530 train_loss:3.4681 train_time:217987ms step_avg:172.19ms
step:1277/1530 train_loss:3.4101 train_time:218167ms step_avg:172.19ms
step:1278/1530 train_loss:3.4091 train_time:218341ms step_avg:172.19ms
step:1279/1530 train_loss:3.2635 train_time:218524ms step_avg:172.20ms
step:1280/1530 train_loss:3.3658 train_time:218707ms step_avg:172.21ms
step:1281/1530 train_loss:3.4262 train_time:218884ms step_avg:172.21ms
step:1282/1530 train_loss:3.4694 train_time:219058ms step_avg:172.22ms
step:1283/1530 train_loss:3.3354 train_time:219238ms step_avg:172.22ms
step:1284/1530 train_loss:3.3692 train_time:219416ms step_avg:172.23ms
step:1285/1530 train_loss:3.3619 train_time:219595ms step_avg:172.23ms
step:1286/1530 train_loss:3.3331 train_time:219773ms step_avg:172.24ms
step:1287/1530 train_loss:3.4882 train_time:219952ms step_avg:172.24ms
step:1288/1530 train_loss:3.2967 train_time:220133ms step_avg:172.25ms
step:1289/1530 train_loss:3.3803 train_time:220317ms step_avg:172.26ms
step:1290/1530 train_loss:3.4593 train_time:220502ms step_avg:172.27ms
step:1291/1530 train_loss:3.3835 train_time:220681ms step_avg:172.27ms
step:1292/1530 train_loss:3.4801 train_time:220862ms step_avg:172.28ms
step:1293/1530 train_loss:3.5164 train_time:221044ms step_avg:172.29ms
step:1294/1530 train_loss:3.4650 train_time:221223ms step_avg:172.29ms
step:1295/1530 train_loss:3.2832 train_time:221403ms step_avg:172.30ms
step:1296/1530 train_loss:3.3752 train_time:221584ms step_avg:172.30ms
step:1297/1530 train_loss:3.2771 train_time:221763ms step_avg:172.31ms
step:1298/1530 train_loss:3.2723 train_time:221942ms step_avg:172.32ms
step:1299/1530 train_loss:3.3873 train_time:222120ms step_avg:172.32ms
step:1300/1530 train_loss:3.4055 train_time:222297ms step_avg:172.32ms
step:1301/1530 train_loss:3.4020 train_time:222473ms step_avg:172.33ms
step:1302/1530 train_loss:3.5733 train_time:222656ms step_avg:172.33ms
step:1303/1530 train_loss:3.3059 train_time:222839ms step_avg:172.34ms
step:1304/1530 train_loss:3.5116 train_time:223019ms step_avg:172.35ms
step:1305/1530 train_loss:3.2604 train_time:223195ms step_avg:172.35ms
step:1306/1530 train_loss:3.4551 train_time:223376ms step_avg:172.36ms
step:1307/1530 train_loss:3.4514 train_time:223551ms step_avg:172.36ms
step:1308/1530 train_loss:3.2902 train_time:223731ms step_avg:172.37ms
step:1309/1530 train_loss:3.3114 train_time:223911ms step_avg:172.37ms
step:1310/1530 train_loss:3.2887 train_time:224089ms step_avg:172.38ms
step:1311/1530 train_loss:3.2981 train_time:224266ms step_avg:172.38ms
step:1312/1530 train_loss:3.3743 train_time:224446ms step_avg:172.39ms
step:1313/1530 train_loss:3.3421 train_time:224623ms step_avg:172.39ms
step:1314/1530 train_loss:3.0498 train_time:224805ms step_avg:172.40ms
step:1315/1530 train_loss:3.2798 train_time:224982ms step_avg:172.40ms
step:1316/1530 train_loss:3.3955 train_time:225157ms step_avg:172.40ms
step:1317/1530 train_loss:3.4227 train_time:225335ms step_avg:172.41ms
step:1318/1530 train_loss:3.3046 train_time:225520ms step_avg:172.42ms
step:1319/1530 train_loss:3.4274 train_time:225699ms step_avg:172.42ms
step:1320/1530 train_loss:3.4611 train_time:225880ms step_avg:172.43ms
step:1321/1530 train_loss:3.3652 train_time:226058ms step_avg:172.43ms
step:1322/1530 train_loss:3.3227 train_time:226373ms step_avg:172.54ms
step:1323/1530 train_loss:3.3234 train_time:226562ms step_avg:172.55ms
step:1324/1530 train_loss:3.4321 train_time:226743ms step_avg:172.56ms
step:1325/1530 train_loss:3.4922 train_time:226927ms step_avg:172.57ms
step:1326/1530 train_loss:3.2138 train_time:227109ms step_avg:172.58ms
step:1327/1530 train_loss:3.1615 train_time:227286ms step_avg:172.58ms
step:1328/1530 train_loss:3.4946 train_time:227464ms step_avg:172.58ms
step:1329/1530 train_loss:3.2974 train_time:227812ms step_avg:172.72ms
step:1330/1530 train_loss:3.4317 train_time:227993ms step_avg:172.72ms
step:1331/1530 train_loss:3.3315 train_time:228168ms step_avg:172.72ms
step:1332/1530 train_loss:3.7441 train_time:228348ms step_avg:172.73ms
step:1333/1530 train_loss:3.4816 train_time:228530ms step_avg:172.74ms
step:1334/1530 train_loss:3.3691 train_time:228708ms step_avg:172.74ms
step:1335/1530 train_loss:3.2949 train_time:228885ms step_avg:172.74ms
step:1336/1530 train_loss:3.2963 train_time:229070ms step_avg:172.75ms
step:1337/1530 train_loss:3.5542 train_time:229249ms step_avg:172.76ms
step:1338/1530 train_loss:3.5296 train_time:229429ms step_avg:172.76ms
step:1339/1530 train_loss:3.3384 train_time:229607ms step_avg:172.77ms
step:1340/1530 train_loss:3.2897 train_time:229785ms step_avg:172.77ms
step:1341/1530 train_loss:3.5923 train_time:229962ms step_avg:172.77ms
step:1342/1530 train_loss:3.3588 train_time:230141ms step_avg:172.78ms
step:1343/1530 train_loss:3.3666 train_time:230318ms step_avg:172.78ms
step:1344/1530 train_loss:3.4177 train_time:230497ms step_avg:172.79ms
step:1345/1530 train_loss:3.3830 train_time:230679ms step_avg:172.79ms
step:1346/1530 train_loss:3.3044 train_time:230857ms step_avg:172.80ms
step:1347/1530 train_loss:3.2808 train_time:231035ms step_avg:172.80ms
step:1348/1530 train_loss:3.3462 train_time:231213ms step_avg:172.81ms
step:1349/1530 train_loss:3.2734 train_time:231389ms step_avg:172.81ms
step:1350/1530 train_loss:3.3894 train_time:231569ms step_avg:172.81ms
step:1351/1530 train_loss:3.2475 train_time:231745ms step_avg:172.81ms
step:1352/1530 train_loss:3.3071 train_time:231923ms step_avg:172.82ms
step:1353/1530 train_loss:3.4025 train_time:232102ms step_avg:172.82ms
step:1354/1530 train_loss:3.2574 train_time:232279ms step_avg:172.83ms
step:1355/1530 train_loss:3.1878 train_time:232456ms step_avg:172.83ms
step:1356/1530 train_loss:3.5156 train_time:232637ms step_avg:172.84ms
step:1357/1530 train_loss:3.4244 train_time:232819ms step_avg:172.84ms
step:1358/1530 train_loss:3.1855 train_time:232997ms step_avg:172.85ms
step:1359/1530 train_loss:3.4412 train_time:233177ms step_avg:172.85ms
step:1360/1530 train_loss:3.3539 train_time:233357ms step_avg:172.86ms
step:1361/1530 train_loss:3.1194 train_time:233543ms step_avg:172.87ms
step:1362/1530 train_loss:3.3932 train_time:233724ms step_avg:172.87ms
step:1363/1530 train_loss:3.2853 train_time:233911ms step_avg:172.88ms
step:1364/1530 train_loss:3.3010 train_time:234089ms step_avg:172.89ms
step:1365/1530 train_loss:3.3150 train_time:234266ms step_avg:172.89ms
step:1366/1530 train_loss:3.4255 train_time:234446ms step_avg:172.90ms
step:1367/1530 train_loss:3.3962 train_time:234625ms step_avg:172.90ms
step:1368/1530 train_loss:3.3477 train_time:234804ms step_avg:172.90ms
step:1369/1530 train_loss:3.2801 train_time:234994ms step_avg:172.92ms
step:1370/1530 train_loss:3.6076 train_time:235174ms step_avg:172.92ms
step:1371/1530 train_loss:3.3131 train_time:235357ms step_avg:172.93ms
step:1372/1530 train_loss:3.3707 train_time:235540ms step_avg:172.94ms
step:1373/1530 train_loss:3.3692 train_time:235721ms step_avg:172.94ms
step:1374/1530 train_loss:3.1524 train_time:235900ms step_avg:172.95ms
step:1375/1530 train_loss:3.5372 train_time:236079ms step_avg:172.95ms
step:1375/1530 val_loss:3.3131 train_time:236130ms step_avg:172.99ms
step:1376/1530 train_loss:3.3448 train_time:236258ms step_avg:172.96ms
step:1377/1530 train_loss:3.4830 train_time:236436ms step_avg:172.96ms
step:1378/1530 train_loss:3.4673 train_time:236613ms step_avg:172.96ms
step:1379/1530 train_loss:3.1092 train_time:236793ms step_avg:172.97ms
step:1380/1530 train_loss:3.3162 train_time:236972ms step_avg:172.97ms
step:1381/1530 train_loss:3.6985 train_time:237157ms step_avg:172.98ms
step:1382/1530 train_loss:3.2139 train_time:237335ms step_avg:172.99ms
step:1383/1530 train_loss:3.3951 train_time:237517ms step_avg:172.99ms
step:1384/1530 train_loss:3.4750 train_time:237699ms step_avg:173.00ms
step:1385/1530 train_loss:3.4120 train_time:237874ms step_avg:173.00ms
step:1386/1530 train_loss:3.3434 train_time:238053ms step_avg:173.00ms
step:1387/1530 train_loss:3.2020 train_time:238231ms step_avg:173.01ms
step:1388/1530 train_loss:3.3501 train_time:238410ms step_avg:173.01ms
step:1389/1530 train_loss:3.3216 train_time:238592ms step_avg:173.02ms
step:1390/1530 train_loss:3.5703 train_time:238769ms step_avg:173.02ms
step:1391/1530 train_loss:3.2920 train_time:238948ms step_avg:173.03ms
step:1392/1530 train_loss:3.2925 train_time:239128ms step_avg:173.03ms
step:1393/1530 train_loss:3.2371 train_time:239307ms step_avg:173.04ms
step:1394/1530 train_loss:3.4984 train_time:239484ms step_avg:173.04ms
step:1395/1530 train_loss:3.3926 train_time:239663ms step_avg:173.04ms
step:1396/1530 train_loss:3.4054 train_time:239838ms step_avg:173.04ms
step:1397/1530 train_loss:3.3102 train_time:240014ms step_avg:173.05ms
step:1398/1530 train_loss:3.2574 train_time:240190ms step_avg:173.05ms
step:1399/1530 train_loss:3.3212 train_time:240369ms step_avg:173.05ms
step:1400/1530 train_loss:3.3215 train_time:240551ms step_avg:173.06ms
step:1401/1530 train_loss:3.3512 train_time:240728ms step_avg:173.06ms
step:1402/1530 train_loss:3.3012 train_time:240908ms step_avg:173.07ms
step:1403/1530 train_loss:3.4989 train_time:241092ms step_avg:173.07ms
step:1404/1530 train_loss:3.2782 train_time:241269ms step_avg:173.08ms
step:1405/1530 train_loss:3.3151 train_time:241451ms step_avg:173.08ms
step:1406/1530 train_loss:3.3150 train_time:241631ms step_avg:173.09ms
step:1407/1530 train_loss:3.1745 train_time:241807ms step_avg:173.09ms
step:1408/1530 train_loss:3.3140 train_time:241987ms step_avg:173.10ms
step:1409/1530 train_loss:3.2971 train_time:242174ms step_avg:173.10ms
step:1410/1530 train_loss:3.2904 train_time:242351ms step_avg:173.11ms
step:1411/1530 train_loss:3.3674 train_time:242527ms step_avg:173.11ms
step:1412/1530 train_loss:3.3324 train_time:242705ms step_avg:173.11ms
step:1413/1530 train_loss:3.3603 train_time:242883ms step_avg:173.12ms
step:1414/1530 train_loss:3.3293 train_time:243063ms step_avg:173.12ms
step:1415/1530 train_loss:3.4118 train_time:243248ms step_avg:173.13ms
step:1416/1530 train_loss:3.2313 train_time:243435ms step_avg:173.14ms
step:1417/1530 train_loss:3.2812 train_time:243618ms step_avg:173.15ms
step:1418/1530 train_loss:3.3928 train_time:243798ms step_avg:173.15ms
step:1419/1530 train_loss:3.3441 train_time:243979ms step_avg:173.16ms
step:1420/1530 train_loss:3.3645 train_time:244162ms step_avg:173.16ms
step:1421/1530 train_loss:3.3746 train_time:244341ms step_avg:173.17ms
step:1422/1530 train_loss:3.3340 train_time:244519ms step_avg:173.17ms
step:1423/1530 train_loss:3.3168 train_time:244698ms step_avg:173.18ms
step:1424/1530 train_loss:3.3347 train_time:244882ms step_avg:173.18ms
step:1425/1530 train_loss:3.1898 train_time:245068ms step_avg:173.19ms
step:1426/1530 train_loss:3.3243 train_time:245247ms step_avg:173.20ms
step:1427/1530 train_loss:3.2819 train_time:245430ms step_avg:173.20ms
step:1428/1530 train_loss:3.3812 train_time:245608ms step_avg:173.21ms
step:1429/1530 train_loss:3.3528 train_time:245786ms step_avg:173.21ms
step:1430/1530 train_loss:3.2637 train_time:245968ms step_avg:173.22ms
step:1431/1530 train_loss:3.3222 train_time:246149ms step_avg:173.22ms
step:1432/1530 train_loss:3.3420 train_time:246331ms step_avg:173.23ms
step:1433/1530 train_loss:3.1276 train_time:246516ms step_avg:173.24ms
step:1434/1530 train_loss:3.2889 train_time:246700ms step_avg:173.24ms
step:1435/1530 train_loss:3.1166 train_time:246880ms step_avg:173.25ms
step:1436/1530 train_loss:3.2294 train_time:247060ms step_avg:173.25ms
step:1437/1530 train_loss:3.4101 train_time:247237ms step_avg:173.26ms
step:1438/1530 train_loss:3.3850 train_time:247415ms step_avg:173.26ms
step:1439/1530 train_loss:3.3136 train_time:247595ms step_avg:173.26ms
step:1440/1530 train_loss:3.1942 train_time:247771ms step_avg:173.27ms
step:1441/1530 train_loss:3.3367 train_time:247950ms step_avg:173.27ms
step:1442/1530 train_loss:3.3903 train_time:248133ms step_avg:173.28ms
step:1443/1530 train_loss:3.4918 train_time:248320ms step_avg:173.29ms
step:1444/1530 train_loss:3.4469 train_time:248497ms step_avg:173.29ms
step:1445/1530 train_loss:3.3372 train_time:248674ms step_avg:173.29ms
step:1446/1530 train_loss:3.1978 train_time:248854ms step_avg:173.30ms
step:1447/1530 train_loss:3.2961 train_time:249036ms step_avg:173.30ms
step:1448/1530 train_loss:3.2942 train_time:249215ms step_avg:173.31ms
step:1449/1530 train_loss:3.3918 train_time:249393ms step_avg:173.31ms
step:1450/1530 train_loss:3.3859 train_time:249572ms step_avg:173.31ms
step:1451/1530 train_loss:3.2094 train_time:249751ms step_avg:173.32ms
step:1452/1530 train_loss:3.3250 train_time:249930ms step_avg:173.32ms
step:1453/1530 train_loss:3.2603 train_time:250105ms step_avg:173.32ms
step:1454/1530 train_loss:3.2886 train_time:250282ms step_avg:173.33ms
step:1455/1530 train_loss:3.3273 train_time:250467ms step_avg:173.33ms
step:1456/1530 train_loss:3.2817 train_time:250644ms step_avg:173.34ms
step:1457/1530 train_loss:3.1545 train_time:250823ms step_avg:173.34ms
step:1458/1530 train_loss:3.4195 train_time:251000ms step_avg:173.34ms
step:1459/1530 train_loss:3.2716 train_time:251182ms step_avg:173.35ms
step:1460/1530 train_loss:3.3181 train_time:251361ms step_avg:173.35ms
step:1461/1530 train_loss:3.4308 train_time:251541ms step_avg:173.36ms
step:1462/1530 train_loss:3.2664 train_time:251718ms step_avg:173.36ms
step:1463/1530 train_loss:3.4664 train_time:251900ms step_avg:173.37ms
step:1464/1530 train_loss:3.3611 train_time:252077ms step_avg:173.37ms
step:1465/1530 train_loss:3.3593 train_time:252257ms step_avg:173.37ms
step:1466/1530 train_loss:3.2862 train_time:252433ms step_avg:173.37ms
step:1467/1530 train_loss:3.3902 train_time:252614ms step_avg:173.38ms
step:1468/1530 train_loss:3.2896 train_time:252790ms step_avg:173.38ms
step:1469/1530 train_loss:3.2766 train_time:252969ms step_avg:173.39ms
step:1470/1530 train_loss:3.3303 train_time:253151ms step_avg:173.39ms
step:1471/1530 train_loss:3.2576 train_time:253337ms step_avg:173.40ms
step:1472/1530 train_loss:3.2457 train_time:253524ms step_avg:173.41ms
step:1473/1530 train_loss:3.4383 train_time:253701ms step_avg:173.41ms
step:1474/1530 train_loss:3.3154 train_time:253885ms step_avg:173.42ms
step:1475/1530 train_loss:3.1544 train_time:254069ms step_avg:173.43ms
step:1476/1530 train_loss:3.2673 train_time:254248ms step_avg:173.43ms
step:1477/1530 train_loss:3.2382 train_time:254433ms step_avg:173.44ms
step:1478/1530 train_loss:3.3108 train_time:254617ms step_avg:173.45ms
step:1479/1530 train_loss:3.4011 train_time:254801ms step_avg:173.45ms
step:1480/1530 train_loss:3.2664 train_time:254980ms step_avg:173.46ms
step:1481/1530 train_loss:3.4497 train_time:255161ms step_avg:173.46ms
step:1482/1530 train_loss:3.3669 train_time:255347ms step_avg:173.47ms
step:1483/1530 train_loss:3.2812 train_time:255537ms step_avg:173.48ms
step:1484/1530 train_loss:3.2622 train_time:255725ms step_avg:173.49ms
step:1485/1530 train_loss:3.2811 train_time:255906ms step_avg:173.50ms
step:1486/1530 train_loss:3.2288 train_time:256090ms step_avg:173.50ms
step:1487/1530 train_loss:3.3426 train_time:256271ms step_avg:173.51ms
step:1488/1530 train_loss:3.2453 train_time:256455ms step_avg:173.51ms
step:1489/1530 train_loss:3.3148 train_time:256635ms step_avg:173.52ms
step:1490/1530 train_loss:3.2474 train_time:256816ms step_avg:173.52ms
step:1491/1530 train_loss:3.1632 train_time:256995ms step_avg:173.53ms
step:1492/1530 train_loss:3.2644 train_time:257176ms step_avg:173.53ms
step:1493/1530 train_loss:3.4308 train_time:257353ms step_avg:173.54ms
step:1494/1530 train_loss:3.2994 train_time:257533ms step_avg:173.54ms
step:1495/1530 train_loss:3.0323 train_time:257718ms step_avg:173.55ms
step:1496/1530 train_loss:3.3624 train_time:257900ms step_avg:173.55ms
step:1497/1530 train_loss:3.3125 train_time:258085ms step_avg:173.56ms
step:1498/1530 train_loss:3.3465 train_time:258268ms step_avg:173.57ms
step:1499/1530 train_loss:3.3136 train_time:258458ms step_avg:173.58ms
step:1500/1530 train_loss:3.3015 train_time:258652ms step_avg:173.59ms
step:1500/1530 val_loss:3.2806 train_time:258707ms step_avg:173.63ms
step:1501/1530 train_loss:3.0919 train_time:258841ms step_avg:173.60ms
step:1502/1530 train_loss:3.3602 train_time:259037ms step_avg:173.62ms
step:1503/1530 train_loss:3.2453 train_time:259216ms step_avg:173.62ms
step:1504/1530 train_loss:3.2495 train_time:259398ms step_avg:173.63ms
step:1505/1530 train_loss:3.2120 train_time:259579ms step_avg:173.63ms
step:1506/1530 train_loss:3.2844 train_time:259760ms step_avg:173.64ms
step:1507/1530 train_loss:3.1760 train_time:259954ms step_avg:173.65ms
step:1508/1530 train_loss:3.4833 train_time:260137ms step_avg:173.66ms
step:1509/1530 train_loss:3.2835 train_time:260314ms step_avg:173.66ms
step:1510/1530 train_loss:3.2734 train_time:260495ms step_avg:173.66ms
step:1511/1530 train_loss:3.4157 train_time:260809ms step_avg:173.76ms
step:1512/1530 train_loss:3.4195 train_time:260999ms step_avg:173.77ms
step:1513/1530 train_loss:3.2703 train_time:261184ms step_avg:173.78ms
step:1514/1530 train_loss:3.0916 train_time:261367ms step_avg:173.78ms
step:1515/1530 train_loss:3.2406 train_time:261548ms step_avg:173.79ms
step:1516/1530 train_loss:3.2566 train_time:261734ms step_avg:173.79ms
step:1517/1530 train_loss:3.3034 train_time:261916ms step_avg:173.80ms
step:1518/1530 train_loss:3.2110 train_time:262100ms step_avg:173.81ms
step:1519/1530 train_loss:3.5080 train_time:262433ms step_avg:173.91ms
step:1520/1530 train_loss:3.1314 train_time:262617ms step_avg:173.92ms
step:1521/1530 train_loss:3.2063 train_time:262795ms step_avg:173.92ms
step:1522/1530 train_loss:3.3539 train_time:262980ms step_avg:173.93ms
step:1523/1530 train_loss:3.2347 train_time:263157ms step_avg:173.93ms
step:1524/1530 train_loss:3.3534 train_time:263337ms step_avg:173.93ms
step:1525/1530 train_loss:3.3346 train_time:263523ms step_avg:173.94ms
step:1526/1530 train_loss:3.2740 train_time:263716ms step_avg:173.95ms
step:1527/1530 train_loss:3.2941 train_time:263897ms step_avg:173.96ms
step:1528/1530 train_loss:3.4096 train_time:264076ms step_avg:173.96ms
step:1529/1530 train_loss:3.4054 train_time:264254ms step_avg:173.97ms
step:1530/1530 train_loss:3.2370 train_time:264433ms step_avg:173.97ms
step:1530/1530 val_loss:3.2781 train_time:264488ms step_avg:174.00ms