records/120424_ValueEmbed/74cba1d4-da56-4334-9622-e0aa960dfe3f.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 01:22:55 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   39C    P0              76W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   31C    P0             115W / 700W |    115MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   32C    P0              91W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   39C    P0             119W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   40C    P0             124W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   30C    P0             110W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   39C    P0             115W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   31C    P0             119W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31693ms step_avg:nanms
step:2/1530 train_loss:10.0716 train_time:31805ms step_avg:nanms
step:3/1530 train_loss:8.3640 train_time:31962ms step_avg:nanms
step:4/1530 train_loss:7.6072 train_time:32123ms step_avg:nanms
step:5/1530 train_loss:7.4646 train_time:32283ms step_avg:nanms
step:6/1530 train_loss:6.9752 train_time:32444ms step_avg:nanms
step:7/1530 train_loss:7.2159 train_time:32604ms step_avg:nanms
step:8/1530 train_loss:6.7513 train_time:32764ms step_avg:nanms
step:9/1530 train_loss:6.6330 train_time:32924ms step_avg:nanms
step:10/1530 train_loss:6.5159 train_time:33083ms step_avg:nanms
step:11/1530 train_loss:6.4850 train_time:114ms step_avg:nanms
step:12/1530 train_loss:6.3626 train_time:273ms step_avg:nanms
step:13/1530 train_loss:6.2707 train_time:432ms step_avg:144.12ms
step:14/1530 train_loss:6.2085 train_time:592ms step_avg:148.09ms
step:15/1530 train_loss:6.1819 train_time:752ms step_avg:150.47ms
step:16/1530 train_loss:6.1151 train_time:912ms step_avg:152.01ms
step:17/1530 train_loss:6.1863 train_time:1071ms step_avg:153.04ms
step:18/1530 train_loss:5.9722 train_time:1232ms step_avg:153.96ms
step:19/1530 train_loss:6.0243 train_time:1392ms step_avg:154.63ms
step:20/1530 train_loss:5.6759 train_time:1552ms step_avg:155.17ms
step:21/1530 train_loss:5.9576 train_time:1712ms step_avg:155.60ms
step:22/1530 train_loss:6.1905 train_time:1871ms step_avg:155.94ms
step:23/1530 train_loss:5.8890 train_time:2031ms step_avg:156.23ms
step:24/1530 train_loss:6.0436 train_time:2191ms step_avg:156.50ms
step:25/1530 train_loss:5.6864 train_time:2351ms step_avg:156.72ms
step:26/1530 train_loss:5.6168 train_time:2511ms step_avg:156.94ms
step:27/1530 train_loss:5.8335 train_time:2671ms step_avg:157.10ms
step:28/1530 train_loss:5.4210 train_time:2831ms step_avg:157.27ms
step:29/1530 train_loss:5.6753 train_time:2991ms step_avg:157.41ms
step:30/1530 train_loss:5.4833 train_time:3150ms step_avg:157.52ms
step:31/1530 train_loss:5.4632 train_time:3311ms step_avg:157.66ms
step:32/1530 train_loss:5.2912 train_time:3471ms step_avg:157.77ms
step:33/1530 train_loss:5.5987 train_time:3631ms step_avg:157.88ms
step:34/1530 train_loss:5.5084 train_time:3791ms step_avg:157.95ms
step:35/1530 train_loss:5.6359 train_time:3950ms step_avg:158.01ms
step:36/1530 train_loss:5.5582 train_time:4111ms step_avg:158.11ms
step:37/1530 train_loss:5.4651 train_time:4271ms step_avg:158.19ms
step:38/1530 train_loss:5.3144 train_time:4431ms step_avg:158.25ms
step:39/1530 train_loss:5.3393 train_time:4591ms step_avg:158.32ms
step:40/1530 train_loss:5.2474 train_time:4751ms step_avg:158.37ms
step:41/1530 train_loss:5.2377 train_time:4911ms step_avg:158.42ms
step:42/1530 train_loss:5.1697 train_time:5071ms step_avg:158.46ms
step:43/1530 train_loss:5.2533 train_time:5231ms step_avg:158.51ms
step:44/1530 train_loss:5.2163 train_time:5391ms step_avg:158.57ms
step:45/1530 train_loss:5.3696 train_time:5551ms step_avg:158.60ms
step:46/1530 train_loss:5.1700 train_time:5711ms step_avg:158.65ms
step:47/1530 train_loss:5.0684 train_time:5872ms step_avg:158.70ms
step:48/1530 train_loss:5.2080 train_time:6032ms step_avg:158.72ms
step:49/1530 train_loss:5.1580 train_time:6191ms step_avg:158.74ms
step:50/1530 train_loss:5.2668 train_time:6351ms step_avg:158.77ms
step:51/1530 train_loss:5.1550 train_time:6512ms step_avg:158.82ms
step:52/1530 train_loss:5.0508 train_time:6671ms step_avg:158.83ms
step:53/1530 train_loss:5.2036 train_time:6831ms step_avg:158.87ms
step:54/1530 train_loss:5.0361 train_time:6992ms step_avg:158.91ms
step:55/1530 train_loss:5.4162 train_time:7151ms step_avg:158.91ms
step:56/1530 train_loss:5.0331 train_time:7312ms step_avg:158.95ms
step:57/1530 train_loss:4.9016 train_time:7472ms step_avg:158.97ms
step:58/1530 train_loss:5.0534 train_time:7631ms step_avg:158.99ms
step:59/1530 train_loss:5.0364 train_time:7791ms step_avg:159.00ms
step:60/1530 train_loss:5.1545 train_time:7951ms step_avg:159.02ms
step:61/1530 train_loss:4.8509 train_time:8111ms step_avg:159.05ms
step:62/1530 train_loss:4.9762 train_time:8271ms step_avg:159.07ms
step:63/1530 train_loss:4.9827 train_time:8432ms step_avg:159.10ms
step:64/1530 train_loss:4.9842 train_time:8592ms step_avg:159.12ms
step:65/1530 train_loss:4.8165 train_time:8752ms step_avg:159.13ms
step:66/1530 train_loss:4.9254 train_time:8912ms step_avg:159.14ms
step:67/1530 train_loss:4.8172 train_time:9072ms step_avg:159.16ms
step:68/1530 train_loss:5.0865 train_time:9233ms step_avg:159.18ms
step:69/1530 train_loss:4.7258 train_time:9393ms step_avg:159.20ms
step:70/1530 train_loss:4.8372 train_time:9553ms step_avg:159.21ms
step:71/1530 train_loss:4.9604 train_time:9713ms step_avg:159.22ms
step:72/1530 train_loss:4.8785 train_time:9873ms step_avg:159.23ms
step:73/1530 train_loss:4.7724 train_time:10032ms step_avg:159.24ms
step:74/1530 train_loss:4.9081 train_time:10192ms step_avg:159.25ms
step:75/1530 train_loss:4.8682 train_time:10352ms step_avg:159.26ms
step:76/1530 train_loss:4.7937 train_time:10512ms step_avg:159.27ms
step:77/1530 train_loss:4.9216 train_time:10672ms step_avg:159.29ms
step:78/1530 train_loss:5.1221 train_time:10832ms step_avg:159.29ms
step:79/1530 train_loss:4.8564 train_time:10992ms step_avg:159.30ms
step:80/1530 train_loss:4.8712 train_time:11151ms step_avg:159.30ms
step:81/1530 train_loss:4.6424 train_time:11312ms step_avg:159.32ms
step:82/1530 train_loss:4.8056 train_time:11471ms step_avg:159.33ms
step:83/1530 train_loss:4.7831 train_time:11631ms step_avg:159.34ms
step:84/1530 train_loss:4.7706 train_time:11792ms step_avg:159.35ms
step:85/1530 train_loss:4.6206 train_time:11952ms step_avg:159.35ms
step:86/1530 train_loss:4.8249 train_time:12112ms step_avg:159.37ms
step:87/1530 train_loss:4.7597 train_time:12272ms step_avg:159.37ms
step:88/1530 train_loss:4.7753 train_time:12432ms step_avg:159.38ms
step:89/1530 train_loss:4.7057 train_time:12593ms step_avg:159.40ms
step:90/1530 train_loss:4.6340 train_time:12752ms step_avg:159.40ms
step:91/1530 train_loss:4.6276 train_time:12912ms step_avg:159.41ms
step:92/1530 train_loss:4.7967 train_time:13073ms step_avg:159.42ms
step:93/1530 train_loss:4.6290 train_time:13233ms step_avg:159.43ms
step:94/1530 train_loss:4.6368 train_time:13392ms step_avg:159.43ms
step:95/1530 train_loss:4.7006 train_time:13552ms step_avg:159.44ms
step:96/1530 train_loss:4.6010 train_time:13713ms step_avg:159.46ms
step:97/1530 train_loss:4.6431 train_time:13872ms step_avg:159.45ms
step:98/1530 train_loss:4.5800 train_time:14032ms step_avg:159.46ms
step:99/1530 train_loss:4.6785 train_time:14193ms step_avg:159.47ms
step:100/1530 train_loss:4.6969 train_time:14353ms step_avg:159.47ms
step:101/1530 train_loss:4.5520 train_time:14512ms step_avg:159.47ms
step:102/1530 train_loss:4.7105 train_time:14672ms step_avg:159.48ms
step:103/1530 train_loss:4.5959 train_time:14833ms step_avg:159.49ms
step:104/1530 train_loss:4.5335 train_time:14993ms step_avg:159.50ms
step:105/1530 train_loss:4.5574 train_time:15152ms step_avg:159.49ms
step:106/1530 train_loss:4.6214 train_time:15313ms step_avg:159.51ms
step:107/1530 train_loss:4.5140 train_time:15473ms step_avg:159.51ms
step:108/1530 train_loss:4.3939 train_time:15632ms step_avg:159.51ms
step:109/1530 train_loss:4.5198 train_time:15793ms step_avg:159.53ms
step:110/1530 train_loss:4.4962 train_time:15953ms step_avg:159.53ms
step:111/1530 train_loss:4.4384 train_time:16113ms step_avg:159.54ms
step:112/1530 train_loss:4.5991 train_time:16273ms step_avg:159.54ms
step:113/1530 train_loss:4.4899 train_time:16433ms step_avg:159.54ms
step:114/1530 train_loss:4.3604 train_time:16594ms step_avg:159.55ms
step:115/1530 train_loss:4.5019 train_time:16755ms step_avg:159.58ms
step:116/1530 train_loss:4.4721 train_time:16921ms step_avg:159.63ms
step:117/1530 train_loss:4.3718 train_time:17086ms step_avg:159.68ms
step:118/1530 train_loss:4.5885 train_time:17249ms step_avg:159.72ms
step:119/1530 train_loss:4.4511 train_time:17414ms step_avg:159.76ms
step:120/1530 train_loss:4.3327 train_time:17577ms step_avg:159.79ms
step:121/1530 train_loss:4.2884 train_time:17740ms step_avg:159.82ms
step:122/1530 train_loss:4.4532 train_time:17905ms step_avg:159.86ms
step:123/1530 train_loss:4.3069 train_time:18068ms step_avg:159.89ms
step:124/1530 train_loss:4.5917 train_time:18232ms step_avg:159.93ms
step:125/1530 train_loss:4.4524 train_time:18396ms step_avg:159.96ms
step:125/1530 val_loss:4.4079 train_time:18442ms step_avg:160.37ms
step:126/1530 train_loss:4.4161 train_time:18560ms step_avg:160.00ms
step:127/1530 train_loss:4.4308 train_time:18726ms step_avg:160.05ms
step:128/1530 train_loss:4.3783 train_time:18890ms step_avg:160.09ms
step:129/1530 train_loss:4.6765 train_time:19054ms step_avg:160.12ms
step:130/1530 train_loss:4.3682 train_time:19218ms step_avg:160.15ms
step:131/1530 train_loss:4.3884 train_time:19382ms step_avg:160.18ms
step:132/1530 train_loss:4.3347 train_time:19547ms step_avg:160.22ms
step:133/1530 train_loss:4.4381 train_time:19711ms step_avg:160.25ms
step:134/1530 train_loss:4.2677 train_time:19874ms step_avg:160.28ms
step:135/1530 train_loss:4.4457 train_time:20038ms step_avg:160.30ms
step:136/1530 train_loss:4.2155 train_time:20202ms step_avg:160.33ms
step:137/1530 train_loss:4.3767 train_time:20365ms step_avg:160.36ms
step:138/1530 train_loss:4.2963 train_time:20529ms step_avg:160.38ms
step:139/1530 train_loss:4.3863 train_time:20694ms step_avg:160.42ms
step:140/1530 train_loss:4.4768 train_time:20856ms step_avg:160.43ms
step:141/1530 train_loss:4.3081 train_time:21019ms step_avg:160.45ms
step:142/1530 train_loss:4.3061 train_time:21184ms step_avg:160.48ms
step:143/1530 train_loss:4.2598 train_time:21347ms step_avg:160.50ms
step:144/1530 train_loss:4.3511 train_time:21511ms step_avg:160.53ms
step:145/1530 train_loss:4.3062 train_time:21674ms step_avg:160.55ms
step:146/1530 train_loss:4.1704 train_time:21837ms step_avg:160.56ms
step:147/1530 train_loss:4.3176 train_time:22001ms step_avg:160.59ms
step:148/1530 train_loss:4.3627 train_time:22166ms step_avg:160.62ms
step:149/1530 train_loss:4.3044 train_time:22330ms step_avg:160.65ms
step:150/1530 train_loss:4.4486 train_time:22494ms step_avg:160.67ms
step:151/1530 train_loss:4.2752 train_time:22657ms step_avg:160.69ms
step:152/1530 train_loss:4.2786 train_time:22820ms step_avg:160.70ms
step:153/1530 train_loss:4.3546 train_time:22985ms step_avg:160.73ms
step:154/1530 train_loss:4.3672 train_time:23149ms step_avg:160.76ms
step:155/1530 train_loss:4.2634 train_time:23314ms step_avg:160.78ms
step:156/1530 train_loss:4.3444 train_time:23477ms step_avg:160.80ms
step:157/1530 train_loss:4.3973 train_time:23641ms step_avg:160.82ms
step:158/1530 train_loss:4.2389 train_time:23803ms step_avg:160.83ms
step:159/1530 train_loss:4.3096 train_time:23967ms step_avg:160.85ms
step:160/1530 train_loss:4.1350 train_time:24132ms step_avg:160.88ms
step:161/1530 train_loss:4.3477 train_time:24295ms step_avg:160.90ms
step:162/1530 train_loss:4.3435 train_time:24458ms step_avg:160.91ms
step:163/1530 train_loss:4.3335 train_time:24621ms step_avg:160.92ms
step:164/1530 train_loss:4.1900 train_time:24785ms step_avg:160.94ms
step:165/1530 train_loss:4.2863 train_time:24949ms step_avg:160.96ms
step:166/1530 train_loss:4.3292 train_time:25113ms step_avg:160.98ms
step:167/1530 train_loss:4.1965 train_time:25276ms step_avg:160.99ms
step:168/1530 train_loss:4.2826 train_time:25439ms step_avg:161.01ms
step:169/1530 train_loss:4.1588 train_time:25603ms step_avg:161.03ms
step:170/1530 train_loss:4.0147 train_time:25766ms step_avg:161.04ms
step:171/1530 train_loss:4.1926 train_time:25930ms step_avg:161.05ms
step:172/1530 train_loss:4.2028 train_time:26093ms step_avg:161.07ms
step:173/1530 train_loss:4.2730 train_time:26255ms step_avg:161.07ms
step:174/1530 train_loss:4.4148 train_time:26418ms step_avg:161.08ms
step:175/1530 train_loss:4.2281 train_time:26581ms step_avg:161.10ms
step:176/1530 train_loss:4.0900 train_time:26742ms step_avg:161.09ms
step:177/1530 train_loss:4.0697 train_time:26906ms step_avg:161.11ms
step:178/1530 train_loss:4.1810 train_time:27069ms step_avg:161.12ms
step:179/1530 train_loss:4.1124 train_time:27232ms step_avg:161.14ms
step:180/1530 train_loss:4.1076 train_time:27395ms step_avg:161.15ms
step:181/1530 train_loss:4.2882 train_time:27557ms step_avg:161.15ms
step:182/1530 train_loss:4.1546 train_time:27719ms step_avg:161.16ms
step:183/1530 train_loss:4.1144 train_time:27882ms step_avg:161.17ms
step:184/1530 train_loss:4.1210 train_time:28045ms step_avg:161.18ms
step:185/1530 train_loss:4.1971 train_time:28207ms step_avg:161.18ms
step:186/1530 train_loss:4.1669 train_time:28371ms step_avg:161.20ms
step:187/1530 train_loss:4.2269 train_time:28534ms step_avg:161.21ms
step:188/1530 train_loss:4.1578 train_time:28833ms step_avg:161.99ms
step:189/1530 train_loss:4.1083 train_time:29156ms step_avg:162.88ms
step:190/1530 train_loss:4.1989 train_time:29317ms step_avg:162.87ms
step:191/1530 train_loss:4.0734 train_time:29481ms step_avg:162.88ms
step:192/1530 train_loss:4.0245 train_time:29644ms step_avg:162.88ms
step:193/1530 train_loss:4.2496 train_time:29808ms step_avg:162.88ms
step:194/1530 train_loss:4.1719 train_time:29971ms step_avg:162.88ms
step:195/1530 train_loss:4.3403 train_time:30134ms step_avg:162.89ms
step:196/1530 train_loss:4.1600 train_time:30297ms step_avg:162.88ms
step:197/1530 train_loss:4.0429 train_time:30460ms step_avg:162.89ms
step:198/1530 train_loss:4.1756 train_time:30622ms step_avg:162.88ms
step:199/1530 train_loss:4.0249 train_time:30786ms step_avg:162.89ms
step:200/1530 train_loss:4.1021 train_time:30948ms step_avg:162.88ms
step:201/1530 train_loss:3.9988 train_time:31112ms step_avg:162.89ms
step:202/1530 train_loss:4.2392 train_time:31274ms step_avg:162.89ms
step:203/1530 train_loss:4.0533 train_time:31436ms step_avg:162.88ms
step:204/1530 train_loss:4.1802 train_time:31599ms step_avg:162.88ms
step:205/1530 train_loss:4.2389 train_time:31761ms step_avg:162.88ms
step:206/1530 train_loss:3.9357 train_time:31922ms step_avg:162.87ms
step:207/1530 train_loss:4.0711 train_time:32087ms step_avg:162.88ms
step:208/1530 train_loss:4.0972 train_time:32250ms step_avg:162.88ms
step:209/1530 train_loss:4.2231 train_time:32413ms step_avg:162.88ms
step:210/1530 train_loss:4.1745 train_time:32575ms step_avg:162.88ms
step:211/1530 train_loss:4.0506 train_time:32737ms step_avg:162.87ms
step:212/1530 train_loss:4.1086 train_time:32899ms step_avg:162.87ms
step:213/1530 train_loss:4.0432 train_time:33062ms step_avg:162.86ms
step:214/1530 train_loss:4.1023 train_time:33225ms step_avg:162.87ms
step:215/1530 train_loss:3.9453 train_time:33389ms step_avg:162.87ms
step:216/1530 train_loss:3.9916 train_time:33550ms step_avg:162.87ms
step:217/1530 train_loss:3.9972 train_time:33713ms step_avg:162.87ms
step:218/1530 train_loss:4.0750 train_time:33875ms step_avg:162.86ms
step:219/1530 train_loss:4.0617 train_time:34038ms step_avg:162.86ms
step:220/1530 train_loss:4.0759 train_time:34202ms step_avg:162.86ms
step:221/1530 train_loss:4.0832 train_time:34365ms step_avg:162.87ms
step:222/1530 train_loss:3.9901 train_time:34527ms step_avg:162.86ms
step:223/1530 train_loss:3.9881 train_time:34691ms step_avg:162.87ms
step:224/1530 train_loss:4.3029 train_time:34853ms step_avg:162.86ms
step:225/1530 train_loss:3.9249 train_time:35016ms step_avg:162.86ms
step:226/1530 train_loss:3.9741 train_time:35178ms step_avg:162.86ms
step:227/1530 train_loss:3.9717 train_time:35340ms step_avg:162.86ms
step:228/1530 train_loss:4.1305 train_time:35506ms step_avg:162.87ms
step:229/1530 train_loss:3.9229 train_time:35672ms step_avg:162.89ms
step:230/1530 train_loss:4.0389 train_time:35837ms step_avg:162.90ms
step:231/1530 train_loss:3.8957 train_time:36004ms step_avg:162.91ms
step:232/1530 train_loss:3.9514 train_time:36170ms step_avg:162.93ms
step:233/1530 train_loss:4.0729 train_time:36336ms step_avg:162.94ms
step:234/1530 train_loss:4.0229 train_time:36502ms step_avg:162.96ms
step:235/1530 train_loss:3.8927 train_time:36669ms step_avg:162.97ms
step:236/1530 train_loss:4.0773 train_time:36835ms step_avg:162.99ms
step:237/1530 train_loss:4.0790 train_time:37001ms step_avg:163.00ms
step:238/1530 train_loss:3.9373 train_time:37168ms step_avg:163.02ms
step:239/1530 train_loss:4.0670 train_time:37334ms step_avg:163.03ms
step:240/1530 train_loss:4.1039 train_time:37500ms step_avg:163.04ms
step:241/1530 train_loss:3.9594 train_time:37664ms step_avg:163.05ms
step:242/1530 train_loss:4.1303 train_time:37832ms step_avg:163.07ms
step:243/1530 train_loss:4.0034 train_time:37997ms step_avg:163.08ms
step:244/1530 train_loss:4.0735 train_time:38164ms step_avg:163.09ms
step:245/1530 train_loss:4.1341 train_time:38330ms step_avg:163.11ms
step:246/1530 train_loss:4.0452 train_time:38496ms step_avg:163.12ms
step:247/1530 train_loss:3.9924 train_time:38662ms step_avg:163.13ms
step:248/1530 train_loss:4.0897 train_time:38828ms step_avg:163.14ms
step:249/1530 train_loss:3.9111 train_time:38994ms step_avg:163.15ms
step:250/1530 train_loss:3.9650 train_time:39159ms step_avg:163.16ms
step:250/1530 val_loss:3.9935 train_time:39206ms step_avg:163.36ms
step:251/1530 train_loss:4.0702 train_time:39326ms step_avg:163.18ms
step:252/1530 train_loss:4.1490 train_time:39495ms step_avg:163.20ms
step:253/1530 train_loss:3.9214 train_time:39662ms step_avg:163.22ms
step:254/1530 train_loss:3.8744 train_time:39828ms step_avg:163.23ms
step:255/1530 train_loss:4.0621 train_time:39993ms step_avg:163.24ms
step:256/1530 train_loss:3.9781 train_time:40160ms step_avg:163.25ms
step:257/1530 train_loss:3.9858 train_time:40326ms step_avg:163.26ms
step:258/1530 train_loss:3.9811 train_time:40492ms step_avg:163.27ms
step:259/1530 train_loss:4.0285 train_time:40658ms step_avg:163.28ms
step:260/1530 train_loss:4.0518 train_time:40825ms step_avg:163.30ms
step:261/1530 train_loss:4.0129 train_time:40991ms step_avg:163.31ms
step:262/1530 train_loss:3.9803 train_time:41158ms step_avg:163.33ms
step:263/1530 train_loss:3.8802 train_time:41324ms step_avg:163.33ms
step:264/1530 train_loss:3.9745 train_time:41491ms step_avg:163.35ms
step:265/1530 train_loss:3.8607 train_time:41657ms step_avg:163.36ms
step:266/1530 train_loss:3.9084 train_time:41823ms step_avg:163.37ms
step:267/1530 train_loss:3.9173 train_time:41989ms step_avg:163.38ms
step:268/1530 train_loss:3.9563 train_time:42154ms step_avg:163.39ms
step:269/1530 train_loss:3.8436 train_time:42320ms step_avg:163.40ms
step:270/1530 train_loss:4.0859 train_time:42486ms step_avg:163.41ms
step:271/1530 train_loss:3.9648 train_time:42653ms step_avg:163.42ms
step:272/1530 train_loss:3.9224 train_time:42819ms step_avg:163.43ms
step:273/1530 train_loss:3.9327 train_time:42984ms step_avg:163.44ms
step:274/1530 train_loss:4.0263 train_time:43151ms step_avg:163.45ms
step:275/1530 train_loss:4.0563 train_time:43316ms step_avg:163.46ms
step:276/1530 train_loss:4.2169 train_time:43481ms step_avg:163.46ms
step:277/1530 train_loss:4.0343 train_time:43647ms step_avg:163.47ms
step:278/1530 train_loss:4.0843 train_time:43813ms step_avg:163.48ms
step:279/1530 train_loss:4.0018 train_time:43978ms step_avg:163.49ms
step:280/1530 train_loss:4.1768 train_time:44146ms step_avg:163.50ms
step:281/1530 train_loss:3.9688 train_time:44312ms step_avg:163.51ms
step:282/1530 train_loss:3.9345 train_time:44479ms step_avg:163.53ms
step:283/1530 train_loss:3.9044 train_time:44644ms step_avg:163.53ms
step:284/1530 train_loss:4.0406 train_time:44810ms step_avg:163.54ms
step:285/1530 train_loss:4.0518 train_time:44975ms step_avg:163.55ms
step:286/1530 train_loss:4.0710 train_time:45140ms step_avg:163.55ms
step:287/1530 train_loss:3.9003 train_time:45306ms step_avg:163.56ms
step:288/1530 train_loss:4.0044 train_time:45471ms step_avg:163.56ms
step:289/1530 train_loss:3.8646 train_time:45635ms step_avg:163.57ms
step:290/1530 train_loss:3.8510 train_time:45799ms step_avg:163.57ms
step:291/1530 train_loss:3.9038 train_time:45966ms step_avg:163.58ms
step:292/1530 train_loss:3.8552 train_time:46131ms step_avg:163.58ms
step:293/1530 train_loss:3.8967 train_time:46296ms step_avg:163.59ms
step:294/1530 train_loss:3.9291 train_time:46461ms step_avg:163.59ms
step:295/1530 train_loss:3.8329 train_time:46626ms step_avg:163.60ms
step:296/1530 train_loss:3.8492 train_time:46791ms step_avg:163.61ms
step:297/1530 train_loss:3.8608 train_time:46957ms step_avg:163.61ms
step:298/1530 train_loss:3.9719 train_time:47120ms step_avg:163.61ms
step:299/1530 train_loss:3.8185 train_time:47286ms step_avg:163.62ms
step:300/1530 train_loss:3.9591 train_time:47452ms step_avg:163.63ms
step:301/1530 train_loss:3.9473 train_time:47615ms step_avg:163.63ms
step:302/1530 train_loss:3.9221 train_time:47780ms step_avg:163.63ms
step:303/1530 train_loss:3.9698 train_time:47945ms step_avg:163.64ms
step:304/1530 train_loss:3.9640 train_time:48109ms step_avg:163.64ms
step:305/1530 train_loss:4.4427 train_time:48274ms step_avg:163.64ms
step:306/1530 train_loss:3.9296 train_time:48439ms step_avg:163.65ms
step:307/1530 train_loss:3.8316 train_time:48605ms step_avg:163.65ms
step:308/1530 train_loss:3.9696 train_time:48770ms step_avg:163.66ms
step:309/1530 train_loss:3.8685 train_time:48935ms step_avg:163.66ms
step:310/1530 train_loss:4.0751 train_time:49098ms step_avg:163.66ms
step:311/1530 train_loss:3.9110 train_time:49266ms step_avg:163.67ms
step:312/1530 train_loss:3.8545 train_time:49431ms step_avg:163.68ms
step:313/1530 train_loss:3.9254 train_time:49596ms step_avg:163.68ms
step:314/1530 train_loss:4.0545 train_time:49763ms step_avg:163.69ms
step:315/1530 train_loss:3.9325 train_time:49928ms step_avg:163.70ms
step:316/1530 train_loss:3.7946 train_time:50093ms step_avg:163.70ms
step:317/1530 train_loss:3.8661 train_time:50259ms step_avg:163.71ms
step:318/1530 train_loss:3.9089 train_time:50424ms step_avg:163.71ms
step:319/1530 train_loss:3.8760 train_time:50590ms step_avg:163.72ms
step:320/1530 train_loss:4.0017 train_time:50755ms step_avg:163.73ms
step:321/1530 train_loss:3.9500 train_time:50920ms step_avg:163.73ms
step:322/1530 train_loss:3.9217 train_time:51084ms step_avg:163.73ms
step:323/1530 train_loss:3.9936 train_time:51250ms step_avg:163.74ms
step:324/1530 train_loss:3.9304 train_time:51414ms step_avg:163.74ms
step:325/1530 train_loss:4.0030 train_time:51579ms step_avg:163.74ms
step:326/1530 train_loss:3.8894 train_time:51745ms step_avg:163.75ms
step:327/1530 train_loss:4.3859 train_time:51910ms step_avg:163.75ms
step:328/1530 train_loss:4.0590 train_time:52075ms step_avg:163.76ms
step:329/1530 train_loss:3.7858 train_time:52238ms step_avg:163.76ms
step:330/1530 train_loss:3.7308 train_time:52404ms step_avg:163.76ms
step:331/1530 train_loss:3.9703 train_time:52569ms step_avg:163.77ms
step:332/1530 train_loss:3.8985 train_time:52735ms step_avg:163.77ms
step:333/1530 train_loss:3.8763 train_time:52900ms step_avg:163.78ms
step:334/1530 train_loss:3.8348 train_time:53066ms step_avg:163.78ms
step:335/1530 train_loss:3.9978 train_time:53230ms step_avg:163.79ms
step:336/1530 train_loss:3.9434 train_time:53395ms step_avg:163.79ms
step:337/1530 train_loss:4.4323 train_time:53561ms step_avg:163.79ms
step:338/1530 train_loss:3.9343 train_time:53726ms step_avg:163.80ms
step:339/1530 train_loss:3.8598 train_time:53892ms step_avg:163.81ms
step:340/1530 train_loss:3.9263 train_time:54057ms step_avg:163.81ms
step:341/1530 train_loss:3.8470 train_time:54224ms step_avg:163.82ms
step:342/1530 train_loss:3.8051 train_time:54392ms step_avg:163.83ms
step:343/1530 train_loss:3.8293 train_time:54560ms step_avg:163.84ms
step:344/1530 train_loss:3.9842 train_time:54728ms step_avg:163.86ms
step:345/1530 train_loss:3.8134 train_time:54896ms step_avg:163.87ms
step:346/1530 train_loss:3.7619 train_time:55065ms step_avg:163.88ms
step:347/1530 train_loss:3.7804 train_time:55233ms step_avg:163.90ms
step:348/1530 train_loss:3.8479 train_time:55401ms step_avg:163.91ms
step:349/1530 train_loss:3.8232 train_time:55570ms step_avg:163.92ms
step:350/1530 train_loss:3.5644 train_time:55737ms step_avg:163.93ms
step:351/1530 train_loss:3.8199 train_time:55905ms step_avg:163.95ms
step:352/1530 train_loss:4.1850 train_time:56074ms step_avg:163.96ms
step:353/1530 train_loss:3.6461 train_time:56242ms step_avg:163.97ms
step:354/1530 train_loss:3.9173 train_time:56409ms step_avg:163.98ms
step:355/1530 train_loss:3.7740 train_time:56577ms step_avg:163.99ms
step:356/1530 train_loss:3.8705 train_time:56745ms step_avg:164.00ms
step:357/1530 train_loss:3.7512 train_time:56913ms step_avg:164.01ms
step:358/1530 train_loss:3.8622 train_time:57080ms step_avg:164.02ms
step:359/1530 train_loss:3.7631 train_time:57250ms step_avg:164.04ms
step:360/1530 train_loss:3.4240 train_time:57418ms step_avg:164.05ms
step:361/1530 train_loss:4.0075 train_time:57587ms step_avg:164.06ms
step:362/1530 train_loss:3.9071 train_time:57755ms step_avg:164.08ms
step:363/1530 train_loss:3.8250 train_time:57921ms step_avg:164.08ms
step:364/1530 train_loss:3.7357 train_time:58089ms step_avg:164.09ms
step:365/1530 train_loss:3.9091 train_time:58257ms step_avg:164.10ms
step:366/1530 train_loss:3.8521 train_time:58426ms step_avg:164.12ms
step:367/1530 train_loss:3.8548 train_time:58594ms step_avg:164.13ms
step:368/1530 train_loss:3.8476 train_time:58762ms step_avg:164.14ms
step:369/1530 train_loss:3.7372 train_time:58930ms step_avg:164.15ms
step:370/1530 train_loss:3.8735 train_time:59096ms step_avg:164.16ms
step:371/1530 train_loss:3.7266 train_time:59264ms step_avg:164.17ms
step:372/1530 train_loss:3.6844 train_time:59431ms step_avg:164.18ms
step:373/1530 train_loss:3.9020 train_time:59597ms step_avg:164.18ms
step:374/1530 train_loss:3.8188 train_time:59768ms step_avg:164.20ms
step:375/1530 train_loss:3.7880 train_time:59935ms step_avg:164.21ms
step:375/1530 val_loss:3.8158 train_time:59983ms step_avg:164.34ms
step:376/1530 train_loss:3.8531 train_time:60104ms step_avg:164.22ms
step:377/1530 train_loss:3.7794 train_time:60408ms step_avg:164.60ms
step:378/1530 train_loss:3.8531 train_time:60587ms step_avg:164.64ms
step:379/1530 train_loss:3.8543 train_time:60902ms step_avg:165.05ms
step:380/1530 train_loss:3.9406 train_time:61069ms step_avg:165.05ms
step:381/1530 train_loss:3.8332 train_time:61237ms step_avg:165.06ms
step:382/1530 train_loss:3.7947 train_time:61406ms step_avg:165.07ms
step:383/1530 train_loss:3.7891 train_time:61573ms step_avg:165.08ms
step:384/1530 train_loss:3.8614 train_time:61740ms step_avg:165.08ms
step:385/1530 train_loss:3.7860 train_time:61907ms step_avg:165.09ms
step:386/1530 train_loss:3.8855 train_time:62075ms step_avg:165.09ms
step:387/1530 train_loss:4.0433 train_time:62242ms step_avg:165.10ms
step:388/1530 train_loss:3.7882 train_time:62410ms step_avg:165.11ms
step:389/1530 train_loss:3.7878 train_time:62579ms step_avg:165.12ms
step:390/1530 train_loss:3.8866 train_time:62747ms step_avg:165.12ms
step:391/1530 train_loss:3.8122 train_time:62915ms step_avg:165.13ms
step:392/1530 train_loss:3.9145 train_time:63083ms step_avg:165.14ms
step:393/1530 train_loss:3.7556 train_time:63251ms step_avg:165.15ms
step:394/1530 train_loss:3.8779 train_time:63419ms step_avg:165.15ms
step:395/1530 train_loss:3.6254 train_time:63586ms step_avg:165.16ms
step:396/1530 train_loss:3.8315 train_time:63754ms step_avg:165.17ms
step:397/1530 train_loss:3.8538 train_time:63922ms step_avg:165.17ms
step:398/1530 train_loss:3.8671 train_time:64090ms step_avg:165.18ms
step:399/1530 train_loss:3.7602 train_time:64256ms step_avg:165.18ms
step:400/1530 train_loss:3.8130 train_time:64424ms step_avg:165.19ms
step:401/1530 train_loss:3.9036 train_time:64591ms step_avg:165.19ms
step:402/1530 train_loss:3.8334 train_time:64759ms step_avg:165.20ms
step:403/1530 train_loss:3.9529 train_time:64925ms step_avg:165.20ms
step:404/1530 train_loss:3.6641 train_time:65093ms step_avg:165.21ms
step:405/1530 train_loss:3.7709 train_time:65260ms step_avg:165.22ms
step:406/1530 train_loss:4.0794 train_time:65427ms step_avg:165.22ms
step:407/1530 train_loss:3.7659 train_time:65596ms step_avg:165.23ms
step:408/1530 train_loss:3.8186 train_time:65763ms step_avg:165.23ms
step:409/1530 train_loss:3.8487 train_time:65930ms step_avg:165.24ms
step:410/1530 train_loss:3.7495 train_time:66096ms step_avg:165.24ms
step:411/1530 train_loss:3.7551 train_time:66264ms step_avg:165.25ms
step:412/1530 train_loss:4.1718 train_time:66431ms step_avg:165.25ms
step:413/1530 train_loss:3.6111 train_time:66599ms step_avg:165.26ms
step:414/1530 train_loss:3.9998 train_time:66765ms step_avg:165.26ms
step:415/1530 train_loss:3.7471 train_time:66931ms step_avg:165.26ms
step:416/1530 train_loss:3.7577 train_time:67099ms step_avg:165.27ms
step:417/1530 train_loss:3.9449 train_time:67266ms step_avg:165.27ms
step:418/1530 train_loss:3.6758 train_time:67433ms step_avg:165.28ms
step:419/1530 train_loss:3.7975 train_time:67600ms step_avg:165.28ms
step:420/1530 train_loss:3.6906 train_time:67766ms step_avg:165.28ms
step:421/1530 train_loss:3.6495 train_time:67933ms step_avg:165.29ms
step:422/1530 train_loss:3.7739 train_time:68101ms step_avg:165.29ms
step:423/1530 train_loss:3.8610 train_time:68268ms step_avg:165.30ms
step:424/1530 train_loss:3.6012 train_time:68436ms step_avg:165.30ms
step:425/1530 train_loss:3.7742 train_time:68603ms step_avg:165.31ms
step:426/1530 train_loss:3.6361 train_time:68770ms step_avg:165.31ms
step:427/1530 train_loss:3.8816 train_time:68937ms step_avg:165.32ms
step:428/1530 train_loss:3.8075 train_time:69105ms step_avg:165.32ms
step:429/1530 train_loss:3.7472 train_time:69273ms step_avg:165.33ms
step:430/1530 train_loss:3.7018 train_time:69439ms step_avg:165.33ms
step:431/1530 train_loss:3.6188 train_time:69607ms step_avg:165.34ms
step:432/1530 train_loss:3.7583 train_time:69775ms step_avg:165.34ms
step:433/1530 train_loss:3.8051 train_time:69941ms step_avg:165.35ms
step:434/1530 train_loss:3.7681 train_time:70108ms step_avg:165.35ms
step:435/1530 train_loss:3.8008 train_time:70276ms step_avg:165.35ms
step:436/1530 train_loss:3.8213 train_time:70442ms step_avg:165.36ms
step:437/1530 train_loss:3.7112 train_time:70608ms step_avg:165.36ms
step:438/1530 train_loss:3.6967 train_time:70775ms step_avg:165.36ms
step:439/1530 train_loss:3.7038 train_time:70942ms step_avg:165.37ms
step:440/1530 train_loss:3.8828 train_time:71110ms step_avg:165.37ms
step:441/1530 train_loss:3.7511 train_time:71277ms step_avg:165.38ms
step:442/1530 train_loss:3.7284 train_time:71444ms step_avg:165.38ms
step:443/1530 train_loss:3.6098 train_time:71610ms step_avg:165.38ms
step:444/1530 train_loss:3.9170 train_time:71777ms step_avg:165.38ms
step:445/1530 train_loss:3.8353 train_time:71943ms step_avg:165.39ms
step:446/1530 train_loss:3.8208 train_time:72109ms step_avg:165.39ms
step:447/1530 train_loss:3.7433 train_time:72276ms step_avg:165.39ms
step:448/1530 train_loss:3.8448 train_time:72443ms step_avg:165.40ms
step:449/1530 train_loss:3.6799 train_time:72610ms step_avg:165.40ms
step:450/1530 train_loss:3.7199 train_time:72777ms step_avg:165.40ms
step:451/1530 train_loss:3.5788 train_time:72944ms step_avg:165.41ms
step:452/1530 train_loss:3.7054 train_time:73111ms step_avg:165.41ms
step:453/1530 train_loss:3.6640 train_time:73279ms step_avg:165.42ms
step:454/1530 train_loss:3.6349 train_time:73446ms step_avg:165.42ms
step:455/1530 train_loss:3.8321 train_time:73614ms step_avg:165.42ms
step:456/1530 train_loss:3.7179 train_time:73784ms step_avg:165.44ms
step:457/1530 train_loss:3.7732 train_time:73954ms step_avg:165.45ms
step:458/1530 train_loss:3.8204 train_time:74124ms step_avg:165.45ms
step:459/1530 train_loss:3.6277 train_time:74296ms step_avg:165.47ms
step:460/1530 train_loss:3.7875 train_time:74465ms step_avg:165.48ms
step:461/1530 train_loss:3.6899 train_time:74634ms step_avg:165.49ms
step:462/1530 train_loss:3.7336 train_time:74805ms step_avg:165.50ms
step:463/1530 train_loss:3.7628 train_time:74974ms step_avg:165.51ms
step:464/1530 train_loss:3.7056 train_time:75143ms step_avg:165.51ms
step:465/1530 train_loss:3.7046 train_time:75312ms step_avg:165.52ms
step:466/1530 train_loss:3.7886 train_time:75483ms step_avg:165.53ms
step:467/1530 train_loss:3.8105 train_time:75653ms step_avg:165.54ms
step:468/1530 train_loss:3.7805 train_time:75822ms step_avg:165.55ms
step:469/1530 train_loss:3.6767 train_time:75992ms step_avg:165.56ms
step:470/1530 train_loss:3.7552 train_time:76162ms step_avg:165.57ms
step:471/1530 train_loss:3.8030 train_time:76331ms step_avg:165.58ms
step:472/1530 train_loss:3.7785 train_time:76502ms step_avg:165.59ms
step:473/1530 train_loss:3.7046 train_time:76671ms step_avg:165.60ms
step:474/1530 train_loss:3.5835 train_time:76841ms step_avg:165.60ms
step:475/1530 train_loss:4.0150 train_time:77009ms step_avg:165.61ms
step:476/1530 train_loss:3.7451 train_time:77179ms step_avg:165.62ms
step:477/1530 train_loss:3.5878 train_time:77348ms step_avg:165.63ms
step:478/1530 train_loss:3.8171 train_time:77517ms step_avg:165.63ms
step:479/1530 train_loss:3.7632 train_time:77687ms step_avg:165.64ms
step:480/1530 train_loss:3.9129 train_time:77856ms step_avg:165.65ms
step:481/1530 train_loss:3.7147 train_time:78026ms step_avg:165.66ms
step:482/1530 train_loss:3.5198 train_time:78195ms step_avg:165.67ms
step:483/1530 train_loss:3.7971 train_time:78364ms step_avg:165.67ms
step:484/1530 train_loss:3.6534 train_time:78534ms step_avg:165.68ms
step:485/1530 train_loss:3.6465 train_time:78703ms step_avg:165.69ms
step:486/1530 train_loss:3.5656 train_time:78874ms step_avg:165.70ms
step:487/1530 train_loss:3.6800 train_time:79043ms step_avg:165.71ms
step:488/1530 train_loss:3.8635 train_time:79212ms step_avg:165.71ms
step:489/1530 train_loss:3.6971 train_time:79382ms step_avg:165.72ms
step:490/1530 train_loss:3.5782 train_time:79550ms step_avg:165.73ms
step:491/1530 train_loss:3.6050 train_time:79719ms step_avg:165.74ms
step:492/1530 train_loss:3.7263 train_time:79889ms step_avg:165.75ms
step:493/1530 train_loss:3.5699 train_time:80061ms step_avg:165.76ms
step:494/1530 train_loss:3.6937 train_time:80229ms step_avg:165.76ms
step:495/1530 train_loss:3.6553 train_time:80401ms step_avg:165.78ms
step:496/1530 train_loss:3.5023 train_time:80571ms step_avg:165.78ms
step:497/1530 train_loss:3.7325 train_time:80740ms step_avg:165.79ms
step:498/1530 train_loss:3.7757 train_time:80908ms step_avg:165.80ms
step:499/1530 train_loss:3.8132 train_time:81079ms step_avg:165.80ms
step:500/1530 train_loss:3.7300 train_time:81248ms step_avg:165.81ms
step:500/1530 val_loss:3.6976 train_time:81296ms step_avg:165.91ms
step:501/1530 train_loss:3.8042 train_time:81416ms step_avg:165.82ms
step:502/1530 train_loss:3.7392 train_time:81587ms step_avg:165.83ms
step:503/1530 train_loss:3.7671 train_time:81758ms step_avg:165.84ms
step:504/1530 train_loss:3.7129 train_time:81927ms step_avg:165.84ms
step:505/1530 train_loss:3.8026 train_time:82096ms step_avg:165.85ms
step:506/1530 train_loss:3.6459 train_time:82265ms step_avg:165.86ms
step:507/1530 train_loss:3.7552 train_time:82434ms step_avg:165.86ms
step:508/1530 train_loss:3.8092 train_time:82604ms step_avg:165.87ms
step:509/1530 train_loss:3.7610 train_time:82772ms step_avg:165.88ms
step:510/1530 train_loss:3.5703 train_time:82943ms step_avg:165.89ms
step:511/1530 train_loss:3.7709 train_time:83112ms step_avg:165.89ms
step:512/1530 train_loss:3.7131 train_time:83284ms step_avg:165.90ms
step:513/1530 train_loss:3.6608 train_time:83452ms step_avg:165.91ms
step:514/1530 train_loss:3.8255 train_time:83623ms step_avg:165.92ms
step:515/1530 train_loss:3.7255 train_time:83791ms step_avg:165.92ms
step:516/1530 train_loss:4.0659 train_time:83962ms step_avg:165.93ms
step:517/1530 train_loss:3.6865 train_time:84131ms step_avg:165.94ms
step:518/1530 train_loss:3.7660 train_time:84299ms step_avg:165.94ms
step:519/1530 train_loss:3.6439 train_time:84468ms step_avg:165.95ms
step:520/1530 train_loss:3.6737 train_time:84636ms step_avg:165.95ms
step:521/1530 train_loss:3.6556 train_time:84806ms step_avg:165.96ms
step:522/1530 train_loss:3.6497 train_time:84975ms step_avg:165.97ms
step:523/1530 train_loss:4.2783 train_time:85145ms step_avg:165.97ms
step:524/1530 train_loss:3.7285 train_time:85312ms step_avg:165.98ms
step:525/1530 train_loss:3.6682 train_time:85481ms step_avg:165.98ms
step:526/1530 train_loss:3.6841 train_time:85650ms step_avg:165.99ms
step:527/1530 train_loss:3.6427 train_time:85818ms step_avg:165.99ms
step:528/1530 train_loss:3.6228 train_time:85986ms step_avg:166.00ms
step:529/1530 train_loss:3.8398 train_time:86154ms step_avg:166.00ms
step:530/1530 train_loss:3.6437 train_time:86325ms step_avg:166.01ms
step:531/1530 train_loss:3.9215 train_time:86494ms step_avg:166.02ms
step:532/1530 train_loss:3.7189 train_time:86662ms step_avg:166.02ms
step:533/1530 train_loss:3.6473 train_time:86831ms step_avg:166.03ms
step:534/1530 train_loss:3.6578 train_time:87000ms step_avg:166.03ms
step:535/1530 train_loss:3.6033 train_time:87169ms step_avg:166.04ms
step:536/1530 train_loss:3.7480 train_time:87342ms step_avg:166.05ms
step:537/1530 train_loss:3.7152 train_time:87511ms step_avg:166.06ms
step:538/1530 train_loss:3.6165 train_time:87682ms step_avg:166.06ms
step:539/1530 train_loss:4.0964 train_time:87852ms step_avg:166.07ms
step:540/1530 train_loss:3.6669 train_time:88021ms step_avg:166.08ms
step:541/1530 train_loss:3.7788 train_time:88189ms step_avg:166.08ms
step:542/1530 train_loss:3.5831 train_time:88357ms step_avg:166.08ms
step:543/1530 train_loss:3.5768 train_time:88527ms step_avg:166.09ms
step:544/1530 train_loss:3.6280 train_time:88696ms step_avg:166.10ms
step:545/1530 train_loss:3.5844 train_time:88865ms step_avg:166.10ms
step:546/1530 train_loss:3.6147 train_time:89035ms step_avg:166.11ms
step:547/1530 train_loss:3.6253 train_time:89204ms step_avg:166.12ms
step:548/1530 train_loss:3.6053 train_time:89373ms step_avg:166.12ms
step:549/1530 train_loss:3.7181 train_time:89542ms step_avg:166.13ms
step:550/1530 train_loss:3.6139 train_time:89710ms step_avg:166.13ms
step:551/1530 train_loss:3.6230 train_time:89879ms step_avg:166.13ms
step:552/1530 train_loss:3.9265 train_time:90048ms step_avg:166.14ms
step:553/1530 train_loss:3.7497 train_time:90216ms step_avg:166.14ms
step:554/1530 train_loss:3.7054 train_time:90384ms step_avg:166.15ms
step:555/1530 train_loss:3.6230 train_time:90553ms step_avg:166.15ms
step:556/1530 train_loss:3.6900 train_time:90722ms step_avg:166.16ms
step:557/1530 train_loss:3.3053 train_time:90890ms step_avg:166.16ms
step:558/1530 train_loss:3.6066 train_time:91058ms step_avg:166.16ms
step:559/1530 train_loss:3.6417 train_time:91226ms step_avg:166.17ms
step:560/1530 train_loss:3.6778 train_time:91394ms step_avg:166.17ms
step:561/1530 train_loss:3.6022 train_time:91563ms step_avg:166.18ms
step:562/1530 train_loss:3.5496 train_time:91734ms step_avg:166.18ms
step:563/1530 train_loss:3.7463 train_time:91902ms step_avg:166.19ms
step:564/1530 train_loss:3.5692 train_time:92071ms step_avg:166.19ms
step:565/1530 train_loss:3.6713 train_time:92241ms step_avg:166.20ms
step:566/1530 train_loss:3.6115 train_time:92544ms step_avg:166.45ms
step:567/1530 train_loss:3.5986 train_time:92725ms step_avg:166.47ms
step:568/1530 train_loss:3.6741 train_time:92894ms step_avg:166.48ms
step:569/1530 train_loss:3.6400 train_time:93219ms step_avg:166.76ms
step:570/1530 train_loss:3.6804 train_time:93389ms step_avg:166.77ms
step:571/1530 train_loss:3.7515 train_time:93559ms step_avg:166.77ms
step:572/1530 train_loss:3.7190 train_time:93731ms step_avg:166.78ms
step:573/1530 train_loss:3.7275 train_time:93905ms step_avg:166.79ms
step:574/1530 train_loss:3.7743 train_time:94077ms step_avg:166.80ms
step:575/1530 train_loss:3.7157 train_time:94248ms step_avg:166.81ms
step:576/1530 train_loss:3.7522 train_time:94419ms step_avg:166.82ms
step:577/1530 train_loss:3.6633 train_time:94589ms step_avg:166.82ms
step:578/1530 train_loss:3.6650 train_time:94762ms step_avg:166.83ms
step:579/1530 train_loss:3.6629 train_time:94933ms step_avg:166.84ms
step:580/1530 train_loss:3.5822 train_time:95104ms step_avg:166.85ms
step:581/1530 train_loss:3.6305 train_time:95275ms step_avg:166.86ms
step:582/1530 train_loss:3.8445 train_time:95447ms step_avg:166.87ms
step:583/1530 train_loss:3.6173 train_time:95618ms step_avg:166.87ms
step:584/1530 train_loss:3.5811 train_time:95790ms step_avg:166.88ms
step:585/1530 train_loss:3.7835 train_time:95961ms step_avg:166.89ms
step:586/1530 train_loss:3.5075 train_time:96133ms step_avg:166.90ms
step:587/1530 train_loss:3.6587 train_time:96304ms step_avg:166.90ms
step:588/1530 train_loss:3.6339 train_time:96474ms step_avg:166.91ms
step:589/1530 train_loss:3.9897 train_time:96646ms step_avg:166.92ms
step:590/1530 train_loss:3.7739 train_time:96817ms step_avg:166.93ms
step:591/1530 train_loss:3.4997 train_time:96988ms step_avg:166.93ms
step:592/1530 train_loss:3.5298 train_time:97161ms step_avg:166.94ms
step:593/1530 train_loss:3.4915 train_time:97333ms step_avg:166.95ms
step:594/1530 train_loss:3.5442 train_time:97505ms step_avg:166.96ms
step:595/1530 train_loss:3.9081 train_time:97678ms step_avg:166.97ms
step:596/1530 train_loss:3.6425 train_time:97851ms step_avg:166.98ms
step:597/1530 train_loss:3.5844 train_time:98021ms step_avg:166.99ms
step:598/1530 train_loss:3.6464 train_time:98191ms step_avg:166.99ms
step:599/1530 train_loss:3.4764 train_time:98362ms step_avg:167.00ms
step:600/1530 train_loss:3.5879 train_time:98533ms step_avg:167.00ms
step:601/1530 train_loss:3.6465 train_time:98708ms step_avg:167.02ms
step:602/1530 train_loss:3.6630 train_time:98881ms step_avg:167.03ms
step:603/1530 train_loss:3.7735 train_time:99053ms step_avg:167.04ms
step:604/1530 train_loss:3.5978 train_time:99225ms step_avg:167.05ms
step:605/1530 train_loss:3.6101 train_time:99397ms step_avg:167.05ms
step:606/1530 train_loss:3.5713 train_time:99570ms step_avg:167.06ms
step:607/1530 train_loss:3.8330 train_time:99743ms step_avg:167.07ms
step:608/1530 train_loss:3.6263 train_time:99913ms step_avg:167.08ms
step:609/1530 train_loss:3.6117 train_time:100085ms step_avg:167.09ms
step:610/1530 train_loss:3.6942 train_time:100254ms step_avg:167.09ms
step:611/1530 train_loss:3.5925 train_time:100427ms step_avg:167.10ms
step:612/1530 train_loss:3.5639 train_time:100598ms step_avg:167.11ms
step:613/1530 train_loss:3.7569 train_time:100768ms step_avg:167.11ms
step:614/1530 train_loss:3.6916 train_time:100941ms step_avg:167.12ms
step:615/1530 train_loss:3.6779 train_time:101111ms step_avg:167.13ms
step:616/1530 train_loss:3.6220 train_time:101282ms step_avg:167.13ms
step:617/1530 train_loss:3.5425 train_time:101453ms step_avg:167.14ms
step:618/1530 train_loss:3.6825 train_time:101623ms step_avg:167.14ms
step:619/1530 train_loss:3.5421 train_time:101793ms step_avg:167.15ms
step:620/1530 train_loss:3.5813 train_time:101964ms step_avg:167.15ms
step:621/1530 train_loss:3.9242 train_time:102137ms step_avg:167.16ms
step:622/1530 train_loss:3.5669 train_time:102309ms step_avg:167.17ms
step:623/1530 train_loss:3.5940 train_time:102482ms step_avg:167.18ms
step:624/1530 train_loss:3.6814 train_time:102652ms step_avg:167.19ms
step:625/1530 train_loss:3.6945 train_time:102823ms step_avg:167.19ms
step:625/1530 val_loss:3.6161 train_time:102872ms step_avg:167.27ms
step:626/1530 train_loss:3.7294 train_time:102992ms step_avg:167.19ms
step:627/1530 train_loss:3.7032 train_time:103165ms step_avg:167.20ms
step:628/1530 train_loss:3.7523 train_time:103333ms step_avg:167.21ms
step:629/1530 train_loss:3.5853 train_time:103505ms step_avg:167.21ms
step:630/1530 train_loss:3.7151 train_time:103676ms step_avg:167.22ms
step:631/1530 train_loss:3.7307 train_time:103846ms step_avg:167.22ms
step:632/1530 train_loss:3.6369 train_time:104019ms step_avg:167.23ms
step:633/1530 train_loss:3.5947 train_time:104189ms step_avg:167.24ms
step:634/1530 train_loss:3.6894 train_time:104360ms step_avg:167.24ms
step:635/1530 train_loss:3.9407 train_time:104528ms step_avg:167.25ms
step:636/1530 train_loss:3.5430 train_time:104700ms step_avg:167.25ms
step:637/1530 train_loss:3.3477 train_time:104870ms step_avg:167.26ms
step:638/1530 train_loss:3.5859 train_time:105040ms step_avg:167.26ms
step:639/1530 train_loss:3.6323 train_time:105210ms step_avg:167.27ms
step:640/1530 train_loss:3.5677 train_time:105382ms step_avg:167.27ms
step:641/1530 train_loss:3.5804 train_time:105550ms step_avg:167.27ms
step:642/1530 train_loss:3.6210 train_time:105719ms step_avg:167.28ms
step:643/1530 train_loss:3.5856 train_time:105890ms step_avg:167.28ms
step:644/1530 train_loss:3.5592 train_time:106060ms step_avg:167.29ms
step:645/1530 train_loss:3.7738 train_time:106231ms step_avg:167.29ms
step:646/1530 train_loss:3.6663 train_time:106403ms step_avg:167.30ms
step:647/1530 train_loss:3.6553 train_time:106573ms step_avg:167.30ms
step:648/1530 train_loss:3.7007 train_time:106745ms step_avg:167.31ms
step:649/1530 train_loss:3.7543 train_time:106915ms step_avg:167.32ms
step:650/1530 train_loss:3.6115 train_time:107085ms step_avg:167.32ms
step:651/1530 train_loss:3.7614 train_time:107257ms step_avg:167.33ms
step:652/1530 train_loss:3.5778 train_time:107427ms step_avg:167.33ms
step:653/1530 train_loss:3.6531 train_time:107598ms step_avg:167.34ms
step:654/1530 train_loss:3.4209 train_time:107769ms step_avg:167.34ms
step:655/1530 train_loss:3.5715 train_time:107938ms step_avg:167.35ms
step:656/1530 train_loss:3.5702 train_time:108107ms step_avg:167.35ms
step:657/1530 train_loss:3.4879 train_time:108278ms step_avg:167.35ms
step:658/1530 train_loss:3.6767 train_time:108448ms step_avg:167.36ms
step:659/1530 train_loss:3.5755 train_time:108618ms step_avg:167.36ms
step:660/1530 train_loss:3.6733 train_time:108788ms step_avg:167.37ms
step:661/1530 train_loss:3.7485 train_time:108959ms step_avg:167.37ms
step:662/1530 train_loss:3.6609 train_time:109129ms step_avg:167.38ms
step:663/1530 train_loss:3.5487 train_time:109299ms step_avg:167.38ms
step:664/1530 train_loss:3.5988 train_time:109470ms step_avg:167.38ms
step:665/1530 train_loss:3.4860 train_time:109641ms step_avg:167.39ms
step:666/1530 train_loss:3.7738 train_time:109811ms step_avg:167.39ms
step:667/1530 train_loss:3.5962 train_time:109982ms step_avg:167.40ms
step:668/1530 train_loss:3.6438 train_time:110152ms step_avg:167.40ms
step:669/1530 train_loss:3.4806 train_time:110323ms step_avg:167.41ms
step:670/1530 train_loss:3.5946 train_time:110493ms step_avg:167.41ms
step:671/1530 train_loss:3.5541 train_time:110665ms step_avg:167.42ms
step:672/1530 train_loss:3.5599 train_time:110837ms step_avg:167.43ms
step:673/1530 train_loss:3.8485 train_time:111007ms step_avg:167.43ms
step:674/1530 train_loss:3.6148 train_time:111178ms step_avg:167.44ms
step:675/1530 train_loss:3.7014 train_time:111349ms step_avg:167.44ms
step:676/1530 train_loss:3.4850 train_time:111520ms step_avg:167.45ms
step:677/1530 train_loss:3.5896 train_time:111690ms step_avg:167.45ms
step:678/1530 train_loss:3.5530 train_time:111863ms step_avg:167.46ms
step:679/1530 train_loss:3.6713 train_time:112033ms step_avg:167.46ms
step:680/1530 train_loss:3.5785 train_time:112204ms step_avg:167.47ms
step:681/1530 train_loss:3.6110 train_time:112377ms step_avg:167.48ms
step:682/1530 train_loss:3.6568 train_time:112552ms step_avg:167.49ms
step:683/1530 train_loss:3.7298 train_time:112724ms step_avg:167.49ms
step:684/1530 train_loss:3.6409 train_time:112896ms step_avg:167.50ms
step:685/1530 train_loss:3.6767 train_time:113070ms step_avg:167.51ms
step:686/1530 train_loss:3.6300 train_time:113243ms step_avg:167.52ms
step:687/1530 train_loss:3.6549 train_time:113414ms step_avg:167.53ms
step:688/1530 train_loss:3.2078 train_time:113590ms step_avg:167.54ms
step:689/1530 train_loss:3.3962 train_time:113765ms step_avg:167.55ms
step:690/1530 train_loss:3.5346 train_time:113940ms step_avg:167.56ms
step:691/1530 train_loss:3.3998 train_time:114111ms step_avg:167.56ms
step:692/1530 train_loss:3.6184 train_time:114284ms step_avg:167.57ms
step:693/1530 train_loss:3.6362 train_time:114457ms step_avg:167.58ms
step:694/1530 train_loss:3.5474 train_time:114628ms step_avg:167.58ms
step:695/1530 train_loss:3.5291 train_time:114799ms step_avg:167.59ms
step:696/1530 train_loss:3.8526 train_time:114972ms step_avg:167.60ms
step:697/1530 train_loss:3.5816 train_time:115145ms step_avg:167.61ms
step:698/1530 train_loss:3.6373 train_time:115317ms step_avg:167.61ms
step:699/1530 train_loss:3.7588 train_time:115491ms step_avg:167.62ms
step:700/1530 train_loss:3.5640 train_time:115664ms step_avg:167.63ms
step:701/1530 train_loss:3.5417 train_time:115835ms step_avg:167.63ms
step:702/1530 train_loss:3.5069 train_time:116008ms step_avg:167.64ms
step:703/1530 train_loss:3.4967 train_time:116181ms step_avg:167.65ms
step:704/1530 train_loss:3.5673 train_time:116352ms step_avg:167.65ms
step:705/1530 train_loss:3.5515 train_time:116527ms step_avg:167.66ms
step:706/1530 train_loss:3.5725 train_time:116702ms step_avg:167.67ms
step:707/1530 train_loss:3.6406 train_time:116876ms step_avg:167.69ms
step:708/1530 train_loss:3.5996 train_time:117050ms step_avg:167.69ms
step:709/1530 train_loss:3.5753 train_time:117224ms step_avg:167.70ms
step:710/1530 train_loss:3.5311 train_time:117396ms step_avg:167.71ms
step:711/1530 train_loss:3.5848 train_time:117570ms step_avg:167.72ms
step:712/1530 train_loss:3.6427 train_time:117746ms step_avg:167.73ms
step:713/1530 train_loss:3.6509 train_time:117922ms step_avg:167.74ms
step:714/1530 train_loss:3.5558 train_time:118094ms step_avg:167.75ms
step:715/1530 train_loss:3.5650 train_time:118265ms step_avg:167.75ms
step:716/1530 train_loss:3.5781 train_time:118438ms step_avg:167.76ms
step:717/1530 train_loss:3.7020 train_time:118612ms step_avg:167.77ms
step:718/1530 train_loss:3.5901 train_time:118785ms step_avg:167.78ms
step:719/1530 train_loss:3.6719 train_time:118958ms step_avg:167.78ms
step:720/1530 train_loss:3.8462 train_time:119131ms step_avg:167.79ms
step:721/1530 train_loss:3.4641 train_time:119304ms step_avg:167.80ms
step:722/1530 train_loss:3.7317 train_time:119477ms step_avg:167.80ms
step:723/1530 train_loss:3.7642 train_time:119648ms step_avg:167.81ms
step:724/1530 train_loss:3.5651 train_time:119822ms step_avg:167.82ms
step:725/1530 train_loss:3.6489 train_time:119993ms step_avg:167.82ms
step:726/1530 train_loss:3.5247 train_time:120168ms step_avg:167.83ms
step:727/1530 train_loss:3.5775 train_time:120343ms step_avg:167.84ms
step:728/1530 train_loss:3.7186 train_time:120516ms step_avg:167.85ms
step:729/1530 train_loss:3.6671 train_time:120688ms step_avg:167.85ms
step:730/1530 train_loss:3.6610 train_time:120861ms step_avg:167.86ms
step:731/1530 train_loss:3.5497 train_time:121033ms step_avg:167.87ms
step:732/1530 train_loss:3.5889 train_time:121205ms step_avg:167.87ms
step:733/1530 train_loss:3.8234 train_time:121380ms step_avg:167.88ms
step:734/1530 train_loss:3.5551 train_time:121554ms step_avg:167.89ms
step:735/1530 train_loss:3.6090 train_time:121725ms step_avg:167.90ms
step:736/1530 train_loss:3.7341 train_time:121897ms step_avg:167.90ms
step:737/1530 train_loss:3.6732 train_time:122069ms step_avg:167.91ms
step:738/1530 train_loss:3.5944 train_time:122240ms step_avg:167.91ms
step:739/1530 train_loss:3.4956 train_time:122411ms step_avg:167.92ms
step:740/1530 train_loss:4.1007 train_time:122589ms step_avg:167.93ms
step:741/1530 train_loss:3.4859 train_time:122761ms step_avg:167.94ms
step:742/1530 train_loss:3.5388 train_time:122932ms step_avg:167.94ms
step:743/1530 train_loss:3.5728 train_time:123105ms step_avg:167.95ms
step:744/1530 train_loss:3.6426 train_time:123278ms step_avg:167.95ms
step:745/1530 train_loss:3.5796 train_time:123450ms step_avg:167.96ms
step:746/1530 train_loss:3.5909 train_time:123622ms step_avg:167.97ms
step:747/1530 train_loss:3.6417 train_time:123796ms step_avg:167.97ms
step:748/1530 train_loss:3.5566 train_time:123973ms step_avg:167.99ms
step:749/1530 train_loss:3.5533 train_time:124144ms step_avg:167.99ms
step:750/1530 train_loss:3.5907 train_time:124315ms step_avg:167.99ms
step:750/1530 val_loss:3.5584 train_time:124364ms step_avg:168.06ms
step:751/1530 train_loss:3.5711 train_time:124486ms step_avg:168.00ms
step:752/1530 train_loss:3.6107 train_time:124657ms step_avg:168.00ms
step:753/1530 train_loss:3.6136 train_time:124831ms step_avg:168.01ms
step:754/1530 train_loss:3.5904 train_time:125003ms step_avg:168.01ms
step:755/1530 train_loss:3.6768 train_time:125311ms step_avg:168.20ms
step:756/1530 train_loss:3.4527 train_time:125496ms step_avg:168.23ms
step:757/1530 train_loss:3.7189 train_time:125672ms step_avg:168.24ms
step:758/1530 train_loss:3.6405 train_time:125843ms step_avg:168.24ms
step:759/1530 train_loss:3.5839 train_time:126162ms step_avg:168.44ms
step:760/1530 train_loss:3.6972 train_time:126333ms step_avg:168.44ms
step:761/1530 train_loss:3.4003 train_time:126505ms step_avg:168.45ms
step:762/1530 train_loss:3.5390 train_time:126678ms step_avg:168.45ms
step:763/1530 train_loss:3.6543 train_time:126849ms step_avg:168.46ms
step:764/1530 train_loss:3.3143 train_time:127021ms step_avg:168.46ms
step:765/1530 train_loss:3.7287 train_time:127194ms step_avg:168.47ms
step:766/1530 train_loss:3.5589 train_time:127367ms step_avg:168.47ms
step:767/1530 train_loss:3.5587 train_time:127539ms step_avg:168.48ms
step:768/1530 train_loss:3.5625 train_time:127713ms step_avg:168.49ms
step:769/1530 train_loss:3.5772 train_time:127887ms step_avg:168.49ms
step:770/1530 train_loss:3.6324 train_time:128058ms step_avg:168.50ms
step:771/1530 train_loss:3.8758 train_time:128231ms step_avg:168.50ms
step:772/1530 train_loss:3.4447 train_time:128402ms step_avg:168.51ms
step:773/1530 train_loss:3.6198 train_time:128574ms step_avg:168.51ms
step:774/1530 train_loss:3.6340 train_time:128743ms step_avg:168.51ms
step:775/1530 train_loss:3.5994 train_time:128917ms step_avg:168.52ms
step:776/1530 train_loss:3.3910 train_time:129089ms step_avg:168.52ms
step:777/1530 train_loss:3.3726 train_time:129261ms step_avg:168.53ms
step:778/1530 train_loss:3.4859 train_time:129433ms step_avg:168.53ms
step:779/1530 train_loss:3.5758 train_time:129604ms step_avg:168.54ms
step:780/1530 train_loss:3.5801 train_time:129778ms step_avg:168.54ms
step:781/1530 train_loss:3.6714 train_time:129951ms step_avg:168.55ms
step:782/1530 train_loss:3.5881 train_time:130123ms step_avg:168.55ms
step:783/1530 train_loss:3.5642 train_time:130294ms step_avg:168.56ms
step:784/1530 train_loss:3.6001 train_time:130464ms step_avg:168.56ms
step:785/1530 train_loss:3.5539 train_time:130636ms step_avg:168.56ms
step:786/1530 train_loss:3.4285 train_time:130810ms step_avg:168.57ms
step:787/1530 train_loss:3.7545 train_time:130981ms step_avg:168.57ms
step:788/1530 train_loss:3.4984 train_time:131155ms step_avg:168.58ms
step:789/1530 train_loss:3.5430 train_time:131325ms step_avg:168.58ms
step:790/1530 train_loss:3.6252 train_time:131500ms step_avg:168.59ms
step:791/1530 train_loss:3.7653 train_time:131676ms step_avg:168.60ms
step:792/1530 train_loss:3.7533 train_time:131848ms step_avg:168.60ms
step:793/1530 train_loss:3.4445 train_time:132020ms step_avg:168.61ms
step:794/1530 train_loss:3.5860 train_time:132194ms step_avg:168.61ms
step:795/1530 train_loss:3.6689 train_time:132368ms step_avg:168.62ms
step:796/1530 train_loss:3.7523 train_time:132544ms step_avg:168.63ms
step:797/1530 train_loss:3.5194 train_time:132718ms step_avg:168.64ms
step:798/1530 train_loss:3.6363 train_time:132894ms step_avg:168.65ms
step:799/1530 train_loss:3.5343 train_time:133069ms step_avg:168.66ms
step:800/1530 train_loss:3.5233 train_time:133243ms step_avg:168.66ms
step:801/1530 train_loss:3.6208 train_time:133418ms step_avg:168.67ms
step:802/1530 train_loss:3.4853 train_time:133594ms step_avg:168.68ms
step:803/1530 train_loss:3.4774 train_time:133767ms step_avg:168.68ms
step:804/1530 train_loss:3.6161 train_time:133940ms step_avg:168.69ms
step:805/1530 train_loss:3.5111 train_time:134117ms step_avg:168.70ms
step:806/1530 train_loss:3.5514 train_time:134290ms step_avg:168.71ms
step:807/1530 train_loss:3.6376 train_time:134462ms step_avg:168.71ms
step:808/1530 train_loss:3.5411 train_time:134638ms step_avg:168.72ms
step:809/1530 train_loss:3.4852 train_time:134813ms step_avg:168.73ms
step:810/1530 train_loss:3.5516 train_time:134984ms step_avg:168.73ms
step:811/1530 train_loss:3.5756 train_time:135157ms step_avg:168.74ms
step:812/1530 train_loss:3.5944 train_time:135329ms step_avg:168.74ms
step:813/1530 train_loss:3.6184 train_time:135501ms step_avg:168.74ms
step:814/1530 train_loss:3.5592 train_time:135676ms step_avg:168.75ms
step:815/1530 train_loss:3.5546 train_time:135850ms step_avg:168.76ms
step:816/1530 train_loss:3.6749 train_time:136025ms step_avg:168.76ms
step:817/1530 train_loss:3.7630 train_time:136199ms step_avg:168.77ms
step:818/1530 train_loss:3.5156 train_time:136371ms step_avg:168.78ms
step:819/1530 train_loss:3.7132 train_time:136545ms step_avg:168.78ms
step:820/1530 train_loss:3.4864 train_time:136721ms step_avg:168.79ms
step:821/1530 train_loss:3.5551 train_time:136895ms step_avg:168.80ms
step:822/1530 train_loss:3.6925 train_time:137071ms step_avg:168.81ms
step:823/1530 train_loss:3.5636 train_time:137244ms step_avg:168.81ms
step:824/1530 train_loss:3.5113 train_time:137417ms step_avg:168.82ms
step:825/1530 train_loss:3.6117 train_time:137594ms step_avg:168.83ms
step:826/1530 train_loss:3.4752 train_time:137768ms step_avg:168.83ms
step:827/1530 train_loss:3.7290 train_time:137942ms step_avg:168.84ms
step:828/1530 train_loss:3.6221 train_time:138115ms step_avg:168.85ms
step:829/1530 train_loss:3.6186 train_time:138292ms step_avg:168.86ms
step:830/1530 train_loss:3.5321 train_time:138465ms step_avg:168.86ms
step:831/1530 train_loss:3.5994 train_time:138640ms step_avg:168.87ms
step:832/1530 train_loss:3.5084 train_time:138816ms step_avg:168.88ms
step:833/1530 train_loss:3.6452 train_time:138991ms step_avg:168.88ms
step:834/1530 train_loss:3.4652 train_time:139164ms step_avg:168.89ms
step:835/1530 train_loss:3.4528 train_time:139338ms step_avg:168.89ms
step:836/1530 train_loss:3.7115 train_time:139514ms step_avg:168.90ms
step:837/1530 train_loss:3.3931 train_time:139688ms step_avg:168.91ms
step:838/1530 train_loss:3.5893 train_time:139861ms step_avg:168.91ms
step:839/1530 train_loss:3.4167 train_time:140036ms step_avg:168.92ms
step:840/1530 train_loss:3.4591 train_time:140209ms step_avg:168.93ms
step:841/1530 train_loss:3.5624 train_time:140382ms step_avg:168.93ms
step:842/1530 train_loss:3.5779 train_time:140557ms step_avg:168.94ms
step:843/1530 train_loss:3.5532 train_time:140729ms step_avg:168.94ms
step:844/1530 train_loss:3.4210 train_time:140902ms step_avg:168.95ms
step:845/1530 train_loss:3.6613 train_time:141077ms step_avg:168.95ms
step:846/1530 train_loss:3.5083 train_time:141253ms step_avg:168.96ms
step:847/1530 train_loss:3.4905 train_time:141427ms step_avg:168.97ms
step:848/1530 train_loss:3.6412 train_time:141601ms step_avg:168.97ms
step:849/1530 train_loss:3.4852 train_time:141774ms step_avg:168.98ms
step:850/1530 train_loss:3.4320 train_time:141948ms step_avg:168.99ms
step:851/1530 train_loss:3.7304 train_time:142122ms step_avg:168.99ms
step:852/1530 train_loss:3.4317 train_time:142296ms step_avg:169.00ms
step:853/1530 train_loss:3.5623 train_time:142468ms step_avg:169.00ms
step:854/1530 train_loss:3.6464 train_time:142643ms step_avg:169.01ms
step:855/1530 train_loss:3.5131 train_time:142817ms step_avg:169.01ms
step:856/1530 train_loss:3.5478 train_time:142993ms step_avg:169.02ms
step:857/1530 train_loss:3.6009 train_time:143166ms step_avg:169.03ms
step:858/1530 train_loss:3.4577 train_time:143341ms step_avg:169.03ms
step:859/1530 train_loss:3.5539 train_time:143516ms step_avg:169.04ms
step:860/1530 train_loss:3.5837 train_time:143688ms step_avg:169.04ms
step:861/1530 train_loss:3.6297 train_time:143863ms step_avg:169.05ms
step:862/1530 train_loss:3.6008 train_time:144041ms step_avg:169.06ms
step:863/1530 train_loss:3.5672 train_time:144218ms step_avg:169.07ms
step:864/1530 train_loss:3.3737 train_time:144392ms step_avg:169.08ms
step:865/1530 train_loss:3.5908 train_time:144563ms step_avg:169.08ms
step:866/1530 train_loss:3.8963 train_time:144741ms step_avg:169.09ms
step:867/1530 train_loss:3.4544 train_time:144913ms step_avg:169.09ms
step:868/1530 train_loss:3.6361 train_time:145085ms step_avg:169.10ms
step:869/1530 train_loss:3.6101 train_time:145258ms step_avg:169.10ms
step:870/1530 train_loss:3.4446 train_time:145433ms step_avg:169.11ms
step:871/1530 train_loss:3.3866 train_time:145605ms step_avg:169.11ms
step:872/1530 train_loss:3.6384 train_time:145781ms step_avg:169.12ms
step:873/1530 train_loss:3.4520 train_time:145955ms step_avg:169.13ms
step:874/1530 train_loss:3.2255 train_time:146132ms step_avg:169.13ms
step:875/1530 train_loss:3.6254 train_time:146305ms step_avg:169.14ms
step:875/1530 val_loss:3.5126 train_time:146355ms step_avg:169.20ms
step:876/1530 train_loss:3.4346 train_time:146481ms step_avg:169.15ms
step:877/1530 train_loss:3.6156 train_time:146657ms step_avg:169.15ms
step:878/1530 train_loss:3.4627 train_time:146831ms step_avg:169.16ms
step:879/1530 train_loss:3.6435 train_time:147004ms step_avg:169.16ms
step:880/1530 train_loss:3.2998 train_time:147176ms step_avg:169.17ms
step:881/1530 train_loss:3.4708 train_time:147347ms step_avg:169.17ms
step:882/1530 train_loss:3.6855 train_time:147521ms step_avg:169.18ms
step:883/1530 train_loss:3.8346 train_time:147692ms step_avg:169.18ms
step:884/1530 train_loss:3.5586 train_time:147867ms step_avg:169.18ms
step:885/1530 train_loss:3.4947 train_time:148040ms step_avg:169.19ms
step:886/1530 train_loss:3.5713 train_time:148213ms step_avg:169.19ms
step:887/1530 train_loss:4.0823 train_time:148386ms step_avg:169.20ms
step:888/1530 train_loss:3.8370 train_time:148565ms step_avg:169.21ms
step:889/1530 train_loss:3.5160 train_time:148738ms step_avg:169.21ms
step:890/1530 train_loss:3.5255 train_time:148910ms step_avg:169.22ms
step:891/1530 train_loss:3.3543 train_time:149083ms step_avg:169.22ms
step:892/1530 train_loss:3.7136 train_time:149256ms step_avg:169.22ms
step:893/1530 train_loss:3.4120 train_time:149428ms step_avg:169.23ms
step:894/1530 train_loss:3.6219 train_time:149604ms step_avg:169.24ms
step:895/1530 train_loss:3.6731 train_time:149778ms step_avg:169.24ms
step:896/1530 train_loss:3.4902 train_time:149951ms step_avg:169.25ms
step:897/1530 train_loss:3.5354 train_time:150126ms step_avg:169.25ms
step:898/1530 train_loss:3.5883 train_time:150302ms step_avg:169.26ms
step:899/1530 train_loss:3.4717 train_time:150476ms step_avg:169.26ms
step:900/1530 train_loss:3.4178 train_time:150647ms step_avg:169.27ms
step:901/1530 train_loss:3.6178 train_time:150821ms step_avg:169.27ms
step:902/1530 train_loss:3.6310 train_time:150993ms step_avg:169.27ms
step:903/1530 train_loss:3.5373 train_time:151168ms step_avg:169.28ms
step:904/1530 train_loss:3.4914 train_time:151344ms step_avg:169.29ms
step:905/1530 train_loss:3.4995 train_time:151515ms step_avg:169.29ms
step:906/1530 train_loss:3.7008 train_time:151688ms step_avg:169.29ms
step:907/1530 train_loss:3.5050 train_time:151862ms step_avg:169.30ms
step:908/1530 train_loss:3.5602 train_time:152034ms step_avg:169.30ms
step:909/1530 train_loss:3.4462 train_time:152211ms step_avg:169.31ms
step:910/1530 train_loss:3.5198 train_time:152390ms step_avg:169.32ms
step:911/1530 train_loss:3.6384 train_time:152567ms step_avg:169.33ms
step:912/1530 train_loss:3.5943 train_time:152745ms step_avg:169.34ms
step:913/1530 train_loss:3.4537 train_time:152924ms step_avg:169.35ms
step:914/1530 train_loss:3.7344 train_time:153102ms step_avg:169.36ms
step:915/1530 train_loss:3.5236 train_time:153283ms step_avg:169.37ms
step:916/1530 train_loss:3.6150 train_time:153460ms step_avg:169.38ms
step:917/1530 train_loss:3.5941 train_time:153633ms step_avg:169.39ms
step:918/1530 train_loss:4.8218 train_time:153813ms step_avg:169.40ms
step:919/1530 train_loss:3.4917 train_time:153990ms step_avg:169.41ms
step:920/1530 train_loss:3.5835 train_time:154164ms step_avg:169.41ms
step:921/1530 train_loss:3.5441 train_time:154344ms step_avg:169.42ms
step:922/1530 train_loss:3.5766 train_time:154522ms step_avg:169.43ms
step:923/1530 train_loss:3.6083 train_time:154696ms step_avg:169.44ms
step:924/1530 train_loss:3.6824 train_time:154871ms step_avg:169.44ms
step:925/1530 train_loss:3.6387 train_time:155046ms step_avg:169.45ms
step:926/1530 train_loss:3.5545 train_time:155219ms step_avg:169.45ms
step:927/1530 train_loss:3.5487 train_time:155391ms step_avg:169.46ms
step:928/1530 train_loss:3.7787 train_time:155568ms step_avg:169.46ms
step:929/1530 train_loss:3.6012 train_time:155744ms step_avg:169.47ms
step:930/1530 train_loss:3.3963 train_time:155921ms step_avg:169.48ms
step:931/1530 train_loss:3.4896 train_time:156093ms step_avg:169.48ms
step:932/1530 train_loss:3.6442 train_time:156270ms step_avg:169.49ms
step:933/1530 train_loss:3.3686 train_time:156446ms step_avg:169.50ms
step:934/1530 train_loss:3.5797 train_time:156624ms step_avg:169.51ms
step:935/1530 train_loss:3.4298 train_time:156801ms step_avg:169.51ms
step:936/1530 train_loss:3.5117 train_time:156979ms step_avg:169.52ms
step:937/1530 train_loss:3.6138 train_time:157157ms step_avg:169.53ms
step:938/1530 train_loss:3.5373 train_time:157330ms step_avg:169.54ms
step:939/1530 train_loss:3.6621 train_time:157510ms step_avg:169.55ms
step:940/1530 train_loss:3.4791 train_time:157685ms step_avg:169.55ms
step:941/1530 train_loss:3.5469 train_time:157860ms step_avg:169.56ms
step:942/1530 train_loss:3.3557 train_time:158039ms step_avg:169.57ms
step:943/1530 train_loss:3.7120 train_time:158219ms step_avg:169.58ms
step:944/1530 train_loss:3.3975 train_time:158534ms step_avg:169.74ms
step:945/1530 train_loss:3.4151 train_time:158718ms step_avg:169.75ms
step:946/1530 train_loss:5.0797 train_time:158897ms step_avg:169.76ms
step:947/1530 train_loss:3.5941 train_time:159072ms step_avg:169.77ms
step:948/1530 train_loss:3.4870 train_time:159247ms step_avg:169.77ms
step:949/1530 train_loss:3.3673 train_time:159569ms step_avg:169.93ms
step:950/1530 train_loss:3.4324 train_time:159744ms step_avg:169.94ms
step:951/1530 train_loss:3.4034 train_time:159924ms step_avg:169.95ms
step:952/1530 train_loss:3.4746 train_time:160101ms step_avg:169.96ms
step:953/1530 train_loss:3.5645 train_time:160278ms step_avg:169.97ms
step:954/1530 train_loss:3.4415 train_time:160455ms step_avg:169.97ms
step:955/1530 train_loss:3.4712 train_time:160629ms step_avg:169.98ms
step:956/1530 train_loss:3.4409 train_time:160805ms step_avg:169.98ms
step:957/1530 train_loss:3.4874 train_time:160984ms step_avg:169.99ms
step:958/1530 train_loss:3.5028 train_time:161164ms step_avg:170.00ms
step:959/1530 train_loss:3.5028 train_time:161342ms step_avg:170.01ms
step:960/1530 train_loss:3.4004 train_time:161521ms step_avg:170.02ms
step:961/1530 train_loss:3.6387 train_time:161696ms step_avg:170.03ms
step:962/1530 train_loss:3.5858 train_time:161870ms step_avg:170.03ms
step:963/1530 train_loss:3.7158 train_time:162047ms step_avg:170.04ms
step:964/1530 train_loss:3.4237 train_time:162226ms step_avg:170.05ms
step:965/1530 train_loss:3.4743 train_time:162400ms step_avg:170.05ms
step:966/1530 train_loss:3.7045 train_time:162574ms step_avg:170.06ms
step:967/1530 train_loss:3.5179 train_time:162748ms step_avg:170.06ms
step:968/1530 train_loss:3.5108 train_time:162924ms step_avg:170.07ms
step:969/1530 train_loss:3.5872 train_time:163099ms step_avg:170.07ms
step:970/1530 train_loss:3.3738 train_time:163271ms step_avg:170.07ms
step:971/1530 train_loss:3.5280 train_time:163446ms step_avg:170.08ms
step:972/1530 train_loss:3.4793 train_time:163619ms step_avg:170.08ms
step:973/1530 train_loss:3.5341 train_time:163791ms step_avg:170.08ms
step:974/1530 train_loss:3.5887 train_time:163969ms step_avg:170.09ms
step:975/1530 train_loss:3.4598 train_time:164145ms step_avg:170.10ms
step:976/1530 train_loss:3.6708 train_time:164320ms step_avg:170.10ms
step:977/1530 train_loss:3.5669 train_time:164494ms step_avg:170.11ms
step:978/1530 train_loss:3.3496 train_time:164668ms step_avg:170.11ms
step:979/1530 train_loss:3.6264 train_time:164844ms step_avg:170.12ms
step:980/1530 train_loss:3.4095 train_time:165021ms step_avg:170.12ms
step:981/1530 train_loss:3.5700 train_time:165200ms step_avg:170.13ms
step:982/1530 train_loss:3.5371 train_time:165373ms step_avg:170.14ms
step:983/1530 train_loss:3.5064 train_time:165550ms step_avg:170.14ms
step:984/1530 train_loss:3.4889 train_time:165725ms step_avg:170.15ms
step:985/1530 train_loss:3.5654 train_time:165904ms step_avg:170.16ms
step:986/1530 train_loss:3.4058 train_time:166079ms step_avg:170.16ms
step:987/1530 train_loss:3.4809 train_time:166251ms step_avg:170.16ms
step:988/1530 train_loss:3.4713 train_time:166426ms step_avg:170.17ms
step:989/1530 train_loss:3.4126 train_time:166601ms step_avg:170.17ms
step:990/1530 train_loss:3.6523 train_time:166777ms step_avg:170.18ms
step:991/1530 train_loss:3.4687 train_time:166951ms step_avg:170.18ms
step:992/1530 train_loss:3.4385 train_time:167131ms step_avg:170.19ms
step:993/1530 train_loss:3.4967 train_time:167310ms step_avg:170.20ms
step:994/1530 train_loss:3.5903 train_time:167483ms step_avg:170.21ms
step:995/1530 train_loss:3.5236 train_time:167656ms step_avg:170.21ms
step:996/1530 train_loss:3.4508 train_time:167829ms step_avg:170.21ms
step:997/1530 train_loss:3.7499 train_time:168003ms step_avg:170.22ms
step:998/1530 train_loss:3.4414 train_time:168175ms step_avg:170.22ms
step:999/1530 train_loss:3.5864 train_time:168349ms step_avg:170.22ms
step:1000/1530 train_loss:3.4365 train_time:168527ms step_avg:170.23ms
step:1000/1530 val_loss:3.4631 train_time:168578ms step_avg:170.28ms
step:1001/1530 train_loss:3.4967 train_time:168702ms step_avg:170.23ms
step:1002/1530 train_loss:3.3714 train_time:168875ms step_avg:170.24ms
step:1003/1530 train_loss:3.5500 train_time:169052ms step_avg:170.24ms
step:1004/1530 train_loss:3.5989 train_time:169227ms step_avg:170.25ms
step:1005/1530 train_loss:3.3905 train_time:169401ms step_avg:170.25ms
step:1006/1530 train_loss:3.4610 train_time:169578ms step_avg:170.26ms
step:1007/1530 train_loss:3.4367 train_time:169755ms step_avg:170.27ms
step:1008/1530 train_loss:3.5537 train_time:169930ms step_avg:170.27ms
step:1009/1530 train_loss:3.6566 train_time:170109ms step_avg:170.28ms
step:1010/1530 train_loss:3.5539 train_time:170281ms step_avg:170.28ms
step:1011/1530 train_loss:3.5293 train_time:170456ms step_avg:170.29ms
step:1012/1530 train_loss:3.3894 train_time:170631ms step_avg:170.29ms
step:1013/1530 train_loss:3.5326 train_time:170806ms step_avg:170.30ms
step:1014/1530 train_loss:3.6171 train_time:170982ms step_avg:170.30ms
step:1015/1530 train_loss:3.3284 train_time:171159ms step_avg:170.31ms
step:1016/1530 train_loss:3.4100 train_time:171333ms step_avg:170.31ms
step:1017/1530 train_loss:3.3865 train_time:171510ms step_avg:170.32ms
step:1018/1530 train_loss:3.3950 train_time:171682ms step_avg:170.32ms
step:1019/1530 train_loss:3.5183 train_time:171858ms step_avg:170.33ms
step:1020/1530 train_loss:3.3670 train_time:172035ms step_avg:170.33ms
step:1021/1530 train_loss:3.3506 train_time:172211ms step_avg:170.34ms
step:1022/1530 train_loss:3.4722 train_time:172386ms step_avg:170.34ms
step:1023/1530 train_loss:3.4979 train_time:172562ms step_avg:170.35ms
step:1024/1530 train_loss:3.4746 train_time:172741ms step_avg:170.36ms
step:1025/1530 train_loss:3.4731 train_time:172919ms step_avg:170.36ms
step:1026/1530 train_loss:3.6119 train_time:173094ms step_avg:170.37ms
step:1027/1530 train_loss:3.3160 train_time:173271ms step_avg:170.37ms
step:1028/1530 train_loss:3.3910 train_time:173453ms step_avg:170.39ms
step:1029/1530 train_loss:3.3046 train_time:173635ms step_avg:170.40ms
step:1030/1530 train_loss:3.5347 train_time:173811ms step_avg:170.40ms
step:1031/1530 train_loss:3.5041 train_time:173986ms step_avg:170.41ms
step:1032/1530 train_loss:3.6941 train_time:174168ms step_avg:170.42ms
step:1033/1530 train_loss:3.4867 train_time:174344ms step_avg:170.42ms
step:1034/1530 train_loss:3.3931 train_time:174520ms step_avg:170.43ms
step:1035/1530 train_loss:3.4394 train_time:174697ms step_avg:170.44ms
step:1036/1530 train_loss:3.4775 train_time:174875ms step_avg:170.44ms
step:1037/1530 train_loss:3.7851 train_time:175054ms step_avg:170.45ms
step:1038/1530 train_loss:3.6131 train_time:175234ms step_avg:170.46ms
step:1039/1530 train_loss:3.5063 train_time:175415ms step_avg:170.47ms
step:1040/1530 train_loss:3.4088 train_time:175590ms step_avg:170.48ms
step:1041/1530 train_loss:3.4882 train_time:175766ms step_avg:170.48ms
step:1042/1530 train_loss:3.5185 train_time:175940ms step_avg:170.48ms
step:1043/1530 train_loss:3.4415 train_time:176115ms step_avg:170.49ms
step:1044/1530 train_loss:3.4545 train_time:176291ms step_avg:170.49ms
step:1045/1530 train_loss:3.5103 train_time:176470ms step_avg:170.50ms
step:1046/1530 train_loss:3.4236 train_time:176645ms step_avg:170.51ms
step:1047/1530 train_loss:3.6330 train_time:176822ms step_avg:170.51ms
step:1048/1530 train_loss:3.4896 train_time:176997ms step_avg:170.52ms
step:1049/1530 train_loss:3.3978 train_time:177173ms step_avg:170.52ms
step:1050/1530 train_loss:3.3871 train_time:177352ms step_avg:170.53ms
step:1051/1530 train_loss:3.4961 train_time:177531ms step_avg:170.54ms
step:1052/1530 train_loss:3.3573 train_time:177707ms step_avg:170.54ms
step:1053/1530 train_loss:3.6861 train_time:177884ms step_avg:170.55ms
step:1054/1530 train_loss:3.5332 train_time:178062ms step_avg:170.56ms
step:1055/1530 train_loss:3.3818 train_time:178237ms step_avg:170.56ms
step:1056/1530 train_loss:3.4931 train_time:178413ms step_avg:170.57ms
step:1057/1530 train_loss:3.5789 train_time:178590ms step_avg:170.57ms
step:1058/1530 train_loss:3.2991 train_time:178768ms step_avg:170.58ms
step:1059/1530 train_loss:3.3627 train_time:178950ms step_avg:170.59ms
step:1060/1530 train_loss:3.4284 train_time:179125ms step_avg:170.60ms
step:1061/1530 train_loss:3.4164 train_time:179299ms step_avg:170.60ms
step:1062/1530 train_loss:3.3792 train_time:179476ms step_avg:170.60ms
step:1063/1530 train_loss:3.4550 train_time:179652ms step_avg:170.61ms
step:1064/1530 train_loss:3.3799 train_time:179825ms step_avg:170.61ms
step:1065/1530 train_loss:3.3538 train_time:180002ms step_avg:170.62ms
step:1066/1530 train_loss:3.4113 train_time:180178ms step_avg:170.62ms
step:1067/1530 train_loss:3.2823 train_time:180356ms step_avg:170.63ms
step:1068/1530 train_loss:3.4333 train_time:180532ms step_avg:170.64ms
step:1069/1530 train_loss:3.2904 train_time:180710ms step_avg:170.64ms
step:1070/1530 train_loss:3.5626 train_time:180885ms step_avg:170.65ms
step:1071/1530 train_loss:3.5069 train_time:181064ms step_avg:170.65ms
step:1072/1530 train_loss:3.4375 train_time:181240ms step_avg:170.66ms
step:1073/1530 train_loss:3.5168 train_time:181414ms step_avg:170.66ms
step:1074/1530 train_loss:3.4255 train_time:181592ms step_avg:170.67ms
step:1075/1530 train_loss:3.3956 train_time:181770ms step_avg:170.68ms
step:1076/1530 train_loss:3.7908 train_time:181946ms step_avg:170.68ms
step:1077/1530 train_loss:3.4251 train_time:182120ms step_avg:170.68ms
step:1078/1530 train_loss:3.0886 train_time:182304ms step_avg:170.70ms
step:1079/1530 train_loss:3.5269 train_time:182480ms step_avg:170.70ms
step:1080/1530 train_loss:3.4170 train_time:182658ms step_avg:170.71ms
step:1081/1530 train_loss:3.4976 train_time:182833ms step_avg:170.71ms
step:1082/1530 train_loss:3.5850 train_time:183008ms step_avg:170.72ms
step:1083/1530 train_loss:3.4955 train_time:183183ms step_avg:170.72ms
step:1084/1530 train_loss:3.4624 train_time:183359ms step_avg:170.72ms
step:1085/1530 train_loss:3.4312 train_time:183534ms step_avg:170.73ms
step:1086/1530 train_loss:3.6237 train_time:183710ms step_avg:170.73ms
step:1087/1530 train_loss:3.4959 train_time:183885ms step_avg:170.74ms
step:1088/1530 train_loss:3.3649 train_time:184062ms step_avg:170.74ms
step:1089/1530 train_loss:3.3678 train_time:184242ms step_avg:170.75ms
step:1090/1530 train_loss:3.4762 train_time:184420ms step_avg:170.76ms
step:1091/1530 train_loss:3.2842 train_time:184596ms step_avg:170.76ms
step:1092/1530 train_loss:3.4844 train_time:184772ms step_avg:170.77ms
step:1093/1530 train_loss:3.6016 train_time:184949ms step_avg:170.77ms
step:1094/1530 train_loss:3.4489 train_time:185124ms step_avg:170.78ms
step:1095/1530 train_loss:3.4189 train_time:185298ms step_avg:170.78ms
step:1096/1530 train_loss:3.4186 train_time:185476ms step_avg:170.79ms
step:1097/1530 train_loss:3.4856 train_time:185656ms step_avg:170.80ms
step:1098/1530 train_loss:3.5605 train_time:185836ms step_avg:170.80ms
step:1099/1530 train_loss:3.5216 train_time:186012ms step_avg:170.81ms
step:1100/1530 train_loss:3.4225 train_time:186192ms step_avg:170.82ms
step:1101/1530 train_loss:3.2892 train_time:186368ms step_avg:170.82ms
step:1102/1530 train_loss:3.3036 train_time:186546ms step_avg:170.83ms
step:1103/1530 train_loss:3.4415 train_time:186725ms step_avg:170.84ms
step:1104/1530 train_loss:3.3180 train_time:186900ms step_avg:170.84ms
step:1105/1530 train_loss:4.0568 train_time:187079ms step_avg:170.85ms
step:1106/1530 train_loss:3.2196 train_time:187255ms step_avg:170.85ms
step:1107/1530 train_loss:3.5575 train_time:187429ms step_avg:170.86ms
step:1108/1530 train_loss:3.3423 train_time:187602ms step_avg:170.86ms
step:1109/1530 train_loss:3.4972 train_time:187778ms step_avg:170.86ms
step:1110/1530 train_loss:3.4188 train_time:187953ms step_avg:170.87ms
step:1111/1530 train_loss:3.4813 train_time:188127ms step_avg:170.87ms
step:1112/1530 train_loss:3.5581 train_time:188306ms step_avg:170.88ms
step:1113/1530 train_loss:3.4297 train_time:188487ms step_avg:170.89ms
step:1114/1530 train_loss:3.3691 train_time:188667ms step_avg:170.89ms
step:1115/1530 train_loss:3.2323 train_time:188845ms step_avg:170.90ms
step:1116/1530 train_loss:3.4189 train_time:189019ms step_avg:170.90ms
step:1117/1530 train_loss:3.5828 train_time:189198ms step_avg:170.91ms
step:1118/1530 train_loss:3.6192 train_time:189376ms step_avg:170.92ms
step:1119/1530 train_loss:3.4784 train_time:189550ms step_avg:170.92ms
step:1120/1530 train_loss:3.4868 train_time:189727ms step_avg:170.92ms
step:1121/1530 train_loss:3.3839 train_time:189903ms step_avg:170.93ms
step:1122/1530 train_loss:3.4554 train_time:190078ms step_avg:170.93ms
step:1123/1530 train_loss:3.5723 train_time:190255ms step_avg:170.94ms
step:1124/1530 train_loss:3.3337 train_time:190429ms step_avg:170.94ms
step:1125/1530 train_loss:3.2258 train_time:190606ms step_avg:170.95ms
step:1125/1530 val_loss:3.4053 train_time:190656ms step_avg:170.99ms
step:1126/1530 train_loss:3.4767 train_time:190782ms step_avg:170.95ms
step:1127/1530 train_loss:3.6709 train_time:190961ms step_avg:170.96ms
step:1128/1530 train_loss:3.2266 train_time:191137ms step_avg:170.96ms
step:1129/1530 train_loss:3.5553 train_time:191316ms step_avg:170.97ms
step:1130/1530 train_loss:3.3750 train_time:191495ms step_avg:170.98ms
step:1131/1530 train_loss:3.3979 train_time:191677ms step_avg:170.99ms
step:1132/1530 train_loss:3.3616 train_time:191851ms step_avg:170.99ms
step:1133/1530 train_loss:3.4861 train_time:192164ms step_avg:171.12ms
step:1134/1530 train_loss:3.4407 train_time:192349ms step_avg:171.13ms
step:1135/1530 train_loss:3.5224 train_time:192525ms step_avg:171.13ms
step:1136/1530 train_loss:3.5601 train_time:192705ms step_avg:171.14ms
step:1137/1530 train_loss:3.4536 train_time:192881ms step_avg:171.15ms
step:1138/1530 train_loss:3.3544 train_time:193060ms step_avg:171.15ms
step:1139/1530 train_loss:3.6473 train_time:193382ms step_avg:171.29ms
step:1140/1530 train_loss:3.4494 train_time:193557ms step_avg:171.29ms
step:1141/1530 train_loss:3.5886 train_time:193738ms step_avg:171.30ms
step:1142/1530 train_loss:3.4428 train_time:193914ms step_avg:171.30ms
step:1143/1530 train_loss:3.3596 train_time:194093ms step_avg:171.31ms
step:1144/1530 train_loss:3.4393 train_time:194271ms step_avg:171.31ms
step:1145/1530 train_loss:3.5817 train_time:194447ms step_avg:171.32ms
step:1146/1530 train_loss:3.5507 train_time:194628ms step_avg:171.33ms
step:1147/1530 train_loss:3.4795 train_time:194805ms step_avg:171.33ms
step:1148/1530 train_loss:3.4973 train_time:194982ms step_avg:171.34ms
step:1149/1530 train_loss:3.3170 train_time:195162ms step_avg:171.35ms
step:1150/1530 train_loss:3.3695 train_time:195338ms step_avg:171.35ms
step:1151/1530 train_loss:3.3103 train_time:195516ms step_avg:171.35ms
step:1152/1530 train_loss:3.3954 train_time:195696ms step_avg:171.36ms
step:1153/1530 train_loss:3.4208 train_time:195876ms step_avg:171.37ms
step:1154/1530 train_loss:3.5170 train_time:196052ms step_avg:171.37ms
step:1155/1530 train_loss:3.3098 train_time:196233ms step_avg:171.38ms
step:1156/1530 train_loss:3.5335 train_time:196415ms step_avg:171.39ms
step:1157/1530 train_loss:3.4900 train_time:196593ms step_avg:171.40ms
step:1158/1530 train_loss:3.2430 train_time:196770ms step_avg:171.40ms
step:1159/1530 train_loss:3.3463 train_time:196948ms step_avg:171.41ms
step:1160/1530 train_loss:3.3365 train_time:197122ms step_avg:171.41ms
step:1161/1530 train_loss:3.0766 train_time:197300ms step_avg:171.42ms
step:1162/1530 train_loss:3.4184 train_time:197477ms step_avg:171.42ms
step:1163/1530 train_loss:3.3875 train_time:197655ms step_avg:171.43ms
step:1164/1530 train_loss:3.2891 train_time:197832ms step_avg:171.43ms
step:1165/1530 train_loss:3.2465 train_time:198008ms step_avg:171.44ms
step:1166/1530 train_loss:3.3825 train_time:198188ms step_avg:171.44ms
step:1167/1530 train_loss:3.4087 train_time:198366ms step_avg:171.45ms
step:1168/1530 train_loss:3.7172 train_time:198542ms step_avg:171.45ms
step:1169/1530 train_loss:3.3735 train_time:198717ms step_avg:171.46ms
step:1170/1530 train_loss:3.3828 train_time:198894ms step_avg:171.46ms
step:1171/1530 train_loss:3.3036 train_time:199070ms step_avg:171.46ms
step:1172/1530 train_loss:3.4178 train_time:199245ms step_avg:171.47ms
step:1173/1530 train_loss:3.5347 train_time:199427ms step_avg:171.48ms
step:1174/1530 train_loss:3.3790 train_time:199612ms step_avg:171.49ms
step:1175/1530 train_loss:3.3604 train_time:199791ms step_avg:171.49ms
step:1176/1530 train_loss:3.4184 train_time:199974ms step_avg:171.50ms
step:1177/1530 train_loss:3.4471 train_time:200155ms step_avg:171.51ms
step:1178/1530 train_loss:3.4940 train_time:200332ms step_avg:171.52ms
step:1179/1530 train_loss:3.3985 train_time:200508ms step_avg:171.52ms
step:1180/1530 train_loss:3.3511 train_time:200694ms step_avg:171.53ms
step:1181/1530 train_loss:3.3341 train_time:200872ms step_avg:171.54ms
step:1182/1530 train_loss:3.3724 train_time:201050ms step_avg:171.54ms
step:1183/1530 train_loss:3.3299 train_time:201228ms step_avg:171.55ms
step:1184/1530 train_loss:3.5106 train_time:201403ms step_avg:171.55ms
step:1185/1530 train_loss:3.5406 train_time:201584ms step_avg:171.56ms
step:1186/1530 train_loss:3.3624 train_time:201764ms step_avg:171.57ms
step:1187/1530 train_loss:3.4178 train_time:201952ms step_avg:171.58ms
step:1188/1530 train_loss:3.4376 train_time:202128ms step_avg:171.59ms
step:1189/1530 train_loss:3.2742 train_time:202309ms step_avg:171.59ms
step:1190/1530 train_loss:3.4379 train_time:202488ms step_avg:171.60ms
step:1191/1530 train_loss:3.5767 train_time:202670ms step_avg:171.61ms
step:1192/1530 train_loss:3.3892 train_time:202845ms step_avg:171.61ms
step:1193/1530 train_loss:3.2705 train_time:203019ms step_avg:171.61ms
step:1194/1530 train_loss:3.5544 train_time:203196ms step_avg:171.62ms
step:1195/1530 train_loss:3.3706 train_time:203377ms step_avg:171.63ms
step:1196/1530 train_loss:3.3817 train_time:203565ms step_avg:171.64ms
step:1197/1530 train_loss:3.2906 train_time:203743ms step_avg:171.65ms
step:1198/1530 train_loss:3.2979 train_time:203928ms step_avg:171.66ms
step:1199/1530 train_loss:3.3410 train_time:204107ms step_avg:171.66ms
step:1200/1530 train_loss:3.4453 train_time:204284ms step_avg:171.67ms
step:1201/1530 train_loss:3.4760 train_time:204462ms step_avg:171.67ms
step:1202/1530 train_loss:3.5967 train_time:204654ms step_avg:171.69ms
step:1203/1530 train_loss:3.4016 train_time:204833ms step_avg:171.70ms
step:1204/1530 train_loss:3.3008 train_time:205013ms step_avg:171.70ms
step:1205/1530 train_loss:3.4344 train_time:205190ms step_avg:171.71ms
step:1206/1530 train_loss:3.4723 train_time:205369ms step_avg:171.71ms
step:1207/1530 train_loss:3.5112 train_time:205547ms step_avg:171.72ms
step:1208/1530 train_loss:3.3939 train_time:205722ms step_avg:171.72ms
step:1209/1530 train_loss:3.2422 train_time:205902ms step_avg:171.73ms
step:1210/1530 train_loss:3.3037 train_time:206082ms step_avg:171.74ms
step:1211/1530 train_loss:3.3944 train_time:206260ms step_avg:171.74ms
step:1212/1530 train_loss:3.3928 train_time:206436ms step_avg:171.74ms
step:1213/1530 train_loss:3.4078 train_time:206614ms step_avg:171.75ms
step:1214/1530 train_loss:3.2494 train_time:206795ms step_avg:171.76ms
step:1215/1530 train_loss:3.3895 train_time:206972ms step_avg:171.76ms
step:1216/1530 train_loss:3.3270 train_time:207152ms step_avg:171.77ms
step:1217/1530 train_loss:3.3191 train_time:207329ms step_avg:171.77ms
step:1218/1530 train_loss:3.4066 train_time:207506ms step_avg:171.78ms
step:1219/1530 train_loss:3.2558 train_time:207689ms step_avg:171.79ms
step:1220/1530 train_loss:3.4747 train_time:207865ms step_avg:171.79ms
step:1221/1530 train_loss:3.4983 train_time:208040ms step_avg:171.79ms
step:1222/1530 train_loss:3.4278 train_time:208213ms step_avg:171.79ms
step:1223/1530 train_loss:3.2944 train_time:208392ms step_avg:171.80ms
step:1224/1530 train_loss:3.2519 train_time:208575ms step_avg:171.81ms
step:1225/1530 train_loss:3.3651 train_time:208753ms step_avg:171.81ms
step:1226/1530 train_loss:3.3315 train_time:208933ms step_avg:171.82ms
step:1227/1530 train_loss:3.2771 train_time:209113ms step_avg:171.83ms
step:1228/1530 train_loss:3.4427 train_time:209289ms step_avg:171.83ms
step:1229/1530 train_loss:3.3674 train_time:209471ms step_avg:171.84ms
step:1230/1530 train_loss:3.3889 train_time:209653ms step_avg:171.85ms
step:1231/1530 train_loss:3.5791 train_time:209833ms step_avg:171.85ms
step:1232/1530 train_loss:3.4913 train_time:210013ms step_avg:171.86ms
step:1233/1530 train_loss:3.4259 train_time:210191ms step_avg:171.87ms
step:1234/1530 train_loss:3.5826 train_time:210371ms step_avg:171.87ms
step:1235/1530 train_loss:3.3215 train_time:210552ms step_avg:171.88ms
step:1236/1530 train_loss:3.2865 train_time:210729ms step_avg:171.88ms
step:1237/1530 train_loss:3.2723 train_time:210906ms step_avg:171.89ms
step:1238/1530 train_loss:3.2758 train_time:211091ms step_avg:171.90ms
step:1239/1530 train_loss:3.3311 train_time:211269ms step_avg:171.90ms
step:1240/1530 train_loss:3.3793 train_time:211447ms step_avg:171.91ms
step:1241/1530 train_loss:3.4212 train_time:211626ms step_avg:171.91ms
step:1242/1530 train_loss:3.2993 train_time:211804ms step_avg:171.92ms
step:1243/1530 train_loss:3.3985 train_time:211982ms step_avg:171.92ms
step:1244/1530 train_loss:3.4040 train_time:212156ms step_avg:171.93ms
step:1245/1530 train_loss:3.4076 train_time:212333ms step_avg:171.93ms
step:1246/1530 train_loss:3.2418 train_time:212510ms step_avg:171.93ms
step:1247/1530 train_loss:3.3667 train_time:212686ms step_avg:171.94ms
step:1248/1530 train_loss:3.4265 train_time:212862ms step_avg:171.94ms
step:1249/1530 train_loss:3.4236 train_time:213041ms step_avg:171.95ms
step:1250/1530 train_loss:3.2999 train_time:213219ms step_avg:171.95ms
step:1250/1530 val_loss:3.3527 train_time:213273ms step_avg:171.99ms
step:1251/1530 train_loss:3.4912 train_time:213403ms step_avg:171.96ms
step:1252/1530 train_loss:3.3607 train_time:213579ms step_avg:171.96ms
step:1253/1530 train_loss:3.3081 train_time:213756ms step_avg:171.97ms
step:1254/1530 train_loss:3.4118 train_time:213938ms step_avg:171.98ms
step:1255/1530 train_loss:3.5146 train_time:214128ms step_avg:171.99ms
step:1256/1530 train_loss:3.3024 train_time:214311ms step_avg:172.00ms
step:1257/1530 train_loss:3.3748 train_time:214489ms step_avg:172.00ms
step:1258/1530 train_loss:3.3622 train_time:214674ms step_avg:172.01ms
step:1259/1530 train_loss:3.3253 train_time:214853ms step_avg:172.02ms
step:1260/1530 train_loss:3.2057 train_time:215031ms step_avg:172.02ms
step:1261/1530 train_loss:3.3044 train_time:215212ms step_avg:172.03ms
step:1262/1530 train_loss:3.3200 train_time:215395ms step_avg:172.04ms
step:1263/1530 train_loss:3.2363 train_time:215576ms step_avg:172.05ms
step:1264/1530 train_loss:3.4370 train_time:215753ms step_avg:172.05ms
step:1265/1530 train_loss:3.4239 train_time:215929ms step_avg:172.06ms
step:1266/1530 train_loss:3.4365 train_time:216108ms step_avg:172.06ms
step:1267/1530 train_loss:3.3676 train_time:216289ms step_avg:172.07ms
step:1268/1530 train_loss:3.4097 train_time:216470ms step_avg:172.07ms
step:1269/1530 train_loss:3.2487 train_time:216655ms step_avg:172.09ms
step:1270/1530 train_loss:3.1034 train_time:216832ms step_avg:172.09ms
step:1271/1530 train_loss:3.4022 train_time:217011ms step_avg:172.09ms
step:1272/1530 train_loss:3.3537 train_time:217187ms step_avg:172.10ms
step:1273/1530 train_loss:3.3720 train_time:217369ms step_avg:172.11ms
step:1274/1530 train_loss:3.3610 train_time:217551ms step_avg:172.11ms
step:1275/1530 train_loss:3.4323 train_time:217728ms step_avg:172.12ms
step:1276/1530 train_loss:3.4636 train_time:217901ms step_avg:172.12ms
step:1277/1530 train_loss:3.4109 train_time:218080ms step_avg:172.12ms
step:1278/1530 train_loss:3.4077 train_time:218255ms step_avg:172.13ms
step:1279/1530 train_loss:3.2646 train_time:218437ms step_avg:172.13ms
step:1280/1530 train_loss:3.3619 train_time:218621ms step_avg:172.14ms
step:1281/1530 train_loss:3.4225 train_time:218797ms step_avg:172.15ms
step:1282/1530 train_loss:3.4671 train_time:218973ms step_avg:172.15ms
step:1283/1530 train_loss:3.3348 train_time:219153ms step_avg:172.15ms
step:1284/1530 train_loss:3.3669 train_time:219332ms step_avg:172.16ms
step:1285/1530 train_loss:3.3619 train_time:219511ms step_avg:172.17ms
step:1286/1530 train_loss:3.3328 train_time:219690ms step_avg:172.17ms
step:1287/1530 train_loss:3.4900 train_time:219869ms step_avg:172.18ms
step:1288/1530 train_loss:3.2943 train_time:220050ms step_avg:172.18ms
step:1289/1530 train_loss:3.3780 train_time:220236ms step_avg:172.19ms
step:1290/1530 train_loss:3.4587 train_time:220419ms step_avg:172.20ms
step:1291/1530 train_loss:3.3826 train_time:220599ms step_avg:172.21ms
step:1292/1530 train_loss:3.4736 train_time:220781ms step_avg:172.22ms
step:1293/1530 train_loss:3.5156 train_time:220961ms step_avg:172.22ms
step:1294/1530 train_loss:3.4554 train_time:221141ms step_avg:172.23ms
step:1295/1530 train_loss:3.2839 train_time:221321ms step_avg:172.23ms
step:1296/1530 train_loss:3.3703 train_time:221501ms step_avg:172.24ms
step:1297/1530 train_loss:3.2700 train_time:221680ms step_avg:172.25ms
step:1298/1530 train_loss:3.2686 train_time:221861ms step_avg:172.25ms
step:1299/1530 train_loss:3.3950 train_time:222039ms step_avg:172.26ms
step:1300/1530 train_loss:3.4024 train_time:222214ms step_avg:172.26ms
step:1301/1530 train_loss:3.4027 train_time:222392ms step_avg:172.26ms
step:1302/1530 train_loss:3.5709 train_time:222575ms step_avg:172.27ms
step:1303/1530 train_loss:3.2989 train_time:222757ms step_avg:172.28ms
step:1304/1530 train_loss:3.5078 train_time:222937ms step_avg:172.29ms
step:1305/1530 train_loss:3.2560 train_time:223113ms step_avg:172.29ms
step:1306/1530 train_loss:3.4519 train_time:223295ms step_avg:172.30ms
step:1307/1530 train_loss:3.4561 train_time:223471ms step_avg:172.30ms
step:1308/1530 train_loss:3.2821 train_time:223651ms step_avg:172.30ms
step:1309/1530 train_loss:3.3086 train_time:223831ms step_avg:172.31ms
step:1310/1530 train_loss:3.2820 train_time:224008ms step_avg:172.31ms
step:1311/1530 train_loss:3.2953 train_time:224186ms step_avg:172.32ms
step:1312/1530 train_loss:3.3724 train_time:224367ms step_avg:172.32ms
step:1313/1530 train_loss:3.3422 train_time:224542ms step_avg:172.33ms
step:1314/1530 train_loss:3.0443 train_time:224724ms step_avg:172.33ms
step:1315/1530 train_loss:3.2742 train_time:224902ms step_avg:172.34ms
step:1316/1530 train_loss:3.3999 train_time:225076ms step_avg:172.34ms
step:1317/1530 train_loss:3.4155 train_time:225254ms step_avg:172.34ms
step:1318/1530 train_loss:3.3017 train_time:225439ms step_avg:172.35ms
step:1319/1530 train_loss:3.4246 train_time:225619ms step_avg:172.36ms
step:1320/1530 train_loss:3.4584 train_time:225801ms step_avg:172.37ms
step:1321/1530 train_loss:3.3636 train_time:225979ms step_avg:172.37ms
step:1322/1530 train_loss:3.3253 train_time:226293ms step_avg:172.48ms
step:1323/1530 train_loss:3.3162 train_time:226483ms step_avg:172.49ms
step:1324/1530 train_loss:3.4326 train_time:226664ms step_avg:172.50ms
step:1325/1530 train_loss:3.4925 train_time:226848ms step_avg:172.51ms
step:1326/1530 train_loss:3.2089 train_time:227030ms step_avg:172.51ms
step:1327/1530 train_loss:3.1660 train_time:227207ms step_avg:172.52ms
step:1328/1530 train_loss:3.4928 train_time:227386ms step_avg:172.52ms
step:1329/1530 train_loss:3.2960 train_time:227723ms step_avg:172.65ms
step:1330/1530 train_loss:3.4261 train_time:227902ms step_avg:172.65ms
step:1331/1530 train_loss:3.3285 train_time:228077ms step_avg:172.65ms
step:1332/1530 train_loss:3.7365 train_time:228258ms step_avg:172.66ms
step:1333/1530 train_loss:3.4796 train_time:228437ms step_avg:172.67ms
step:1334/1530 train_loss:3.3727 train_time:228615ms step_avg:172.67ms
step:1335/1530 train_loss:3.2894 train_time:228795ms step_avg:172.68ms
step:1336/1530 train_loss:3.2968 train_time:228979ms step_avg:172.68ms
step:1337/1530 train_loss:3.5484 train_time:229158ms step_avg:172.69ms
step:1338/1530 train_loss:3.5251 train_time:229337ms step_avg:172.69ms
step:1339/1530 train_loss:3.3364 train_time:229516ms step_avg:172.70ms
step:1340/1530 train_loss:3.2808 train_time:229694ms step_avg:172.70ms
step:1341/1530 train_loss:3.5911 train_time:229872ms step_avg:172.71ms
step:1342/1530 train_loss:3.3558 train_time:230054ms step_avg:172.71ms
step:1343/1530 train_loss:3.3612 train_time:230231ms step_avg:172.72ms
step:1344/1530 train_loss:3.4104 train_time:230411ms step_avg:172.72ms
step:1345/1530 train_loss:3.3852 train_time:230593ms step_avg:172.73ms
step:1346/1530 train_loss:3.3005 train_time:230771ms step_avg:172.73ms
step:1347/1530 train_loss:3.2805 train_time:230947ms step_avg:172.74ms
step:1348/1530 train_loss:3.3492 train_time:231124ms step_avg:172.74ms
step:1349/1530 train_loss:3.2737 train_time:231301ms step_avg:172.74ms
step:1350/1530 train_loss:3.3914 train_time:231480ms step_avg:172.75ms
step:1351/1530 train_loss:3.2420 train_time:231656ms step_avg:172.75ms
step:1352/1530 train_loss:3.3073 train_time:231834ms step_avg:172.75ms
step:1353/1530 train_loss:3.4009 train_time:232013ms step_avg:172.76ms
step:1354/1530 train_loss:3.2586 train_time:232191ms step_avg:172.76ms
step:1355/1530 train_loss:3.1888 train_time:232368ms step_avg:172.76ms
step:1356/1530 train_loss:3.5089 train_time:232549ms step_avg:172.77ms
step:1357/1530 train_loss:3.4246 train_time:232729ms step_avg:172.78ms
step:1358/1530 train_loss:3.1835 train_time:232907ms step_avg:172.78ms
step:1359/1530 train_loss:3.4386 train_time:233086ms step_avg:172.78ms
step:1360/1530 train_loss:3.3470 train_time:233267ms step_avg:172.79ms
step:1361/1530 train_loss:3.1278 train_time:233453ms step_avg:172.80ms
step:1362/1530 train_loss:3.3902 train_time:233634ms step_avg:172.81ms
step:1363/1530 train_loss:3.2852 train_time:233821ms step_avg:172.82ms
step:1364/1530 train_loss:3.3008 train_time:233998ms step_avg:172.82ms
step:1365/1530 train_loss:3.3118 train_time:234177ms step_avg:172.82ms
step:1366/1530 train_loss:3.4220 train_time:234357ms step_avg:172.83ms
step:1367/1530 train_loss:3.4059 train_time:234535ms step_avg:172.83ms
step:1368/1530 train_loss:3.3485 train_time:234713ms step_avg:172.84ms
step:1369/1530 train_loss:3.2727 train_time:234901ms step_avg:172.85ms
step:1370/1530 train_loss:3.6057 train_time:235081ms step_avg:172.85ms
step:1371/1530 train_loss:3.3098 train_time:235263ms step_avg:172.86ms
step:1372/1530 train_loss:3.3734 train_time:235447ms step_avg:172.87ms
step:1373/1530 train_loss:3.3668 train_time:235623ms step_avg:172.87ms
step:1374/1530 train_loss:3.1497 train_time:235804ms step_avg:172.88ms
step:1375/1530 train_loss:3.5337 train_time:235984ms step_avg:172.88ms
step:1375/1530 val_loss:3.3108 train_time:236034ms step_avg:172.92ms
step:1376/1530 train_loss:3.3440 train_time:236162ms step_avg:172.89ms
step:1377/1530 train_loss:3.4748 train_time:236339ms step_avg:172.89ms
step:1378/1530 train_loss:3.4657 train_time:236515ms step_avg:172.89ms
step:1379/1530 train_loss:3.1114 train_time:236697ms step_avg:172.90ms
step:1380/1530 train_loss:3.3109 train_time:236876ms step_avg:172.90ms
step:1381/1530 train_loss:3.6918 train_time:237060ms step_avg:172.91ms
step:1382/1530 train_loss:3.2096 train_time:237237ms step_avg:172.91ms
step:1383/1530 train_loss:3.3932 train_time:237418ms step_avg:172.92ms
step:1384/1530 train_loss:3.4750 train_time:237602ms step_avg:172.93ms
step:1385/1530 train_loss:3.4114 train_time:237776ms step_avg:172.93ms
step:1386/1530 train_loss:3.3397 train_time:237955ms step_avg:172.93ms
step:1387/1530 train_loss:3.2001 train_time:238134ms step_avg:172.94ms
step:1388/1530 train_loss:3.3434 train_time:238311ms step_avg:172.94ms
step:1389/1530 train_loss:3.3213 train_time:238493ms step_avg:172.95ms
step:1390/1530 train_loss:3.5686 train_time:238672ms step_avg:172.95ms
step:1391/1530 train_loss:3.2912 train_time:238850ms step_avg:172.95ms
step:1392/1530 train_loss:3.2867 train_time:239029ms step_avg:172.96ms
step:1393/1530 train_loss:3.2331 train_time:239209ms step_avg:172.96ms
step:1394/1530 train_loss:3.4976 train_time:239387ms step_avg:172.97ms
step:1395/1530 train_loss:3.3901 train_time:239565ms step_avg:172.97ms
step:1396/1530 train_loss:3.3991 train_time:239742ms step_avg:172.97ms
step:1397/1530 train_loss:3.3075 train_time:239918ms step_avg:172.98ms
step:1398/1530 train_loss:3.2537 train_time:240094ms step_avg:172.98ms
step:1399/1530 train_loss:3.3173 train_time:240273ms step_avg:172.98ms
step:1400/1530 train_loss:3.3190 train_time:240455ms step_avg:172.99ms
step:1401/1530 train_loss:3.3482 train_time:240632ms step_avg:172.99ms
step:1402/1530 train_loss:3.2988 train_time:240812ms step_avg:173.00ms
step:1403/1530 train_loss:3.4911 train_time:240997ms step_avg:173.01ms
step:1404/1530 train_loss:3.2810 train_time:241173ms step_avg:173.01ms
step:1405/1530 train_loss:3.3166 train_time:241355ms step_avg:173.01ms
step:1406/1530 train_loss:3.3170 train_time:241534ms step_avg:173.02ms
step:1407/1530 train_loss:3.1718 train_time:241709ms step_avg:173.02ms
step:1408/1530 train_loss:3.3146 train_time:241889ms step_avg:173.02ms
step:1409/1530 train_loss:3.3024 train_time:242075ms step_avg:173.03ms
step:1410/1530 train_loss:3.2891 train_time:242252ms step_avg:173.04ms
step:1411/1530 train_loss:3.3656 train_time:242429ms step_avg:173.04ms
step:1412/1530 train_loss:3.3347 train_time:242607ms step_avg:173.04ms
step:1413/1530 train_loss:3.3590 train_time:242785ms step_avg:173.05ms
step:1414/1530 train_loss:3.3281 train_time:242965ms step_avg:173.05ms
step:1415/1530 train_loss:3.4046 train_time:243150ms step_avg:173.06ms
step:1416/1530 train_loss:3.2257 train_time:243337ms step_avg:173.07ms
step:1417/1530 train_loss:3.2782 train_time:243519ms step_avg:173.08ms
step:1418/1530 train_loss:3.3879 train_time:243698ms step_avg:173.08ms
step:1419/1530 train_loss:3.3382 train_time:243879ms step_avg:173.09ms
step:1420/1530 train_loss:3.3684 train_time:244061ms step_avg:173.09ms
step:1421/1530 train_loss:3.3721 train_time:244240ms step_avg:173.10ms
step:1422/1530 train_loss:3.3285 train_time:244419ms step_avg:173.10ms
step:1423/1530 train_loss:3.3181 train_time:244597ms step_avg:173.11ms
step:1424/1530 train_loss:3.3290 train_time:244782ms step_avg:173.11ms
step:1425/1530 train_loss:3.1893 train_time:244972ms step_avg:173.13ms
step:1426/1530 train_loss:3.3209 train_time:245151ms step_avg:173.13ms
step:1427/1530 train_loss:3.2849 train_time:245333ms step_avg:173.14ms
step:1428/1530 train_loss:3.3778 train_time:245511ms step_avg:173.14ms
step:1429/1530 train_loss:3.3508 train_time:245689ms step_avg:173.14ms
step:1430/1530 train_loss:3.2559 train_time:245872ms step_avg:173.15ms
step:1431/1530 train_loss:3.3271 train_time:246055ms step_avg:173.16ms
step:1432/1530 train_loss:3.3375 train_time:246237ms step_avg:173.16ms
step:1433/1530 train_loss:3.1294 train_time:246421ms step_avg:173.17ms
step:1434/1530 train_loss:3.2874 train_time:246605ms step_avg:173.18ms
step:1435/1530 train_loss:3.1154 train_time:246786ms step_avg:173.18ms
step:1436/1530 train_loss:3.2329 train_time:246968ms step_avg:173.19ms
step:1437/1530 train_loss:3.4050 train_time:247146ms step_avg:173.19ms
step:1438/1530 train_loss:3.3816 train_time:247321ms step_avg:173.19ms
step:1439/1530 train_loss:3.3162 train_time:247500ms step_avg:173.20ms
step:1440/1530 train_loss:3.1899 train_time:247675ms step_avg:173.20ms
step:1441/1530 train_loss:3.3370 train_time:247854ms step_avg:173.20ms
step:1442/1530 train_loss:3.3816 train_time:248037ms step_avg:173.21ms
step:1443/1530 train_loss:3.4896 train_time:248223ms step_avg:173.22ms
step:1444/1530 train_loss:3.4468 train_time:248399ms step_avg:173.22ms
step:1445/1530 train_loss:3.3362 train_time:248576ms step_avg:173.22ms
step:1446/1530 train_loss:3.1967 train_time:248757ms step_avg:173.23ms
step:1447/1530 train_loss:3.2968 train_time:248938ms step_avg:173.23ms
step:1448/1530 train_loss:3.2981 train_time:249115ms step_avg:173.24ms
step:1449/1530 train_loss:3.3927 train_time:249293ms step_avg:173.24ms
step:1450/1530 train_loss:3.3836 train_time:249475ms step_avg:173.25ms
step:1451/1530 train_loss:3.2047 train_time:249654ms step_avg:173.25ms
step:1452/1530 train_loss:3.3276 train_time:249833ms step_avg:173.25ms
step:1453/1530 train_loss:3.2604 train_time:250008ms step_avg:173.26ms
step:1454/1530 train_loss:3.2883 train_time:250187ms step_avg:173.26ms
step:1455/1530 train_loss:3.3329 train_time:250370ms step_avg:173.27ms
step:1456/1530 train_loss:3.2810 train_time:250548ms step_avg:173.27ms
step:1457/1530 train_loss:3.1589 train_time:250725ms step_avg:173.27ms
step:1458/1530 train_loss:3.4245 train_time:250902ms step_avg:173.27ms
step:1459/1530 train_loss:3.2712 train_time:251084ms step_avg:173.28ms
step:1460/1530 train_loss:3.3163 train_time:251263ms step_avg:173.29ms
step:1461/1530 train_loss:3.4296 train_time:251441ms step_avg:173.29ms
step:1462/1530 train_loss:3.2578 train_time:251617ms step_avg:173.29ms
step:1463/1530 train_loss:3.4681 train_time:251797ms step_avg:173.29ms
step:1464/1530 train_loss:3.3582 train_time:251976ms step_avg:173.30ms
step:1465/1530 train_loss:3.3544 train_time:252157ms step_avg:173.30ms
step:1466/1530 train_loss:3.2852 train_time:252333ms step_avg:173.31ms
step:1467/1530 train_loss:3.3932 train_time:252512ms step_avg:173.31ms
step:1468/1530 train_loss:3.2864 train_time:252689ms step_avg:173.31ms
step:1469/1530 train_loss:3.2731 train_time:252870ms step_avg:173.32ms
step:1470/1530 train_loss:3.3339 train_time:253053ms step_avg:173.32ms
step:1471/1530 train_loss:3.2586 train_time:253237ms step_avg:173.33ms
step:1472/1530 train_loss:3.2488 train_time:253421ms step_avg:173.34ms
step:1473/1530 train_loss:3.4408 train_time:253598ms step_avg:173.34ms
step:1474/1530 train_loss:3.3120 train_time:253780ms step_avg:173.35ms
step:1475/1530 train_loss:3.1523 train_time:253964ms step_avg:173.35ms
step:1476/1530 train_loss:3.2652 train_time:254143ms step_avg:173.36ms
step:1477/1530 train_loss:3.2368 train_time:254330ms step_avg:173.37ms
step:1478/1530 train_loss:3.3065 train_time:254514ms step_avg:173.37ms
step:1479/1530 train_loss:3.4020 train_time:254696ms step_avg:173.38ms
step:1480/1530 train_loss:3.2686 train_time:254875ms step_avg:173.38ms
step:1481/1530 train_loss:3.4500 train_time:255057ms step_avg:173.39ms
step:1482/1530 train_loss:3.3731 train_time:255243ms step_avg:173.40ms
step:1483/1530 train_loss:3.2801 train_time:255434ms step_avg:173.41ms
step:1484/1530 train_loss:3.2640 train_time:255620ms step_avg:173.42ms
step:1485/1530 train_loss:3.2813 train_time:255799ms step_avg:173.42ms
step:1486/1530 train_loss:3.2285 train_time:255983ms step_avg:173.43ms
step:1487/1530 train_loss:3.3391 train_time:256166ms step_avg:173.44ms
step:1488/1530 train_loss:3.2437 train_time:256350ms step_avg:173.44ms
step:1489/1530 train_loss:3.3079 train_time:256530ms step_avg:173.45ms
step:1490/1530 train_loss:3.2520 train_time:256709ms step_avg:173.45ms
step:1491/1530 train_loss:3.1597 train_time:256890ms step_avg:173.46ms
step:1492/1530 train_loss:3.2693 train_time:257071ms step_avg:173.46ms
step:1493/1530 train_loss:3.4342 train_time:257251ms step_avg:173.47ms
step:1494/1530 train_loss:3.2995 train_time:257430ms step_avg:173.47ms
step:1495/1530 train_loss:3.0318 train_time:257614ms step_avg:173.48ms
step:1496/1530 train_loss:3.3631 train_time:257796ms step_avg:173.48ms
step:1497/1530 train_loss:3.3124 train_time:257978ms step_avg:173.49ms
step:1498/1530 train_loss:3.3520 train_time:258162ms step_avg:173.50ms
step:1499/1530 train_loss:3.3127 train_time:258354ms step_avg:173.51ms
step:1500/1530 train_loss:3.2983 train_time:258543ms step_avg:173.52ms
step:1500/1530 val_loss:3.2802 train_time:258598ms step_avg:173.56ms
step:1501/1530 train_loss:3.0895 train_time:258734ms step_avg:173.53ms
step:1502/1530 train_loss:3.3598 train_time:258926ms step_avg:173.54ms
step:1503/1530 train_loss:3.2416 train_time:259105ms step_avg:173.55ms
step:1504/1530 train_loss:3.2472 train_time:259286ms step_avg:173.55ms
step:1505/1530 train_loss:3.2129 train_time:259465ms step_avg:173.55ms
step:1506/1530 train_loss:3.2786 train_time:259650ms step_avg:173.56ms
step:1507/1530 train_loss:3.1785 train_time:259845ms step_avg:173.58ms
step:1508/1530 train_loss:3.4812 train_time:260028ms step_avg:173.58ms
step:1509/1530 train_loss:3.2816 train_time:260205ms step_avg:173.59ms
step:1510/1530 train_loss:3.2719 train_time:260385ms step_avg:173.59ms
step:1511/1530 train_loss:3.4157 train_time:260701ms step_avg:173.68ms
step:1512/1530 train_loss:3.4194 train_time:260889ms step_avg:173.69ms
step:1513/1530 train_loss:3.2701 train_time:261072ms step_avg:173.70ms
step:1514/1530 train_loss:3.0835 train_time:261254ms step_avg:173.71ms
step:1515/1530 train_loss:3.2427 train_time:261435ms step_avg:173.71ms
step:1516/1530 train_loss:3.2581 train_time:261620ms step_avg:173.72ms
step:1517/1530 train_loss:3.2996 train_time:261801ms step_avg:173.72ms
step:1518/1530 train_loss:3.2066 train_time:261985ms step_avg:173.73ms
step:1519/1530 train_loss:3.4981 train_time:262309ms step_avg:173.83ms
step:1520/1530 train_loss:3.1240 train_time:262489ms step_avg:173.83ms
step:1521/1530 train_loss:3.2052 train_time:262666ms step_avg:173.84ms
step:1522/1530 train_loss:3.3538 train_time:262851ms step_avg:173.84ms
step:1523/1530 train_loss:3.2244 train_time:263029ms step_avg:173.85ms
step:1524/1530 train_loss:3.3463 train_time:263208ms step_avg:173.85ms
step:1525/1530 train_loss:3.3403 train_time:263395ms step_avg:173.86ms
step:1526/1530 train_loss:3.2789 train_time:263586ms step_avg:173.87ms
step:1527/1530 train_loss:3.2917 train_time:263768ms step_avg:173.87ms
step:1528/1530 train_loss:3.4060 train_time:263949ms step_avg:173.88ms
step:1529/1530 train_loss:3.4083 train_time:264127ms step_avg:173.88ms
step:1530/1530 train_loss:3.2383 train_time:264304ms step_avg:173.88ms
step:1530/1530 val_loss:3.2778 train_time:264357ms step_avg:173.92ms