records/120424_ValueEmbed/66173c47-b15b-4a24-a835-60c82f6b8283.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 03:03:39 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   38C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   30C    P0             115W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   38C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   39C    P0             123W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   29C    P0             110W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   38C    P0             116W / 700W |     39MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   30C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:32094ms step_avg:nanms
step:2/1530 train_loss:10.0774 train_time:32205ms step_avg:nanms
step:3/1530 train_loss:8.3414 train_time:32364ms step_avg:nanms
step:4/1530 train_loss:7.5877 train_time:32524ms step_avg:nanms
step:5/1530 train_loss:7.4877 train_time:32685ms step_avg:nanms
step:6/1530 train_loss:7.0149 train_time:32845ms step_avg:nanms
step:7/1530 train_loss:7.2335 train_time:33006ms step_avg:nanms
step:8/1530 train_loss:6.7494 train_time:33165ms step_avg:nanms
step:9/1530 train_loss:6.6424 train_time:33326ms step_avg:nanms
step:10/1530 train_loss:6.5033 train_time:33486ms step_avg:nanms
step:11/1530 train_loss:6.4433 train_time:114ms step_avg:nanms
step:12/1530 train_loss:6.3414 train_time:274ms step_avg:nanms
step:13/1530 train_loss:6.2828 train_time:435ms step_avg:144.86ms
step:14/1530 train_loss:6.2135 train_time:595ms step_avg:148.77ms
step:15/1530 train_loss:6.1967 train_time:754ms step_avg:150.90ms
step:16/1530 train_loss:6.1162 train_time:916ms step_avg:152.59ms
step:17/1530 train_loss:6.1637 train_time:1076ms step_avg:153.73ms
step:18/1530 train_loss:5.9577 train_time:1236ms step_avg:154.51ms
step:19/1530 train_loss:6.0194 train_time:1398ms step_avg:155.31ms
step:20/1530 train_loss:5.6933 train_time:1557ms step_avg:155.72ms
step:21/1530 train_loss:5.9679 train_time:1718ms step_avg:156.15ms
step:22/1530 train_loss:6.1986 train_time:1877ms step_avg:156.43ms
step:23/1530 train_loss:5.8791 train_time:2038ms step_avg:156.78ms
step:24/1530 train_loss:6.0292 train_time:2199ms step_avg:157.08ms
step:25/1530 train_loss:5.7017 train_time:2359ms step_avg:157.26ms
step:26/1530 train_loss:5.5923 train_time:2520ms step_avg:157.49ms
step:27/1530 train_loss:5.8003 train_time:2680ms step_avg:157.64ms
step:28/1530 train_loss:5.4141 train_time:2841ms step_avg:157.83ms
step:29/1530 train_loss:5.6842 train_time:3000ms step_avg:157.91ms
step:30/1530 train_loss:5.4751 train_time:3161ms step_avg:158.04ms
step:31/1530 train_loss:5.4440 train_time:3322ms step_avg:158.18ms
step:32/1530 train_loss:5.2732 train_time:3483ms step_avg:158.31ms
step:33/1530 train_loss:5.5847 train_time:3644ms step_avg:158.42ms
step:34/1530 train_loss:5.4997 train_time:3805ms step_avg:158.53ms
step:35/1530 train_loss:5.6238 train_time:3965ms step_avg:158.60ms
step:36/1530 train_loss:5.5656 train_time:4126ms step_avg:158.68ms
step:37/1530 train_loss:5.4507 train_time:4287ms step_avg:158.77ms
step:38/1530 train_loss:5.2978 train_time:4447ms step_avg:158.81ms
step:39/1530 train_loss:5.3307 train_time:4608ms step_avg:158.90ms
step:40/1530 train_loss:5.2331 train_time:4769ms step_avg:158.97ms
step:41/1530 train_loss:5.2205 train_time:4930ms step_avg:159.02ms
step:42/1530 train_loss:5.1448 train_time:5090ms step_avg:159.07ms
step:43/1530 train_loss:5.2625 train_time:5251ms step_avg:159.11ms
step:44/1530 train_loss:5.2334 train_time:5413ms step_avg:159.20ms
step:45/1530 train_loss:5.3805 train_time:5573ms step_avg:159.23ms
step:46/1530 train_loss:5.1725 train_time:5733ms step_avg:159.26ms
step:47/1530 train_loss:5.0930 train_time:5895ms step_avg:159.33ms
step:48/1530 train_loss:5.2106 train_time:6055ms step_avg:159.34ms
step:49/1530 train_loss:5.1443 train_time:6214ms step_avg:159.34ms
step:50/1530 train_loss:5.2421 train_time:6375ms step_avg:159.37ms
step:51/1530 train_loss:5.1294 train_time:6536ms step_avg:159.42ms
step:52/1530 train_loss:5.0124 train_time:6696ms step_avg:159.44ms
step:53/1530 train_loss:5.1704 train_time:6856ms step_avg:159.45ms
step:54/1530 train_loss:4.9953 train_time:7016ms step_avg:159.46ms
step:55/1530 train_loss:5.4057 train_time:7178ms step_avg:159.50ms
step:56/1530 train_loss:5.0153 train_time:7337ms step_avg:159.50ms
step:57/1530 train_loss:4.8682 train_time:7498ms step_avg:159.53ms
step:58/1530 train_loss:5.0324 train_time:7659ms step_avg:159.56ms
step:59/1530 train_loss:5.0312 train_time:7819ms step_avg:159.57ms
step:60/1530 train_loss:5.1407 train_time:7980ms step_avg:159.60ms
step:61/1530 train_loss:4.8555 train_time:8141ms step_avg:159.63ms
step:62/1530 train_loss:4.9700 train_time:8302ms step_avg:159.65ms
step:63/1530 train_loss:4.9732 train_time:8462ms step_avg:159.65ms
step:64/1530 train_loss:4.9594 train_time:8622ms step_avg:159.66ms
step:65/1530 train_loss:4.7961 train_time:8782ms step_avg:159.68ms
step:66/1530 train_loss:4.9062 train_time:8942ms step_avg:159.68ms
step:67/1530 train_loss:4.8366 train_time:9105ms step_avg:159.73ms
step:68/1530 train_loss:5.0879 train_time:9265ms step_avg:159.75ms
step:69/1530 train_loss:4.7066 train_time:9426ms step_avg:159.77ms
step:70/1530 train_loss:4.8126 train_time:9587ms step_avg:159.79ms
step:71/1530 train_loss:4.9563 train_time:9747ms step_avg:159.79ms
step:72/1530 train_loss:4.8678 train_time:9909ms step_avg:159.83ms
step:73/1530 train_loss:4.7591 train_time:10070ms step_avg:159.84ms
step:74/1530 train_loss:4.8890 train_time:10230ms step_avg:159.85ms
step:75/1530 train_loss:4.8481 train_time:10391ms step_avg:159.87ms
step:76/1530 train_loss:4.7986 train_time:10551ms step_avg:159.87ms
step:77/1530 train_loss:4.8979 train_time:10712ms step_avg:159.89ms
step:78/1530 train_loss:5.1027 train_time:10873ms step_avg:159.89ms
step:79/1530 train_loss:4.8238 train_time:11033ms step_avg:159.89ms
step:80/1530 train_loss:4.8690 train_time:11193ms step_avg:159.90ms
step:81/1530 train_loss:4.6421 train_time:11353ms step_avg:159.91ms
step:82/1530 train_loss:4.7986 train_time:11514ms step_avg:159.92ms
step:83/1530 train_loss:4.7415 train_time:11674ms step_avg:159.91ms
step:84/1530 train_loss:4.7369 train_time:11834ms step_avg:159.92ms
step:85/1530 train_loss:4.6020 train_time:11995ms step_avg:159.93ms
step:86/1530 train_loss:4.8251 train_time:12154ms step_avg:159.92ms
step:87/1530 train_loss:4.7475 train_time:12314ms step_avg:159.92ms
step:88/1530 train_loss:4.7459 train_time:12475ms step_avg:159.93ms
step:89/1530 train_loss:4.6835 train_time:12635ms step_avg:159.94ms
step:90/1530 train_loss:4.6229 train_time:12794ms step_avg:159.93ms
step:91/1530 train_loss:4.6115 train_time:12955ms step_avg:159.94ms
step:92/1530 train_loss:4.7860 train_time:13116ms step_avg:159.95ms
step:93/1530 train_loss:4.6059 train_time:13276ms step_avg:159.95ms
step:94/1530 train_loss:4.6202 train_time:13437ms step_avg:159.96ms
step:95/1530 train_loss:4.6762 train_time:13597ms step_avg:159.96ms
step:96/1530 train_loss:4.5738 train_time:13757ms step_avg:159.96ms
step:97/1530 train_loss:4.6198 train_time:13916ms step_avg:159.95ms
step:98/1530 train_loss:4.5717 train_time:14077ms step_avg:159.96ms
step:99/1530 train_loss:4.6424 train_time:14237ms step_avg:159.96ms
step:100/1530 train_loss:4.6658 train_time:14398ms step_avg:159.98ms
step:101/1530 train_loss:4.5233 train_time:14558ms step_avg:159.98ms
step:102/1530 train_loss:4.6900 train_time:14718ms step_avg:159.97ms
step:103/1530 train_loss:4.5739 train_time:14878ms step_avg:159.98ms
step:104/1530 train_loss:4.5400 train_time:15037ms step_avg:159.97ms
step:105/1530 train_loss:4.5410 train_time:15199ms step_avg:159.99ms
step:106/1530 train_loss:4.6009 train_time:15359ms step_avg:159.99ms
step:107/1530 train_loss:4.4901 train_time:15519ms step_avg:159.99ms
step:108/1530 train_loss:4.3430 train_time:15680ms step_avg:160.00ms
step:109/1530 train_loss:4.4751 train_time:15840ms step_avg:160.00ms
step:110/1530 train_loss:4.4763 train_time:16001ms step_avg:160.01ms
step:111/1530 train_loss:4.4203 train_time:16160ms step_avg:160.00ms
step:112/1530 train_loss:4.5774 train_time:16320ms step_avg:160.00ms
step:113/1530 train_loss:4.4886 train_time:16481ms step_avg:160.01ms
step:114/1530 train_loss:4.3531 train_time:16642ms step_avg:160.02ms
step:115/1530 train_loss:4.4927 train_time:16805ms step_avg:160.05ms
step:116/1530 train_loss:4.4505 train_time:16969ms step_avg:160.08ms
step:117/1530 train_loss:4.3523 train_time:17132ms step_avg:160.12ms
step:118/1530 train_loss:4.5845 train_time:17297ms step_avg:160.16ms
step:119/1530 train_loss:4.4610 train_time:17462ms step_avg:160.20ms
step:120/1530 train_loss:4.3202 train_time:17626ms step_avg:160.23ms
step:121/1530 train_loss:4.2940 train_time:17790ms step_avg:160.27ms
step:122/1530 train_loss:4.4331 train_time:17953ms step_avg:160.30ms
step:123/1530 train_loss:4.2694 train_time:18117ms step_avg:160.33ms
step:124/1530 train_loss:4.5656 train_time:18282ms step_avg:160.37ms
step:125/1530 train_loss:4.4431 train_time:18447ms step_avg:160.41ms
step:125/1530 val_loss:4.4021 train_time:18494ms step_avg:160.81ms
step:126/1530 train_loss:4.4157 train_time:18612ms step_avg:160.45ms
step:127/1530 train_loss:4.4464 train_time:18778ms step_avg:160.49ms
step:128/1530 train_loss:4.3810 train_time:18942ms step_avg:160.53ms
step:129/1530 train_loss:4.6654 train_time:19106ms step_avg:160.55ms
step:130/1530 train_loss:4.3415 train_time:19270ms step_avg:160.59ms
step:131/1530 train_loss:4.3996 train_time:19433ms step_avg:160.61ms
step:132/1530 train_loss:4.3459 train_time:19598ms step_avg:160.64ms
step:133/1530 train_loss:4.4552 train_time:19761ms step_avg:160.65ms
step:134/1530 train_loss:4.2528 train_time:19926ms step_avg:160.69ms
step:135/1530 train_loss:4.4400 train_time:20090ms step_avg:160.72ms
step:136/1530 train_loss:4.2152 train_time:20254ms step_avg:160.74ms
step:137/1530 train_loss:4.3886 train_time:20418ms step_avg:160.77ms
step:138/1530 train_loss:4.2837 train_time:20582ms step_avg:160.80ms
step:139/1530 train_loss:4.3805 train_time:20746ms step_avg:160.82ms
step:140/1530 train_loss:4.4674 train_time:20910ms step_avg:160.85ms
step:141/1530 train_loss:4.3155 train_time:21074ms step_avg:160.87ms
step:142/1530 train_loss:4.2939 train_time:21238ms step_avg:160.89ms
step:143/1530 train_loss:4.2402 train_time:21402ms step_avg:160.91ms
step:144/1530 train_loss:4.3416 train_time:21566ms step_avg:160.94ms
step:145/1530 train_loss:4.3112 train_time:21729ms step_avg:160.96ms
step:146/1530 train_loss:4.1647 train_time:21894ms step_avg:160.98ms
step:147/1530 train_loss:4.3176 train_time:22058ms step_avg:161.01ms
step:148/1530 train_loss:4.3498 train_time:22221ms step_avg:161.02ms
step:149/1530 train_loss:4.2940 train_time:22385ms step_avg:161.05ms
step:150/1530 train_loss:4.4473 train_time:22549ms step_avg:161.07ms
step:151/1530 train_loss:4.2716 train_time:22713ms step_avg:161.09ms
step:152/1530 train_loss:4.2584 train_time:22878ms step_avg:161.11ms
step:153/1530 train_loss:4.3575 train_time:23042ms step_avg:161.13ms
step:154/1530 train_loss:4.3675 train_time:23206ms step_avg:161.15ms
step:155/1530 train_loss:4.2654 train_time:23370ms step_avg:161.17ms
step:156/1530 train_loss:4.3502 train_time:23533ms step_avg:161.18ms
step:157/1530 train_loss:4.4048 train_time:23697ms step_avg:161.20ms
step:158/1530 train_loss:4.2476 train_time:23861ms step_avg:161.23ms
step:159/1530 train_loss:4.3077 train_time:24025ms step_avg:161.24ms
step:160/1530 train_loss:4.1337 train_time:24189ms step_avg:161.26ms
step:161/1530 train_loss:4.3504 train_time:24354ms step_avg:161.28ms
step:162/1530 train_loss:4.3635 train_time:24517ms step_avg:161.30ms
step:163/1530 train_loss:4.3415 train_time:24681ms step_avg:161.31ms
step:164/1530 train_loss:4.1813 train_time:24845ms step_avg:161.33ms
step:165/1530 train_loss:4.2754 train_time:25008ms step_avg:161.34ms
step:166/1530 train_loss:4.3461 train_time:25173ms step_avg:161.36ms
step:167/1530 train_loss:4.2043 train_time:25336ms step_avg:161.38ms
step:168/1530 train_loss:4.2849 train_time:25500ms step_avg:161.39ms
step:169/1530 train_loss:4.1618 train_time:25665ms step_avg:161.41ms
step:170/1530 train_loss:4.0238 train_time:25828ms step_avg:161.43ms
step:171/1530 train_loss:4.2018 train_time:25992ms step_avg:161.44ms
step:172/1530 train_loss:4.2089 train_time:26156ms step_avg:161.45ms
step:173/1530 train_loss:4.2587 train_time:26321ms step_avg:161.48ms
step:174/1530 train_loss:4.4131 train_time:26483ms step_avg:161.48ms
step:175/1530 train_loss:4.2399 train_time:26649ms step_avg:161.51ms
step:176/1530 train_loss:4.0882 train_time:26813ms step_avg:161.52ms
step:177/1530 train_loss:4.0607 train_time:26975ms step_avg:161.53ms
step:178/1530 train_loss:4.1785 train_time:27139ms step_avg:161.54ms
step:179/1530 train_loss:4.1239 train_time:27301ms step_avg:161.55ms
step:180/1530 train_loss:4.1255 train_time:27464ms step_avg:161.55ms
step:181/1530 train_loss:4.2960 train_time:27627ms step_avg:161.56ms
step:182/1530 train_loss:4.1530 train_time:27791ms step_avg:161.58ms
step:183/1530 train_loss:4.1171 train_time:27954ms step_avg:161.59ms
step:184/1530 train_loss:4.1235 train_time:28117ms step_avg:161.59ms
step:185/1530 train_loss:4.1996 train_time:28281ms step_avg:161.60ms
step:186/1530 train_loss:4.1726 train_time:28443ms step_avg:161.61ms
step:187/1530 train_loss:4.2311 train_time:28606ms step_avg:161.62ms
step:188/1530 train_loss:4.1748 train_time:28908ms step_avg:162.41ms
step:189/1530 train_loss:4.1163 train_time:29248ms step_avg:163.40ms
step:190/1530 train_loss:4.2008 train_time:29421ms step_avg:163.45ms
step:191/1530 train_loss:4.0708 train_time:29585ms step_avg:163.45ms
step:192/1530 train_loss:4.0310 train_time:29748ms step_avg:163.45ms
step:193/1530 train_loss:4.2400 train_time:29912ms step_avg:163.45ms
step:194/1530 train_loss:4.1683 train_time:30075ms step_avg:163.45ms
step:195/1530 train_loss:4.3487 train_time:30237ms step_avg:163.44ms
step:196/1530 train_loss:4.1775 train_time:30399ms step_avg:163.43ms
step:197/1530 train_loss:4.0416 train_time:30563ms step_avg:163.44ms
step:198/1530 train_loss:4.1766 train_time:30727ms step_avg:163.44ms
step:199/1530 train_loss:4.0365 train_time:30890ms step_avg:163.44ms
step:200/1530 train_loss:4.1093 train_time:31053ms step_avg:163.44ms
step:201/1530 train_loss:3.9938 train_time:31217ms step_avg:163.44ms
step:202/1530 train_loss:4.2475 train_time:31379ms step_avg:163.43ms
step:203/1530 train_loss:4.0616 train_time:31543ms step_avg:163.44ms
step:204/1530 train_loss:4.1944 train_time:31706ms step_avg:163.43ms
step:205/1530 train_loss:4.2600 train_time:31869ms step_avg:163.43ms
step:206/1530 train_loss:3.9502 train_time:32032ms step_avg:163.43ms
step:207/1530 train_loss:4.0768 train_time:32195ms step_avg:163.43ms
step:208/1530 train_loss:4.0957 train_time:32358ms step_avg:163.43ms
step:209/1530 train_loss:4.2328 train_time:32520ms step_avg:163.42ms
step:210/1530 train_loss:4.1811 train_time:32684ms step_avg:163.42ms
step:211/1530 train_loss:4.0581 train_time:32846ms step_avg:163.41ms
step:212/1530 train_loss:4.1068 train_time:33009ms step_avg:163.41ms
step:213/1530 train_loss:4.0443 train_time:33172ms step_avg:163.41ms
step:214/1530 train_loss:4.1144 train_time:33334ms step_avg:163.40ms
step:215/1530 train_loss:3.9663 train_time:33498ms step_avg:163.40ms
step:216/1530 train_loss:4.0067 train_time:33660ms step_avg:163.40ms
step:217/1530 train_loss:4.0083 train_time:33823ms step_avg:163.39ms
step:218/1530 train_loss:4.0802 train_time:33984ms step_avg:163.39ms
step:219/1530 train_loss:4.0743 train_time:34148ms step_avg:163.39ms
step:220/1530 train_loss:4.0794 train_time:34311ms step_avg:163.39ms
step:221/1530 train_loss:4.0930 train_time:34474ms step_avg:163.38ms
step:222/1530 train_loss:3.9908 train_time:34637ms step_avg:163.38ms
step:223/1530 train_loss:3.9849 train_time:34799ms step_avg:163.38ms
step:224/1530 train_loss:4.2947 train_time:34961ms step_avg:163.37ms
step:225/1530 train_loss:3.9301 train_time:35124ms step_avg:163.37ms
step:226/1530 train_loss:3.9941 train_time:35288ms step_avg:163.37ms
step:227/1530 train_loss:3.9827 train_time:35450ms step_avg:163.37ms
step:228/1530 train_loss:4.1415 train_time:35616ms step_avg:163.38ms
step:229/1530 train_loss:3.9256 train_time:35784ms step_avg:163.40ms
step:230/1530 train_loss:4.0406 train_time:35949ms step_avg:163.40ms
step:231/1530 train_loss:3.8996 train_time:36115ms step_avg:163.41ms
step:232/1530 train_loss:3.9620 train_time:36279ms step_avg:163.42ms
step:233/1530 train_loss:4.0937 train_time:36446ms step_avg:163.44ms
step:234/1530 train_loss:4.0303 train_time:36612ms step_avg:163.45ms
step:235/1530 train_loss:3.9008 train_time:36779ms step_avg:163.46ms
step:236/1530 train_loss:4.0740 train_time:36946ms step_avg:163.48ms
step:237/1530 train_loss:4.0828 train_time:37113ms step_avg:163.49ms
step:238/1530 train_loss:3.9362 train_time:37280ms step_avg:163.51ms
step:239/1530 train_loss:4.0757 train_time:37446ms step_avg:163.52ms
step:240/1530 train_loss:4.1131 train_time:37612ms step_avg:163.53ms
step:241/1530 train_loss:3.9716 train_time:37780ms step_avg:163.55ms
step:242/1530 train_loss:4.1476 train_time:37947ms step_avg:163.56ms
step:243/1530 train_loss:4.0127 train_time:38112ms step_avg:163.57ms
step:244/1530 train_loss:4.0813 train_time:38279ms step_avg:163.59ms
step:245/1530 train_loss:4.1317 train_time:38446ms step_avg:163.60ms
step:246/1530 train_loss:4.0617 train_time:38612ms step_avg:163.61ms
step:247/1530 train_loss:4.0083 train_time:38779ms step_avg:163.63ms
step:248/1530 train_loss:4.1004 train_time:38947ms step_avg:163.64ms
step:249/1530 train_loss:3.9228 train_time:39113ms step_avg:163.65ms
step:250/1530 train_loss:3.9725 train_time:39279ms step_avg:163.66ms
step:250/1530 val_loss:4.0051 train_time:39327ms step_avg:163.86ms
step:251/1530 train_loss:4.0769 train_time:39447ms step_avg:163.68ms
step:252/1530 train_loss:4.1627 train_time:39614ms step_avg:163.70ms
step:253/1530 train_loss:3.9344 train_time:39780ms step_avg:163.71ms
step:254/1530 train_loss:3.8827 train_time:39946ms step_avg:163.71ms
step:255/1530 train_loss:4.0832 train_time:40113ms step_avg:163.73ms
step:256/1530 train_loss:3.9881 train_time:40279ms step_avg:163.73ms
step:257/1530 train_loss:3.9886 train_time:40444ms step_avg:163.74ms
step:258/1530 train_loss:3.9775 train_time:40612ms step_avg:163.76ms
step:259/1530 train_loss:4.0330 train_time:40777ms step_avg:163.76ms
step:260/1530 train_loss:4.0605 train_time:40945ms step_avg:163.78ms
step:261/1530 train_loss:4.0182 train_time:41111ms step_avg:163.79ms
step:262/1530 train_loss:3.9959 train_time:41276ms step_avg:163.80ms
step:263/1530 train_loss:3.8885 train_time:41443ms step_avg:163.81ms
step:264/1530 train_loss:3.9794 train_time:41609ms step_avg:163.81ms
step:265/1530 train_loss:3.8691 train_time:41775ms step_avg:163.83ms
step:266/1530 train_loss:3.9243 train_time:41942ms step_avg:163.83ms
step:267/1530 train_loss:3.9298 train_time:42110ms step_avg:163.85ms
step:268/1530 train_loss:3.9551 train_time:42275ms step_avg:163.86ms
step:269/1530 train_loss:3.8437 train_time:42441ms step_avg:163.87ms
step:270/1530 train_loss:4.1064 train_time:42607ms step_avg:163.87ms
step:271/1530 train_loss:3.9661 train_time:42773ms step_avg:163.88ms
step:272/1530 train_loss:3.9168 train_time:42939ms step_avg:163.89ms
step:273/1530 train_loss:3.9339 train_time:43104ms step_avg:163.89ms
step:274/1530 train_loss:4.0445 train_time:43271ms step_avg:163.91ms
step:275/1530 train_loss:4.0623 train_time:43438ms step_avg:163.92ms
step:276/1530 train_loss:4.2231 train_time:43605ms step_avg:163.93ms
step:277/1530 train_loss:4.0351 train_time:43771ms step_avg:163.94ms
step:278/1530 train_loss:4.0871 train_time:43938ms step_avg:163.95ms
step:279/1530 train_loss:3.9987 train_time:44104ms step_avg:163.95ms
step:280/1530 train_loss:4.1833 train_time:44271ms step_avg:163.97ms
step:281/1530 train_loss:3.9714 train_time:44437ms step_avg:163.97ms
step:282/1530 train_loss:3.9407 train_time:44604ms step_avg:163.98ms
step:283/1530 train_loss:3.9095 train_time:44770ms step_avg:163.99ms
step:284/1530 train_loss:4.0511 train_time:44936ms step_avg:164.00ms
step:285/1530 train_loss:4.0550 train_time:45101ms step_avg:164.00ms
step:286/1530 train_loss:4.0890 train_time:45266ms step_avg:164.01ms
step:287/1530 train_loss:3.9072 train_time:45432ms step_avg:164.02ms
step:288/1530 train_loss:4.0086 train_time:45597ms step_avg:164.02ms
step:289/1530 train_loss:3.8703 train_time:45761ms step_avg:164.02ms
step:290/1530 train_loss:3.8603 train_time:45927ms step_avg:164.03ms
step:291/1530 train_loss:3.9102 train_time:46093ms step_avg:164.03ms
step:292/1530 train_loss:3.8609 train_time:46258ms step_avg:164.04ms
step:293/1530 train_loss:3.8939 train_time:46423ms step_avg:164.04ms
step:294/1530 train_loss:3.9309 train_time:46590ms step_avg:164.05ms
step:295/1530 train_loss:3.8418 train_time:46755ms step_avg:164.05ms
step:296/1530 train_loss:3.8687 train_time:46921ms step_avg:164.06ms
step:297/1530 train_loss:3.8813 train_time:47087ms step_avg:164.06ms
step:298/1530 train_loss:3.9723 train_time:47252ms step_avg:164.07ms
step:299/1530 train_loss:3.8247 train_time:47417ms step_avg:164.07ms
step:300/1530 train_loss:3.9674 train_time:47582ms step_avg:164.08ms
step:301/1530 train_loss:3.9614 train_time:47750ms step_avg:164.09ms
step:302/1530 train_loss:3.9285 train_time:47916ms step_avg:164.09ms
step:303/1530 train_loss:3.9668 train_time:48080ms step_avg:164.10ms
step:304/1530 train_loss:3.9574 train_time:48245ms step_avg:164.10ms
step:305/1530 train_loss:4.4523 train_time:48410ms step_avg:164.10ms
step:306/1530 train_loss:3.9418 train_time:48575ms step_avg:164.11ms
step:307/1530 train_loss:3.8348 train_time:48741ms step_avg:164.11ms
step:308/1530 train_loss:3.9742 train_time:48905ms step_avg:164.11ms
step:309/1530 train_loss:3.8624 train_time:49072ms step_avg:164.12ms
step:310/1530 train_loss:4.0766 train_time:49237ms step_avg:164.12ms
step:311/1530 train_loss:3.9286 train_time:49401ms step_avg:164.12ms
step:312/1530 train_loss:3.8597 train_time:49567ms step_avg:164.13ms
step:313/1530 train_loss:3.9364 train_time:49733ms step_avg:164.14ms
step:314/1530 train_loss:4.0585 train_time:49898ms step_avg:164.14ms
step:315/1530 train_loss:3.9412 train_time:50063ms step_avg:164.14ms
step:316/1530 train_loss:3.7894 train_time:50230ms step_avg:164.15ms
step:317/1530 train_loss:3.8778 train_time:50395ms step_avg:164.15ms
step:318/1530 train_loss:3.9229 train_time:50561ms step_avg:164.16ms
step:319/1530 train_loss:3.8890 train_time:50725ms step_avg:164.16ms
step:320/1530 train_loss:4.0118 train_time:50892ms step_avg:164.17ms
step:321/1530 train_loss:3.9530 train_time:51057ms step_avg:164.17ms
step:322/1530 train_loss:3.9342 train_time:51223ms step_avg:164.18ms
step:323/1530 train_loss:4.0053 train_time:51389ms step_avg:164.18ms
step:324/1530 train_loss:3.9527 train_time:51555ms step_avg:164.19ms
step:325/1530 train_loss:4.0131 train_time:51720ms step_avg:164.19ms
step:326/1530 train_loss:3.8941 train_time:51887ms step_avg:164.20ms
step:327/1530 train_loss:4.3963 train_time:52053ms step_avg:164.20ms
step:328/1530 train_loss:4.0716 train_time:52218ms step_avg:164.21ms
step:329/1530 train_loss:3.7886 train_time:52383ms step_avg:164.21ms
step:330/1530 train_loss:3.7435 train_time:52549ms step_avg:164.22ms
step:331/1530 train_loss:3.9760 train_time:52714ms step_avg:164.22ms
step:332/1530 train_loss:3.9032 train_time:52879ms step_avg:164.22ms
step:333/1530 train_loss:3.8845 train_time:53045ms step_avg:164.22ms
step:334/1530 train_loss:3.8441 train_time:53211ms step_avg:164.23ms
step:335/1530 train_loss:4.0097 train_time:53376ms step_avg:164.23ms
step:336/1530 train_loss:3.9534 train_time:53542ms step_avg:164.24ms
step:337/1530 train_loss:4.4120 train_time:53707ms step_avg:164.24ms
step:338/1530 train_loss:3.9367 train_time:53873ms step_avg:164.25ms
step:339/1530 train_loss:3.8662 train_time:54038ms step_avg:164.25ms
step:340/1530 train_loss:3.9370 train_time:54203ms step_avg:164.25ms
step:341/1530 train_loss:3.8600 train_time:54369ms step_avg:164.26ms
step:342/1530 train_loss:3.8081 train_time:54536ms step_avg:164.27ms
step:343/1530 train_loss:3.8408 train_time:54704ms step_avg:164.28ms
step:344/1530 train_loss:3.9902 train_time:54872ms step_avg:164.29ms
step:345/1530 train_loss:3.8189 train_time:55041ms step_avg:164.30ms
step:346/1530 train_loss:3.7628 train_time:55209ms step_avg:164.31ms
step:347/1530 train_loss:3.8011 train_time:55377ms step_avg:164.32ms
step:348/1530 train_loss:3.8598 train_time:55545ms step_avg:164.33ms
step:349/1530 train_loss:3.8252 train_time:55713ms step_avg:164.35ms
step:350/1530 train_loss:3.5687 train_time:55881ms step_avg:164.36ms
step:351/1530 train_loss:3.8306 train_time:56048ms step_avg:164.36ms
step:352/1530 train_loss:4.1730 train_time:56216ms step_avg:164.37ms
step:353/1530 train_loss:3.6504 train_time:56384ms step_avg:164.38ms
step:354/1530 train_loss:3.9262 train_time:56552ms step_avg:164.39ms
step:355/1530 train_loss:3.7874 train_time:56721ms step_avg:164.41ms
step:356/1530 train_loss:3.8812 train_time:56891ms step_avg:164.43ms
step:357/1530 train_loss:3.7649 train_time:57060ms step_avg:164.44ms
step:358/1530 train_loss:3.8596 train_time:57229ms step_avg:164.45ms
step:359/1530 train_loss:3.7607 train_time:57398ms step_avg:164.46ms
step:360/1530 train_loss:3.4289 train_time:57567ms step_avg:164.48ms
step:361/1530 train_loss:4.0205 train_time:57736ms step_avg:164.49ms
step:362/1530 train_loss:3.9184 train_time:57904ms step_avg:164.50ms
step:363/1530 train_loss:3.8372 train_time:58072ms step_avg:164.51ms
step:364/1530 train_loss:3.7398 train_time:58241ms step_avg:164.52ms
step:365/1530 train_loss:3.9130 train_time:58409ms step_avg:164.53ms
step:366/1530 train_loss:3.8601 train_time:58577ms step_avg:164.54ms
step:367/1530 train_loss:3.8548 train_time:58746ms step_avg:164.55ms
step:368/1530 train_loss:3.8454 train_time:58913ms step_avg:164.56ms
step:369/1530 train_loss:3.7376 train_time:59081ms step_avg:164.57ms
step:370/1530 train_loss:3.8754 train_time:59251ms step_avg:164.59ms
step:371/1530 train_loss:3.7302 train_time:59418ms step_avg:164.59ms
step:372/1530 train_loss:3.6915 train_time:59587ms step_avg:164.60ms
step:373/1530 train_loss:3.9125 train_time:59756ms step_avg:164.62ms
step:374/1530 train_loss:3.8277 train_time:59923ms step_avg:164.62ms
step:375/1530 train_loss:3.8068 train_time:60092ms step_avg:164.63ms
step:375/1530 val_loss:3.8280 train_time:60140ms step_avg:164.77ms
step:376/1530 train_loss:3.8650 train_time:60263ms step_avg:164.65ms
step:377/1530 train_loss:3.7860 train_time:60571ms step_avg:165.04ms
step:378/1530 train_loss:3.8507 train_time:60748ms step_avg:165.08ms
step:379/1530 train_loss:3.8678 train_time:61080ms step_avg:165.53ms
step:380/1530 train_loss:3.9599 train_time:61257ms step_avg:165.56ms
step:381/1530 train_loss:3.8351 train_time:61426ms step_avg:165.57ms
step:382/1530 train_loss:3.7981 train_time:61595ms step_avg:165.58ms
step:383/1530 train_loss:3.7958 train_time:61763ms step_avg:165.59ms
step:384/1530 train_loss:3.8637 train_time:61931ms step_avg:165.59ms
step:385/1530 train_loss:3.7908 train_time:62101ms step_avg:165.60ms
step:386/1530 train_loss:3.8942 train_time:62268ms step_avg:165.61ms
step:387/1530 train_loss:4.0665 train_time:62435ms step_avg:165.61ms
step:388/1530 train_loss:3.7961 train_time:62603ms step_avg:165.62ms
step:389/1530 train_loss:3.8024 train_time:62771ms step_avg:165.62ms
step:390/1530 train_loss:3.9029 train_time:62939ms step_avg:165.63ms
step:391/1530 train_loss:3.8146 train_time:63107ms step_avg:165.63ms
step:392/1530 train_loss:3.9221 train_time:63273ms step_avg:165.64ms
step:393/1530 train_loss:3.7641 train_time:63442ms step_avg:165.64ms
step:394/1530 train_loss:3.8877 train_time:63609ms step_avg:165.65ms
step:395/1530 train_loss:3.6306 train_time:63778ms step_avg:165.66ms
step:396/1530 train_loss:3.8383 train_time:63946ms step_avg:165.66ms
step:397/1530 train_loss:3.8626 train_time:64113ms step_avg:165.67ms
step:398/1530 train_loss:3.8779 train_time:64283ms step_avg:165.68ms
step:399/1530 train_loss:3.7697 train_time:64450ms step_avg:165.68ms
step:400/1530 train_loss:3.8219 train_time:64618ms step_avg:165.69ms
step:401/1530 train_loss:3.9100 train_time:64786ms step_avg:165.69ms
step:402/1530 train_loss:3.8383 train_time:64952ms step_avg:165.69ms
step:403/1530 train_loss:3.9530 train_time:65121ms step_avg:165.70ms
step:404/1530 train_loss:3.6802 train_time:65288ms step_avg:165.70ms
step:405/1530 train_loss:3.7794 train_time:65455ms step_avg:165.71ms
step:406/1530 train_loss:4.0926 train_time:65622ms step_avg:165.71ms
step:407/1530 train_loss:3.7765 train_time:65789ms step_avg:165.72ms
step:408/1530 train_loss:3.8181 train_time:65957ms step_avg:165.72ms
step:409/1530 train_loss:3.8534 train_time:66124ms step_avg:165.72ms
step:410/1530 train_loss:3.7521 train_time:66291ms step_avg:165.73ms
step:411/1530 train_loss:3.7570 train_time:66459ms step_avg:165.73ms
step:412/1530 train_loss:4.1727 train_time:66626ms step_avg:165.74ms
step:413/1530 train_loss:3.6225 train_time:66794ms step_avg:165.74ms
step:414/1530 train_loss:4.0039 train_time:66961ms step_avg:165.74ms
step:415/1530 train_loss:3.7524 train_time:67127ms step_avg:165.75ms
step:416/1530 train_loss:3.7654 train_time:67296ms step_avg:165.75ms
step:417/1530 train_loss:3.9510 train_time:67464ms step_avg:165.76ms
step:418/1530 train_loss:3.6913 train_time:67631ms step_avg:165.76ms
step:419/1530 train_loss:3.8019 train_time:67799ms step_avg:165.77ms
step:420/1530 train_loss:3.7006 train_time:67966ms step_avg:165.77ms
step:421/1530 train_loss:3.6475 train_time:68132ms step_avg:165.77ms
step:422/1530 train_loss:3.7836 train_time:68301ms step_avg:165.78ms
step:423/1530 train_loss:3.8701 train_time:68468ms step_avg:165.78ms
step:424/1530 train_loss:3.6161 train_time:68636ms step_avg:165.79ms
step:425/1530 train_loss:3.7981 train_time:68804ms step_avg:165.79ms
step:426/1530 train_loss:3.6442 train_time:68971ms step_avg:165.80ms
step:427/1530 train_loss:3.8927 train_time:69139ms step_avg:165.80ms
step:428/1530 train_loss:3.8074 train_time:69307ms step_avg:165.81ms
step:429/1530 train_loss:3.7562 train_time:69476ms step_avg:165.81ms
step:430/1530 train_loss:3.6977 train_time:69642ms step_avg:165.81ms
step:431/1530 train_loss:3.6271 train_time:69810ms step_avg:165.82ms
step:432/1530 train_loss:3.7656 train_time:69978ms step_avg:165.82ms
step:433/1530 train_loss:3.8221 train_time:70145ms step_avg:165.83ms
step:434/1530 train_loss:3.7772 train_time:70313ms step_avg:165.83ms
step:435/1530 train_loss:3.8055 train_time:70481ms step_avg:165.84ms
step:436/1530 train_loss:3.8296 train_time:70647ms step_avg:165.84ms
step:437/1530 train_loss:3.7213 train_time:70814ms step_avg:165.84ms
step:438/1530 train_loss:3.7013 train_time:70981ms step_avg:165.84ms
step:439/1530 train_loss:3.7129 train_time:71148ms step_avg:165.85ms
step:440/1530 train_loss:3.8874 train_time:71315ms step_avg:165.85ms
step:441/1530 train_loss:3.7583 train_time:71484ms step_avg:165.86ms
step:442/1530 train_loss:3.7275 train_time:71652ms step_avg:165.86ms
step:443/1530 train_loss:3.6164 train_time:71820ms step_avg:165.87ms
step:444/1530 train_loss:3.9221 train_time:71987ms step_avg:165.87ms
step:445/1530 train_loss:3.8389 train_time:72153ms step_avg:165.87ms
step:446/1530 train_loss:3.8343 train_time:72320ms step_avg:165.87ms
step:447/1530 train_loss:3.7543 train_time:72488ms step_avg:165.88ms
step:448/1530 train_loss:3.8484 train_time:72655ms step_avg:165.88ms
step:449/1530 train_loss:3.6897 train_time:72824ms step_avg:165.89ms
step:450/1530 train_loss:3.7149 train_time:72992ms step_avg:165.89ms
step:451/1530 train_loss:3.5791 train_time:73160ms step_avg:165.90ms
step:452/1530 train_loss:3.7123 train_time:73326ms step_avg:165.90ms
step:453/1530 train_loss:3.6725 train_time:73493ms step_avg:165.90ms
step:454/1530 train_loss:3.6413 train_time:73661ms step_avg:165.90ms
step:455/1530 train_loss:3.8391 train_time:73829ms step_avg:165.91ms
step:456/1530 train_loss:3.7201 train_time:74000ms step_avg:165.92ms
step:457/1530 train_loss:3.7844 train_time:74169ms step_avg:165.93ms
step:458/1530 train_loss:3.8326 train_time:74339ms step_avg:165.93ms
step:459/1530 train_loss:3.6359 train_time:74509ms step_avg:165.94ms
step:460/1530 train_loss:3.7891 train_time:74678ms step_avg:165.95ms
step:461/1530 train_loss:3.6944 train_time:74848ms step_avg:165.96ms
step:462/1530 train_loss:3.7334 train_time:75019ms step_avg:165.97ms
step:463/1530 train_loss:3.7767 train_time:75188ms step_avg:165.98ms
step:464/1530 train_loss:3.7089 train_time:75357ms step_avg:165.99ms
step:465/1530 train_loss:3.7133 train_time:75526ms step_avg:165.99ms
step:466/1530 train_loss:3.7956 train_time:75696ms step_avg:166.00ms
step:467/1530 train_loss:3.8143 train_time:75867ms step_avg:166.01ms
step:468/1530 train_loss:3.7913 train_time:76036ms step_avg:166.02ms
step:469/1530 train_loss:3.6833 train_time:76206ms step_avg:166.03ms
step:470/1530 train_loss:3.7702 train_time:76376ms step_avg:166.04ms
step:471/1530 train_loss:3.8070 train_time:76547ms step_avg:166.05ms
step:472/1530 train_loss:3.7802 train_time:76720ms step_avg:166.06ms
step:473/1530 train_loss:3.7119 train_time:76889ms step_avg:166.07ms
step:474/1530 train_loss:3.5921 train_time:77058ms step_avg:166.07ms
step:475/1530 train_loss:4.0227 train_time:77228ms step_avg:166.08ms
step:476/1530 train_loss:3.7559 train_time:77399ms step_avg:166.09ms
step:477/1530 train_loss:3.5976 train_time:77569ms step_avg:166.10ms
step:478/1530 train_loss:3.8240 train_time:77738ms step_avg:166.11ms
step:479/1530 train_loss:3.7677 train_time:77908ms step_avg:166.11ms
step:480/1530 train_loss:3.9184 train_time:78078ms step_avg:166.12ms
step:481/1530 train_loss:3.7235 train_time:78247ms step_avg:166.13ms
step:482/1530 train_loss:3.5329 train_time:78417ms step_avg:166.14ms
step:483/1530 train_loss:3.8019 train_time:78586ms step_avg:166.14ms
step:484/1530 train_loss:3.6652 train_time:78757ms step_avg:166.15ms
step:485/1530 train_loss:3.6606 train_time:78927ms step_avg:166.16ms
step:486/1530 train_loss:3.5713 train_time:79096ms step_avg:166.17ms
step:487/1530 train_loss:3.6840 train_time:79266ms step_avg:166.18ms
step:488/1530 train_loss:3.8784 train_time:79437ms step_avg:166.19ms
step:489/1530 train_loss:3.7149 train_time:79608ms step_avg:166.20ms
step:490/1530 train_loss:3.5990 train_time:79778ms step_avg:166.20ms
step:491/1530 train_loss:3.6158 train_time:79947ms step_avg:166.21ms
step:492/1530 train_loss:3.7295 train_time:80118ms step_avg:166.22ms
step:493/1530 train_loss:3.5744 train_time:80289ms step_avg:166.23ms
step:494/1530 train_loss:3.6983 train_time:80459ms step_avg:166.24ms
step:495/1530 train_loss:3.6535 train_time:80628ms step_avg:166.24ms
step:496/1530 train_loss:3.5145 train_time:80802ms step_avg:166.26ms
step:497/1530 train_loss:3.7319 train_time:80970ms step_avg:166.26ms
step:498/1530 train_loss:3.7861 train_time:81140ms step_avg:166.27ms
step:499/1530 train_loss:3.8205 train_time:81310ms step_avg:166.28ms
step:500/1530 train_loss:3.7331 train_time:81481ms step_avg:166.29ms
step:500/1530 val_loss:3.7035 train_time:81529ms step_avg:166.39ms
step:501/1530 train_loss:3.8026 train_time:81650ms step_avg:166.29ms
step:502/1530 train_loss:3.7483 train_time:81823ms step_avg:166.31ms
step:503/1530 train_loss:3.7760 train_time:81994ms step_avg:166.32ms
step:504/1530 train_loss:3.7209 train_time:82164ms step_avg:166.32ms
step:505/1530 train_loss:3.8035 train_time:82334ms step_avg:166.33ms
step:506/1530 train_loss:3.6452 train_time:82504ms step_avg:166.34ms
step:507/1530 train_loss:3.7540 train_time:82673ms step_avg:166.34ms
step:508/1530 train_loss:3.8225 train_time:82847ms step_avg:166.36ms
step:509/1530 train_loss:3.7653 train_time:83015ms step_avg:166.36ms
step:510/1530 train_loss:3.5777 train_time:83185ms step_avg:166.37ms
step:511/1530 train_loss:3.7728 train_time:83354ms step_avg:166.38ms
step:512/1530 train_loss:3.7180 train_time:83526ms step_avg:166.39ms
step:513/1530 train_loss:3.6670 train_time:83695ms step_avg:166.39ms
step:514/1530 train_loss:3.8183 train_time:83864ms step_avg:166.40ms
step:515/1530 train_loss:3.7342 train_time:84034ms step_avg:166.40ms
step:516/1530 train_loss:4.0735 train_time:84204ms step_avg:166.41ms
step:517/1530 train_loss:3.6877 train_time:84372ms step_avg:166.41ms
step:518/1530 train_loss:3.7702 train_time:84542ms step_avg:166.42ms
step:519/1530 train_loss:3.6553 train_time:84711ms step_avg:166.43ms
step:520/1530 train_loss:3.6828 train_time:84880ms step_avg:166.43ms
step:521/1530 train_loss:3.6643 train_time:85049ms step_avg:166.44ms
step:522/1530 train_loss:3.6576 train_time:85221ms step_avg:166.45ms
step:523/1530 train_loss:4.2854 train_time:85389ms step_avg:166.45ms
step:524/1530 train_loss:3.7402 train_time:85558ms step_avg:166.45ms
step:525/1530 train_loss:3.6776 train_time:85726ms step_avg:166.46ms
step:526/1530 train_loss:3.7031 train_time:85894ms step_avg:166.46ms
step:527/1530 train_loss:3.6632 train_time:86064ms step_avg:166.47ms
step:528/1530 train_loss:3.6311 train_time:86232ms step_avg:166.47ms
step:529/1530 train_loss:3.8502 train_time:86403ms step_avg:166.48ms
step:530/1530 train_loss:3.6511 train_time:86573ms step_avg:166.49ms
step:531/1530 train_loss:3.9184 train_time:86744ms step_avg:166.50ms
step:532/1530 train_loss:3.7299 train_time:86914ms step_avg:166.50ms
step:533/1530 train_loss:3.6541 train_time:87083ms step_avg:166.51ms
step:534/1530 train_loss:3.6651 train_time:87252ms step_avg:166.51ms
step:535/1530 train_loss:3.6050 train_time:87422ms step_avg:166.52ms
step:536/1530 train_loss:3.7504 train_time:87592ms step_avg:166.52ms
step:537/1530 train_loss:3.7243 train_time:87762ms step_avg:166.53ms
step:538/1530 train_loss:3.6255 train_time:87931ms step_avg:166.54ms
step:539/1530 train_loss:4.1137 train_time:88103ms step_avg:166.55ms
step:540/1530 train_loss:3.6729 train_time:88270ms step_avg:166.55ms
step:541/1530 train_loss:3.7821 train_time:88441ms step_avg:166.55ms
step:542/1530 train_loss:3.5839 train_time:88609ms step_avg:166.56ms
step:543/1530 train_loss:3.5815 train_time:88778ms step_avg:166.56ms
step:544/1530 train_loss:3.6293 train_time:88947ms step_avg:166.57ms
step:545/1530 train_loss:3.5934 train_time:89117ms step_avg:166.57ms
step:546/1530 train_loss:3.6251 train_time:89285ms step_avg:166.58ms
step:547/1530 train_loss:3.6354 train_time:89454ms step_avg:166.58ms
step:548/1530 train_loss:3.6093 train_time:89626ms step_avg:166.59ms
step:549/1530 train_loss:3.7240 train_time:89794ms step_avg:166.59ms
step:550/1530 train_loss:3.6186 train_time:89963ms step_avg:166.60ms
step:551/1530 train_loss:3.6298 train_time:90131ms step_avg:166.60ms
step:552/1530 train_loss:3.9336 train_time:90300ms step_avg:166.61ms
step:553/1530 train_loss:3.7591 train_time:90469ms step_avg:166.61ms
step:554/1530 train_loss:3.7090 train_time:90639ms step_avg:166.62ms
step:555/1530 train_loss:3.6317 train_time:90809ms step_avg:166.62ms
step:556/1530 train_loss:3.6983 train_time:90977ms step_avg:166.62ms
step:557/1530 train_loss:3.3132 train_time:91147ms step_avg:166.63ms
step:558/1530 train_loss:3.6085 train_time:91317ms step_avg:166.64ms
step:559/1530 train_loss:3.6525 train_time:91485ms step_avg:166.64ms
step:560/1530 train_loss:3.6929 train_time:91654ms step_avg:166.64ms
step:561/1530 train_loss:3.6131 train_time:91824ms step_avg:166.65ms
step:562/1530 train_loss:3.5480 train_time:91993ms step_avg:166.65ms
step:563/1530 train_loss:3.7551 train_time:92161ms step_avg:166.66ms
step:564/1530 train_loss:3.5719 train_time:92331ms step_avg:166.66ms
step:565/1530 train_loss:3.6785 train_time:92501ms step_avg:166.67ms
step:566/1530 train_loss:3.6204 train_time:92809ms step_avg:166.92ms
step:567/1530 train_loss:3.6009 train_time:92990ms step_avg:166.95ms
step:568/1530 train_loss:3.6842 train_time:93161ms step_avg:166.95ms
step:569/1530 train_loss:3.6441 train_time:93489ms step_avg:167.24ms
step:570/1530 train_loss:3.6838 train_time:93661ms step_avg:167.25ms
step:571/1530 train_loss:3.7525 train_time:93831ms step_avg:167.26ms
step:572/1530 train_loss:3.7261 train_time:94003ms step_avg:167.27ms
step:573/1530 train_loss:3.7347 train_time:94177ms step_avg:167.28ms
step:574/1530 train_loss:3.7749 train_time:94350ms step_avg:167.29ms
step:575/1530 train_loss:3.7267 train_time:94523ms step_avg:167.30ms
step:576/1530 train_loss:3.7566 train_time:94695ms step_avg:167.31ms
step:577/1530 train_loss:3.6680 train_time:94867ms step_avg:167.31ms
step:578/1530 train_loss:3.6732 train_time:95041ms step_avg:167.33ms
step:579/1530 train_loss:3.6693 train_time:95211ms step_avg:167.33ms
step:580/1530 train_loss:3.5908 train_time:95382ms step_avg:167.34ms
step:581/1530 train_loss:3.6393 train_time:95552ms step_avg:167.34ms
step:582/1530 train_loss:3.8456 train_time:95724ms step_avg:167.35ms
step:583/1530 train_loss:3.6263 train_time:95893ms step_avg:167.35ms
step:584/1530 train_loss:3.5922 train_time:96065ms step_avg:167.36ms
step:585/1530 train_loss:3.7878 train_time:96236ms step_avg:167.37ms
step:586/1530 train_loss:3.5163 train_time:96407ms step_avg:167.37ms
step:587/1530 train_loss:3.6614 train_time:96579ms step_avg:167.38ms
step:588/1530 train_loss:3.6390 train_time:96749ms step_avg:167.39ms
step:589/1530 train_loss:3.9971 train_time:96922ms step_avg:167.40ms
step:590/1530 train_loss:3.7822 train_time:97094ms step_avg:167.40ms
step:591/1530 train_loss:3.5029 train_time:97265ms step_avg:167.41ms
step:592/1530 train_loss:3.5387 train_time:97439ms step_avg:167.42ms
step:593/1530 train_loss:3.5010 train_time:97611ms step_avg:167.43ms
step:594/1530 train_loss:3.5523 train_time:97784ms step_avg:167.44ms
step:595/1530 train_loss:3.9068 train_time:97956ms step_avg:167.45ms
step:596/1530 train_loss:3.6492 train_time:98129ms step_avg:167.46ms
step:597/1530 train_loss:3.5830 train_time:98299ms step_avg:167.46ms
step:598/1530 train_loss:3.6565 train_time:98469ms step_avg:167.46ms
step:599/1530 train_loss:3.4723 train_time:98641ms step_avg:167.47ms
step:600/1530 train_loss:3.5951 train_time:98812ms step_avg:167.48ms
step:601/1530 train_loss:3.6462 train_time:98985ms step_avg:167.49ms
step:602/1530 train_loss:3.6673 train_time:99160ms step_avg:167.50ms
step:603/1530 train_loss:3.7828 train_time:99331ms step_avg:167.51ms
step:604/1530 train_loss:3.6081 train_time:99503ms step_avg:167.51ms
step:605/1530 train_loss:3.6109 train_time:99673ms step_avg:167.52ms
step:606/1530 train_loss:3.5765 train_time:99847ms step_avg:167.53ms
step:607/1530 train_loss:3.8345 train_time:100018ms step_avg:167.53ms
step:608/1530 train_loss:3.6357 train_time:100189ms step_avg:167.54ms
step:609/1530 train_loss:3.6151 train_time:100359ms step_avg:167.55ms
step:610/1530 train_loss:3.6963 train_time:100529ms step_avg:167.55ms
step:611/1530 train_loss:3.5969 train_time:100700ms step_avg:167.55ms
step:612/1530 train_loss:3.5730 train_time:100871ms step_avg:167.56ms
step:613/1530 train_loss:3.7619 train_time:101043ms step_avg:167.57ms
step:614/1530 train_loss:3.7011 train_time:101213ms step_avg:167.57ms
step:615/1530 train_loss:3.6878 train_time:101384ms step_avg:167.58ms
step:616/1530 train_loss:3.6363 train_time:101554ms step_avg:167.58ms
step:617/1530 train_loss:3.5636 train_time:101726ms step_avg:167.59ms
step:618/1530 train_loss:3.6883 train_time:101896ms step_avg:167.59ms
step:619/1530 train_loss:3.5547 train_time:102067ms step_avg:167.60ms
step:620/1530 train_loss:3.5838 train_time:102239ms step_avg:167.61ms
step:621/1530 train_loss:3.9195 train_time:102412ms step_avg:167.61ms
step:622/1530 train_loss:3.5699 train_time:102585ms step_avg:167.62ms
step:623/1530 train_loss:3.6007 train_time:102757ms step_avg:167.63ms
step:624/1530 train_loss:3.6856 train_time:102930ms step_avg:167.64ms
step:625/1530 train_loss:3.7014 train_time:103100ms step_avg:167.64ms
step:625/1530 val_loss:3.6216 train_time:103149ms step_avg:167.72ms
step:626/1530 train_loss:3.7376 train_time:103273ms step_avg:167.65ms
step:627/1530 train_loss:3.7132 train_time:103448ms step_avg:167.66ms
step:628/1530 train_loss:3.7600 train_time:103618ms step_avg:167.67ms
step:629/1530 train_loss:3.5968 train_time:103791ms step_avg:167.68ms
step:630/1530 train_loss:3.7267 train_time:103961ms step_avg:167.68ms
step:631/1530 train_loss:3.7371 train_time:104132ms step_avg:167.68ms
step:632/1530 train_loss:3.6519 train_time:104303ms step_avg:167.69ms
step:633/1530 train_loss:3.6019 train_time:104475ms step_avg:167.70ms
step:634/1530 train_loss:3.6985 train_time:104644ms step_avg:167.70ms
step:635/1530 train_loss:3.9529 train_time:104814ms step_avg:167.70ms
step:636/1530 train_loss:3.5473 train_time:104985ms step_avg:167.71ms
step:637/1530 train_loss:3.3496 train_time:105157ms step_avg:167.71ms
step:638/1530 train_loss:3.5920 train_time:105326ms step_avg:167.72ms
step:639/1530 train_loss:3.6324 train_time:105496ms step_avg:167.72ms
step:640/1530 train_loss:3.5705 train_time:105669ms step_avg:167.73ms
step:641/1530 train_loss:3.5887 train_time:105838ms step_avg:167.73ms
step:642/1530 train_loss:3.6297 train_time:106008ms step_avg:167.73ms
step:643/1530 train_loss:3.5943 train_time:106178ms step_avg:167.74ms
step:644/1530 train_loss:3.5548 train_time:106350ms step_avg:167.74ms
step:645/1530 train_loss:3.7729 train_time:106520ms step_avg:167.75ms
step:646/1530 train_loss:3.6644 train_time:106691ms step_avg:167.75ms
step:647/1530 train_loss:3.6625 train_time:106861ms step_avg:167.76ms
step:648/1530 train_loss:3.7098 train_time:107035ms step_avg:167.77ms
step:649/1530 train_loss:3.7680 train_time:107205ms step_avg:167.77ms
step:650/1530 train_loss:3.6149 train_time:107376ms step_avg:167.78ms
step:651/1530 train_loss:3.7643 train_time:107548ms step_avg:167.78ms
step:652/1530 train_loss:3.5878 train_time:107718ms step_avg:167.78ms
step:653/1530 train_loss:3.6589 train_time:107889ms step_avg:167.79ms
step:654/1530 train_loss:3.4249 train_time:108059ms step_avg:167.79ms
step:655/1530 train_loss:3.5781 train_time:108229ms step_avg:167.80ms
step:656/1530 train_loss:3.5758 train_time:108400ms step_avg:167.80ms
step:657/1530 train_loss:3.4950 train_time:108572ms step_avg:167.81ms
step:658/1530 train_loss:3.6854 train_time:108741ms step_avg:167.81ms
step:659/1530 train_loss:3.5846 train_time:108912ms step_avg:167.81ms
step:660/1530 train_loss:3.6868 train_time:109082ms step_avg:167.82ms
step:661/1530 train_loss:3.7499 train_time:109255ms step_avg:167.83ms
step:662/1530 train_loss:3.6760 train_time:109424ms step_avg:167.83ms
step:663/1530 train_loss:3.5557 train_time:109594ms step_avg:167.83ms
step:664/1530 train_loss:3.6107 train_time:109765ms step_avg:167.84ms
step:665/1530 train_loss:3.4930 train_time:109936ms step_avg:167.84ms
step:666/1530 train_loss:3.7787 train_time:110106ms step_avg:167.84ms
step:667/1530 train_loss:3.6051 train_time:110276ms step_avg:167.85ms
step:668/1530 train_loss:3.6455 train_time:110448ms step_avg:167.85ms
step:669/1530 train_loss:3.4906 train_time:110620ms step_avg:167.86ms
step:670/1530 train_loss:3.5944 train_time:110790ms step_avg:167.86ms
step:671/1530 train_loss:3.5574 train_time:110959ms step_avg:167.87ms
step:672/1530 train_loss:3.5680 train_time:111131ms step_avg:167.87ms
step:673/1530 train_loss:3.8453 train_time:111300ms step_avg:167.87ms
step:674/1530 train_loss:3.6203 train_time:111472ms step_avg:167.88ms
step:675/1530 train_loss:3.7105 train_time:111644ms step_avg:167.89ms
step:676/1530 train_loss:3.4929 train_time:111814ms step_avg:167.89ms
step:677/1530 train_loss:3.5979 train_time:111986ms step_avg:167.90ms
step:678/1530 train_loss:3.5560 train_time:112158ms step_avg:167.90ms
step:679/1530 train_loss:3.6828 train_time:112331ms step_avg:167.91ms
step:680/1530 train_loss:3.5844 train_time:112501ms step_avg:167.91ms
step:681/1530 train_loss:3.6177 train_time:112673ms step_avg:167.92ms
step:682/1530 train_loss:3.6606 train_time:112849ms step_avg:167.93ms
step:683/1530 train_loss:3.7321 train_time:113021ms step_avg:167.94ms
step:684/1530 train_loss:3.6447 train_time:113193ms step_avg:167.94ms
step:685/1530 train_loss:3.6848 train_time:113368ms step_avg:167.95ms
step:686/1530 train_loss:3.6368 train_time:113540ms step_avg:167.96ms
step:687/1530 train_loss:3.6659 train_time:113712ms step_avg:167.96ms
step:688/1530 train_loss:3.2269 train_time:113888ms step_avg:167.98ms
step:689/1530 train_loss:3.4063 train_time:114062ms step_avg:167.99ms
step:690/1530 train_loss:3.5378 train_time:114238ms step_avg:168.00ms
step:691/1530 train_loss:3.4156 train_time:114410ms step_avg:168.00ms
step:692/1530 train_loss:3.6249 train_time:114581ms step_avg:168.01ms
step:693/1530 train_loss:3.6435 train_time:114755ms step_avg:168.02ms
step:694/1530 train_loss:3.5484 train_time:114928ms step_avg:168.02ms
step:695/1530 train_loss:3.5302 train_time:115099ms step_avg:168.03ms
step:696/1530 train_loss:3.8551 train_time:115274ms step_avg:168.04ms
step:697/1530 train_loss:3.5904 train_time:115447ms step_avg:168.04ms
step:698/1530 train_loss:3.6495 train_time:115617ms step_avg:168.05ms
step:699/1530 train_loss:3.7681 train_time:115794ms step_avg:168.06ms
step:700/1530 train_loss:3.5700 train_time:115965ms step_avg:168.07ms
step:701/1530 train_loss:3.5408 train_time:116137ms step_avg:168.07ms
step:702/1530 train_loss:3.5177 train_time:116311ms step_avg:168.08ms
step:703/1530 train_loss:3.5002 train_time:116481ms step_avg:168.08ms
step:704/1530 train_loss:3.5761 train_time:116654ms step_avg:168.09ms
step:705/1530 train_loss:3.5689 train_time:116830ms step_avg:168.10ms
step:706/1530 train_loss:3.5807 train_time:117006ms step_avg:168.11ms
step:707/1530 train_loss:3.6426 train_time:117181ms step_avg:168.12ms
step:708/1530 train_loss:3.6012 train_time:117354ms step_avg:168.13ms
step:709/1530 train_loss:3.5851 train_time:117527ms step_avg:168.14ms
step:710/1530 train_loss:3.5392 train_time:117698ms step_avg:168.14ms
step:711/1530 train_loss:3.5951 train_time:117872ms step_avg:168.15ms
step:712/1530 train_loss:3.6462 train_time:118048ms step_avg:168.16ms
step:713/1530 train_loss:3.6460 train_time:118221ms step_avg:168.17ms
step:714/1530 train_loss:3.5629 train_time:118394ms step_avg:168.17ms
step:715/1530 train_loss:3.5681 train_time:118567ms step_avg:168.18ms
step:716/1530 train_loss:3.5868 train_time:118739ms step_avg:168.18ms
step:717/1530 train_loss:3.7006 train_time:118914ms step_avg:168.20ms
step:718/1530 train_loss:3.5947 train_time:119085ms step_avg:168.20ms
step:719/1530 train_loss:3.6801 train_time:119259ms step_avg:168.21ms
step:720/1530 train_loss:3.8501 train_time:119434ms step_avg:168.22ms
step:721/1530 train_loss:3.4679 train_time:119608ms step_avg:168.22ms
step:722/1530 train_loss:3.7385 train_time:119780ms step_avg:168.23ms
step:723/1530 train_loss:3.7658 train_time:119952ms step_avg:168.24ms
step:724/1530 train_loss:3.5726 train_time:120125ms step_avg:168.24ms
step:725/1530 train_loss:3.6552 train_time:120298ms step_avg:168.25ms
step:726/1530 train_loss:3.5329 train_time:120473ms step_avg:168.26ms
step:727/1530 train_loss:3.5804 train_time:120648ms step_avg:168.27ms
step:728/1530 train_loss:3.7307 train_time:120820ms step_avg:168.27ms
step:729/1530 train_loss:3.6709 train_time:120993ms step_avg:168.28ms
step:730/1530 train_loss:3.6639 train_time:121166ms step_avg:168.29ms
step:731/1530 train_loss:3.5586 train_time:121339ms step_avg:168.29ms
step:732/1530 train_loss:3.5934 train_time:121511ms step_avg:168.30ms
step:733/1530 train_loss:3.8318 train_time:121685ms step_avg:168.31ms
step:734/1530 train_loss:3.5709 train_time:121859ms step_avg:168.31ms
step:735/1530 train_loss:3.6181 train_time:122032ms step_avg:168.32ms
step:736/1530 train_loss:3.7371 train_time:122204ms step_avg:168.33ms
step:737/1530 train_loss:3.6740 train_time:122377ms step_avg:168.33ms
step:738/1530 train_loss:3.6028 train_time:122548ms step_avg:168.34ms
step:739/1530 train_loss:3.5064 train_time:122720ms step_avg:168.34ms
step:740/1530 train_loss:4.1141 train_time:122898ms step_avg:168.35ms
step:741/1530 train_loss:3.4952 train_time:123070ms step_avg:168.36ms
step:742/1530 train_loss:3.5556 train_time:123241ms step_avg:168.36ms
step:743/1530 train_loss:3.5856 train_time:123414ms step_avg:168.37ms
step:744/1530 train_loss:3.6487 train_time:123587ms step_avg:168.37ms
step:745/1530 train_loss:3.5871 train_time:123760ms step_avg:168.38ms
step:746/1530 train_loss:3.5937 train_time:123932ms step_avg:168.39ms
step:747/1530 train_loss:3.6396 train_time:124104ms step_avg:168.39ms
step:748/1530 train_loss:3.5651 train_time:124281ms step_avg:168.40ms
step:749/1530 train_loss:3.5648 train_time:124456ms step_avg:168.41ms
step:750/1530 train_loss:3.5930 train_time:124626ms step_avg:168.41ms
step:750/1530 val_loss:3.5657 train_time:124675ms step_avg:168.48ms
step:751/1530 train_loss:3.5714 train_time:124801ms step_avg:168.42ms
step:752/1530 train_loss:3.6095 train_time:124972ms step_avg:168.43ms
step:753/1530 train_loss:3.6190 train_time:125143ms step_avg:168.43ms
step:754/1530 train_loss:3.5918 train_time:125315ms step_avg:168.43ms
step:755/1530 train_loss:3.6765 train_time:125628ms step_avg:168.63ms
step:756/1530 train_loss:3.4667 train_time:125811ms step_avg:168.65ms
step:757/1530 train_loss:3.7234 train_time:125986ms step_avg:168.66ms
step:758/1530 train_loss:3.6470 train_time:126157ms step_avg:168.66ms
step:759/1530 train_loss:3.5902 train_time:126483ms step_avg:168.87ms
step:760/1530 train_loss:3.7032 train_time:126653ms step_avg:168.87ms
step:761/1530 train_loss:3.4022 train_time:126826ms step_avg:168.88ms
step:762/1530 train_loss:3.5483 train_time:127000ms step_avg:168.88ms
step:763/1530 train_loss:3.6629 train_time:127171ms step_avg:168.89ms
step:764/1530 train_loss:3.3237 train_time:127344ms step_avg:168.89ms
step:765/1530 train_loss:3.7320 train_time:127514ms step_avg:168.89ms
step:766/1530 train_loss:3.5697 train_time:127690ms step_avg:168.90ms
step:767/1530 train_loss:3.5624 train_time:127862ms step_avg:168.91ms
step:768/1530 train_loss:3.5718 train_time:128035ms step_avg:168.91ms
step:769/1530 train_loss:3.5848 train_time:128208ms step_avg:168.92ms
step:770/1530 train_loss:3.6354 train_time:128380ms step_avg:168.92ms
step:771/1530 train_loss:3.8814 train_time:128551ms step_avg:168.92ms
step:772/1530 train_loss:3.4569 train_time:128724ms step_avg:168.93ms
step:773/1530 train_loss:3.6311 train_time:128895ms step_avg:168.93ms
step:774/1530 train_loss:3.6437 train_time:129066ms step_avg:168.93ms
step:775/1530 train_loss:3.6082 train_time:129238ms step_avg:168.94ms
step:776/1530 train_loss:3.4042 train_time:129411ms step_avg:168.94ms
step:777/1530 train_loss:3.3934 train_time:129586ms step_avg:168.95ms
step:778/1530 train_loss:3.4910 train_time:129758ms step_avg:168.96ms
step:779/1530 train_loss:3.5870 train_time:129930ms step_avg:168.96ms
step:780/1530 train_loss:3.5890 train_time:130104ms step_avg:168.97ms
step:781/1530 train_loss:3.6688 train_time:130276ms step_avg:168.97ms
step:782/1530 train_loss:3.5899 train_time:130448ms step_avg:168.97ms
step:783/1530 train_loss:3.5687 train_time:130620ms step_avg:168.98ms
step:784/1530 train_loss:3.6063 train_time:130791ms step_avg:168.98ms
step:785/1530 train_loss:3.5584 train_time:130963ms step_avg:168.98ms
step:786/1530 train_loss:3.4385 train_time:131135ms step_avg:168.99ms
step:787/1530 train_loss:3.7231 train_time:131308ms step_avg:168.99ms
step:788/1530 train_loss:3.5018 train_time:131483ms step_avg:169.00ms
step:789/1530 train_loss:3.5536 train_time:131653ms step_avg:169.00ms
step:790/1530 train_loss:3.6313 train_time:131828ms step_avg:169.01ms
step:791/1530 train_loss:3.7731 train_time:132004ms step_avg:169.02ms
step:792/1530 train_loss:3.7615 train_time:132176ms step_avg:169.02ms
step:793/1530 train_loss:3.4507 train_time:132347ms step_avg:169.03ms
step:794/1530 train_loss:3.5927 train_time:132521ms step_avg:169.03ms
step:795/1530 train_loss:3.6751 train_time:132694ms step_avg:169.04ms
step:796/1530 train_loss:3.7594 train_time:132871ms step_avg:169.05ms
step:797/1530 train_loss:3.5261 train_time:133046ms step_avg:169.05ms
step:798/1530 train_loss:3.6419 train_time:133222ms step_avg:169.06ms
step:799/1530 train_loss:3.5346 train_time:133398ms step_avg:169.07ms
step:800/1530 train_loss:3.5332 train_time:133571ms step_avg:169.08ms
step:801/1530 train_loss:3.6308 train_time:133745ms step_avg:169.08ms
step:802/1530 train_loss:3.4939 train_time:133922ms step_avg:169.09ms
step:803/1530 train_loss:3.4845 train_time:134095ms step_avg:169.10ms
step:804/1530 train_loss:3.6248 train_time:134270ms step_avg:169.11ms
step:805/1530 train_loss:3.5215 train_time:134446ms step_avg:169.11ms
step:806/1530 train_loss:3.5616 train_time:134620ms step_avg:169.12ms
step:807/1530 train_loss:3.6397 train_time:134792ms step_avg:169.12ms
step:808/1530 train_loss:3.5377 train_time:134968ms step_avg:169.13ms
step:809/1530 train_loss:3.4928 train_time:135142ms step_avg:169.14ms
step:810/1530 train_loss:3.5641 train_time:135313ms step_avg:169.14ms
step:811/1530 train_loss:3.5777 train_time:135488ms step_avg:169.15ms
step:812/1530 train_loss:3.6046 train_time:135660ms step_avg:169.15ms
step:813/1530 train_loss:3.6279 train_time:135832ms step_avg:169.16ms
step:814/1530 train_loss:3.5658 train_time:136007ms step_avg:169.16ms
step:815/1530 train_loss:3.5635 train_time:136183ms step_avg:169.17ms
step:816/1530 train_loss:3.6870 train_time:136357ms step_avg:169.18ms
step:817/1530 train_loss:3.7664 train_time:136530ms step_avg:169.18ms
step:818/1530 train_loss:3.5278 train_time:136704ms step_avg:169.19ms
step:819/1530 train_loss:3.7181 train_time:136880ms step_avg:169.20ms
step:820/1530 train_loss:3.4924 train_time:137053ms step_avg:169.20ms
step:821/1530 train_loss:3.5631 train_time:137227ms step_avg:169.21ms
step:822/1530 train_loss:3.6957 train_time:137404ms step_avg:169.22ms
step:823/1530 train_loss:3.5703 train_time:137577ms step_avg:169.22ms
step:824/1530 train_loss:3.5135 train_time:137749ms step_avg:169.23ms
step:825/1530 train_loss:3.6170 train_time:137926ms step_avg:169.23ms
step:826/1530 train_loss:3.4826 train_time:138103ms step_avg:169.24ms
step:827/1530 train_loss:3.7324 train_time:138277ms step_avg:169.25ms
step:828/1530 train_loss:3.6205 train_time:138450ms step_avg:169.25ms
step:829/1530 train_loss:3.6284 train_time:138628ms step_avg:169.26ms
step:830/1530 train_loss:3.5397 train_time:138805ms step_avg:169.27ms
step:831/1530 train_loss:3.6014 train_time:138977ms step_avg:169.28ms
step:832/1530 train_loss:3.5152 train_time:139152ms step_avg:169.28ms
step:833/1530 train_loss:3.6533 train_time:139328ms step_avg:169.29ms
step:834/1530 train_loss:3.4709 train_time:139503ms step_avg:169.30ms
step:835/1530 train_loss:3.4575 train_time:139676ms step_avg:169.30ms
step:836/1530 train_loss:3.7151 train_time:139851ms step_avg:169.31ms
step:837/1530 train_loss:3.4011 train_time:140027ms step_avg:169.32ms
step:838/1530 train_loss:3.5920 train_time:140202ms step_avg:169.33ms
step:839/1530 train_loss:3.4205 train_time:140375ms step_avg:169.33ms
step:840/1530 train_loss:3.4705 train_time:140547ms step_avg:169.33ms
step:841/1530 train_loss:3.5732 train_time:140722ms step_avg:169.34ms
step:842/1530 train_loss:3.5810 train_time:140897ms step_avg:169.35ms
step:843/1530 train_loss:3.5619 train_time:141069ms step_avg:169.35ms
step:844/1530 train_loss:3.4293 train_time:141243ms step_avg:169.36ms
step:845/1530 train_loss:3.6654 train_time:141419ms step_avg:169.36ms
step:846/1530 train_loss:3.5175 train_time:141595ms step_avg:169.37ms
step:847/1530 train_loss:3.4922 train_time:141770ms step_avg:169.38ms
step:848/1530 train_loss:3.6387 train_time:141943ms step_avg:169.38ms
step:849/1530 train_loss:3.4925 train_time:142119ms step_avg:169.39ms
step:850/1530 train_loss:3.4517 train_time:142294ms step_avg:169.40ms
step:851/1530 train_loss:3.7360 train_time:142468ms step_avg:169.40ms
step:852/1530 train_loss:3.4424 train_time:142639ms step_avg:169.41ms
step:853/1530 train_loss:3.5635 train_time:142813ms step_avg:169.41ms
step:854/1530 train_loss:3.6524 train_time:142989ms step_avg:169.42ms
step:855/1530 train_loss:3.5209 train_time:143162ms step_avg:169.42ms
step:856/1530 train_loss:3.5504 train_time:143334ms step_avg:169.43ms
step:857/1530 train_loss:3.6091 train_time:143510ms step_avg:169.43ms
step:858/1530 train_loss:3.4677 train_time:143686ms step_avg:169.44ms
step:859/1530 train_loss:3.5523 train_time:143861ms step_avg:169.45ms
step:860/1530 train_loss:3.5888 train_time:144032ms step_avg:169.45ms
step:861/1530 train_loss:3.6378 train_time:144211ms step_avg:169.46ms
step:862/1530 train_loss:3.6040 train_time:144390ms step_avg:169.47ms
step:863/1530 train_loss:3.5680 train_time:144565ms step_avg:169.48ms
step:864/1530 train_loss:3.3846 train_time:144737ms step_avg:169.48ms
step:865/1530 train_loss:3.5958 train_time:144909ms step_avg:169.48ms
step:866/1530 train_loss:3.8718 train_time:145086ms step_avg:169.49ms
step:867/1530 train_loss:3.4584 train_time:145260ms step_avg:169.50ms
step:868/1530 train_loss:3.6428 train_time:145432ms step_avg:169.50ms
step:869/1530 train_loss:3.6149 train_time:145607ms step_avg:169.51ms
step:870/1530 train_loss:3.4522 train_time:145783ms step_avg:169.51ms
step:871/1530 train_loss:3.3954 train_time:145956ms step_avg:169.52ms
step:872/1530 train_loss:3.6464 train_time:146130ms step_avg:169.52ms
step:873/1530 train_loss:3.4613 train_time:146305ms step_avg:169.53ms
step:874/1530 train_loss:3.2190 train_time:146484ms step_avg:169.54ms
step:875/1530 train_loss:3.6310 train_time:146658ms step_avg:169.55ms
step:875/1530 val_loss:3.5189 train_time:146707ms step_avg:169.60ms
step:876/1530 train_loss:3.4375 train_time:146833ms step_avg:169.55ms
step:877/1530 train_loss:3.6189 train_time:147009ms step_avg:169.56ms
step:878/1530 train_loss:3.4668 train_time:147185ms step_avg:169.57ms
step:879/1530 train_loss:3.6507 train_time:147357ms step_avg:169.57ms
step:880/1530 train_loss:3.3087 train_time:147531ms step_avg:169.58ms
step:881/1530 train_loss:3.4722 train_time:147704ms step_avg:169.58ms
step:882/1530 train_loss:3.6950 train_time:147876ms step_avg:169.58ms
step:883/1530 train_loss:3.8417 train_time:148050ms step_avg:169.59ms
step:884/1530 train_loss:3.5661 train_time:148227ms step_avg:169.60ms
step:885/1530 train_loss:3.5017 train_time:148399ms step_avg:169.60ms
step:886/1530 train_loss:3.5711 train_time:148573ms step_avg:169.60ms
step:887/1530 train_loss:4.0854 train_time:148748ms step_avg:169.61ms
step:888/1530 train_loss:3.8346 train_time:148927ms step_avg:169.62ms
step:889/1530 train_loss:3.5219 train_time:149101ms step_avg:169.63ms
step:890/1530 train_loss:3.5313 train_time:149272ms step_avg:169.63ms
step:891/1530 train_loss:3.3576 train_time:149448ms step_avg:169.63ms
step:892/1530 train_loss:3.7186 train_time:149620ms step_avg:169.64ms
step:893/1530 train_loss:3.4213 train_time:149792ms step_avg:169.64ms
step:894/1530 train_loss:3.6431 train_time:149969ms step_avg:169.65ms
step:895/1530 train_loss:3.6786 train_time:150144ms step_avg:169.65ms
step:896/1530 train_loss:3.4956 train_time:150318ms step_avg:169.66ms
step:897/1530 train_loss:3.5482 train_time:150494ms step_avg:169.67ms
step:898/1530 train_loss:3.5886 train_time:150670ms step_avg:169.67ms
step:899/1530 train_loss:3.4761 train_time:150842ms step_avg:169.68ms
step:900/1530 train_loss:3.4248 train_time:151014ms step_avg:169.68ms
step:901/1530 train_loss:3.6172 train_time:151188ms step_avg:169.68ms
step:902/1530 train_loss:3.6331 train_time:151362ms step_avg:169.69ms
step:903/1530 train_loss:3.5412 train_time:151538ms step_avg:169.70ms
step:904/1530 train_loss:3.4910 train_time:151712ms step_avg:169.70ms
step:905/1530 train_loss:3.5013 train_time:151884ms step_avg:169.70ms
step:906/1530 train_loss:3.7076 train_time:152058ms step_avg:169.71ms
step:907/1530 train_loss:3.5198 train_time:152233ms step_avg:169.71ms
step:908/1530 train_loss:3.5665 train_time:152407ms step_avg:169.72ms
step:909/1530 train_loss:3.4517 train_time:152582ms step_avg:169.72ms
step:910/1530 train_loss:3.5303 train_time:152762ms step_avg:169.74ms
step:911/1530 train_loss:3.6443 train_time:152937ms step_avg:169.74ms
step:912/1530 train_loss:3.5936 train_time:153114ms step_avg:169.75ms
step:913/1530 train_loss:3.4620 train_time:153292ms step_avg:169.76ms
step:914/1530 train_loss:3.7442 train_time:153471ms step_avg:169.77ms
step:915/1530 train_loss:3.5332 train_time:153653ms step_avg:169.78ms
step:916/1530 train_loss:3.6189 train_time:153830ms step_avg:169.79ms
step:917/1530 train_loss:3.6025 train_time:154005ms step_avg:169.80ms
step:918/1530 train_loss:4.8196 train_time:154185ms step_avg:169.81ms
step:919/1530 train_loss:3.4990 train_time:154364ms step_avg:169.82ms
step:920/1530 train_loss:3.5893 train_time:154539ms step_avg:169.82ms
step:921/1530 train_loss:3.5529 train_time:154716ms step_avg:169.83ms
step:922/1530 train_loss:3.5799 train_time:154892ms step_avg:169.84ms
step:923/1530 train_loss:3.6114 train_time:155068ms step_avg:169.84ms
step:924/1530 train_loss:3.6800 train_time:155246ms step_avg:169.85ms
step:925/1530 train_loss:3.6462 train_time:155419ms step_avg:169.86ms
step:926/1530 train_loss:3.5532 train_time:155594ms step_avg:169.86ms
step:927/1530 train_loss:3.5539 train_time:155770ms step_avg:169.87ms
step:928/1530 train_loss:3.7823 train_time:155948ms step_avg:169.88ms
step:929/1530 train_loss:3.6104 train_time:156122ms step_avg:169.88ms
step:930/1530 train_loss:3.4001 train_time:156297ms step_avg:169.89ms
step:931/1530 train_loss:3.4939 train_time:156471ms step_avg:169.89ms
step:932/1530 train_loss:3.6476 train_time:156649ms step_avg:169.90ms
step:933/1530 train_loss:3.3633 train_time:156826ms step_avg:169.91ms
step:934/1530 train_loss:3.5830 train_time:157004ms step_avg:169.92ms
step:935/1530 train_loss:3.4408 train_time:157182ms step_avg:169.93ms
step:936/1530 train_loss:3.5164 train_time:157360ms step_avg:169.93ms
step:937/1530 train_loss:3.6253 train_time:157538ms step_avg:169.94ms
step:938/1530 train_loss:3.5463 train_time:157712ms step_avg:169.95ms
step:939/1530 train_loss:3.6718 train_time:157893ms step_avg:169.96ms
step:940/1530 train_loss:3.4835 train_time:158068ms step_avg:169.97ms
step:941/1530 train_loss:3.5451 train_time:158243ms step_avg:169.97ms
step:942/1530 train_loss:3.3613 train_time:158419ms step_avg:169.98ms
step:943/1530 train_loss:3.7125 train_time:158599ms step_avg:169.99ms
step:944/1530 train_loss:3.4036 train_time:158917ms step_avg:170.15ms
step:945/1530 train_loss:3.4214 train_time:159100ms step_avg:170.16ms
step:946/1530 train_loss:5.0718 train_time:159278ms step_avg:170.17ms
step:947/1530 train_loss:3.5986 train_time:159454ms step_avg:170.17ms
step:948/1530 train_loss:3.4832 train_time:159630ms step_avg:170.18ms
step:949/1530 train_loss:3.3762 train_time:159960ms step_avg:170.35ms
step:950/1530 train_loss:3.4450 train_time:160135ms step_avg:170.36ms
step:951/1530 train_loss:3.4099 train_time:160314ms step_avg:170.37ms
step:952/1530 train_loss:3.4752 train_time:160490ms step_avg:170.37ms
step:953/1530 train_loss:3.5661 train_time:160665ms step_avg:170.38ms
step:954/1530 train_loss:3.4451 train_time:160843ms step_avg:170.38ms
step:955/1530 train_loss:3.4786 train_time:161018ms step_avg:170.39ms
step:956/1530 train_loss:3.4409 train_time:161194ms step_avg:170.39ms
step:957/1530 train_loss:3.4957 train_time:161373ms step_avg:170.40ms
step:958/1530 train_loss:3.4996 train_time:161553ms step_avg:170.41ms
step:959/1530 train_loss:3.5048 train_time:161732ms step_avg:170.42ms
step:960/1530 train_loss:3.4040 train_time:161910ms step_avg:170.43ms
step:961/1530 train_loss:3.6446 train_time:162086ms step_avg:170.44ms
step:962/1530 train_loss:3.5964 train_time:162260ms step_avg:170.44ms
step:963/1530 train_loss:3.5145 train_time:162435ms step_avg:170.45ms
step:964/1530 train_loss:3.4242 train_time:162613ms step_avg:170.45ms
step:965/1530 train_loss:3.4817 train_time:162787ms step_avg:170.46ms
step:966/1530 train_loss:3.7067 train_time:162962ms step_avg:170.46ms
step:967/1530 train_loss:3.5224 train_time:163137ms step_avg:170.47ms
step:968/1530 train_loss:3.5136 train_time:163313ms step_avg:170.47ms
step:969/1530 train_loss:3.5824 train_time:163488ms step_avg:170.48ms
step:970/1530 train_loss:3.3770 train_time:163661ms step_avg:170.48ms
step:971/1530 train_loss:3.5297 train_time:163834ms step_avg:170.48ms
step:972/1530 train_loss:3.4801 train_time:164008ms step_avg:170.49ms
step:973/1530 train_loss:3.5417 train_time:164181ms step_avg:170.49ms
step:974/1530 train_loss:3.5854 train_time:164358ms step_avg:170.50ms
step:975/1530 train_loss:3.4666 train_time:164533ms step_avg:170.50ms
step:976/1530 train_loss:3.6729 train_time:164708ms step_avg:170.51ms
step:977/1530 train_loss:3.5711 train_time:164882ms step_avg:170.51ms
step:978/1530 train_loss:3.3610 train_time:165056ms step_avg:170.51ms
step:979/1530 train_loss:3.6177 train_time:165232ms step_avg:170.52ms
step:980/1530 train_loss:3.4148 train_time:165410ms step_avg:170.53ms
step:981/1530 train_loss:3.5707 train_time:165588ms step_avg:170.53ms
step:982/1530 train_loss:3.5384 train_time:165763ms step_avg:170.54ms
step:983/1530 train_loss:3.5206 train_time:165938ms step_avg:170.54ms
step:984/1530 train_loss:3.4922 train_time:166113ms step_avg:170.55ms
step:985/1530 train_loss:3.5720 train_time:166291ms step_avg:170.55ms
step:986/1530 train_loss:3.4103 train_time:166466ms step_avg:170.56ms
step:987/1530 train_loss:3.4836 train_time:166639ms step_avg:170.56ms
step:988/1530 train_loss:3.4849 train_time:166814ms step_avg:170.57ms
step:989/1530 train_loss:3.4178 train_time:166987ms step_avg:170.57ms
step:990/1530 train_loss:3.6646 train_time:167163ms step_avg:170.57ms
step:991/1530 train_loss:3.4707 train_time:167338ms step_avg:170.58ms
step:992/1530 train_loss:3.4421 train_time:167518ms step_avg:170.59ms
step:993/1530 train_loss:3.5000 train_time:167697ms step_avg:170.60ms
step:994/1530 train_loss:3.5965 train_time:167871ms step_avg:170.60ms
step:995/1530 train_loss:3.5285 train_time:168044ms step_avg:170.60ms
step:996/1530 train_loss:3.4580 train_time:168218ms step_avg:170.61ms
step:997/1530 train_loss:3.7556 train_time:168392ms step_avg:170.61ms
step:998/1530 train_loss:3.4415 train_time:168566ms step_avg:170.61ms
step:999/1530 train_loss:3.5862 train_time:168742ms step_avg:170.62ms
step:1000/1530 train_loss:3.4369 train_time:168920ms step_avg:170.63ms
step:1000/1530 val_loss:3.4653 train_time:168971ms step_avg:170.68ms
step:1001/1530 train_loss:3.4951 train_time:169096ms step_avg:170.63ms
step:1002/1530 train_loss:3.3769 train_time:169270ms step_avg:170.63ms
step:1003/1530 train_loss:3.5530 train_time:169446ms step_avg:170.64ms
step:1004/1530 train_loss:3.6020 train_time:169621ms step_avg:170.65ms
step:1005/1530 train_loss:3.3918 train_time:169795ms step_avg:170.65ms
step:1006/1530 train_loss:3.4607 train_time:169970ms step_avg:170.65ms
step:1007/1530 train_loss:3.4359 train_time:170146ms step_avg:170.66ms
step:1008/1530 train_loss:3.5583 train_time:170321ms step_avg:170.66ms
step:1009/1530 train_loss:3.6646 train_time:170500ms step_avg:170.67ms
step:1010/1530 train_loss:3.5606 train_time:170671ms step_avg:170.67ms
step:1011/1530 train_loss:3.5338 train_time:170846ms step_avg:170.68ms
step:1012/1530 train_loss:3.3931 train_time:171020ms step_avg:170.68ms
step:1013/1530 train_loss:3.5345 train_time:171195ms step_avg:170.68ms
step:1014/1530 train_loss:3.6205 train_time:171369ms step_avg:170.69ms
step:1015/1530 train_loss:3.3270 train_time:171547ms step_avg:170.69ms
step:1016/1530 train_loss:3.4063 train_time:171721ms step_avg:170.70ms
step:1017/1530 train_loss:3.3962 train_time:171897ms step_avg:170.70ms
step:1018/1530 train_loss:3.3933 train_time:172071ms step_avg:170.71ms
step:1019/1530 train_loss:3.5178 train_time:172247ms step_avg:170.71ms
step:1020/1530 train_loss:3.3827 train_time:172426ms step_avg:170.72ms
step:1021/1530 train_loss:3.3527 train_time:172601ms step_avg:170.72ms
step:1022/1530 train_loss:3.4805 train_time:172778ms step_avg:170.73ms
step:1023/1530 train_loss:3.5096 train_time:172953ms step_avg:170.73ms
step:1024/1530 train_loss:3.4751 train_time:173130ms step_avg:170.74ms
step:1025/1530 train_loss:3.4777 train_time:173307ms step_avg:170.75ms
step:1026/1530 train_loss:3.6179 train_time:173482ms step_avg:170.75ms
step:1027/1530 train_loss:3.3181 train_time:173659ms step_avg:170.76ms
step:1028/1530 train_loss:3.4000 train_time:173838ms step_avg:170.76ms
step:1029/1530 train_loss:3.3112 train_time:174017ms step_avg:170.77ms
step:1030/1530 train_loss:3.5359 train_time:174193ms step_avg:170.78ms
step:1031/1530 train_loss:3.5073 train_time:174370ms step_avg:170.78ms
step:1032/1530 train_loss:3.6928 train_time:174551ms step_avg:170.79ms
step:1033/1530 train_loss:3.4886 train_time:174727ms step_avg:170.80ms
step:1034/1530 train_loss:3.3984 train_time:174904ms step_avg:170.80ms
step:1035/1530 train_loss:3.4491 train_time:175081ms step_avg:170.81ms
step:1036/1530 train_loss:3.4859 train_time:175260ms step_avg:170.82ms
step:1037/1530 train_loss:3.7871 train_time:175438ms step_avg:170.83ms
step:1038/1530 train_loss:3.6104 train_time:175615ms step_avg:170.83ms
step:1039/1530 train_loss:3.5081 train_time:175795ms step_avg:170.84ms
step:1040/1530 train_loss:3.4176 train_time:175971ms step_avg:170.85ms
step:1041/1530 train_loss:3.4897 train_time:176149ms step_avg:170.85ms
step:1042/1530 train_loss:3.5192 train_time:176323ms step_avg:170.86ms
step:1043/1530 train_loss:3.4454 train_time:176498ms step_avg:170.86ms
step:1044/1530 train_loss:3.4541 train_time:176674ms step_avg:170.86ms
step:1045/1530 train_loss:3.5174 train_time:176851ms step_avg:170.87ms
step:1046/1530 train_loss:3.4242 train_time:177028ms step_avg:170.88ms
step:1047/1530 train_loss:3.6256 train_time:177205ms step_avg:170.88ms
step:1048/1530 train_loss:3.5006 train_time:177382ms step_avg:170.89ms
step:1049/1530 train_loss:3.4042 train_time:177558ms step_avg:170.89ms
step:1050/1530 train_loss:3.3885 train_time:177736ms step_avg:170.90ms
step:1051/1530 train_loss:3.4932 train_time:177913ms step_avg:170.91ms
step:1052/1530 train_loss:3.3655 train_time:178090ms step_avg:170.91ms
step:1053/1530 train_loss:3.6912 train_time:178268ms step_avg:170.92ms
step:1054/1530 train_loss:3.5396 train_time:178448ms step_avg:170.93ms
step:1055/1530 train_loss:3.3832 train_time:178623ms step_avg:170.93ms
step:1056/1530 train_loss:3.4921 train_time:178798ms step_avg:170.93ms
step:1057/1530 train_loss:3.5764 train_time:178974ms step_avg:170.94ms
step:1058/1530 train_loss:3.3031 train_time:179152ms step_avg:170.95ms
step:1059/1530 train_loss:3.3660 train_time:179333ms step_avg:170.96ms
step:1060/1530 train_loss:3.4333 train_time:179509ms step_avg:170.96ms
step:1061/1530 train_loss:3.4140 train_time:179685ms step_avg:170.97ms
step:1062/1530 train_loss:3.3824 train_time:179864ms step_avg:170.97ms
step:1063/1530 train_loss:3.4590 train_time:180040ms step_avg:170.98ms
step:1064/1530 train_loss:3.3793 train_time:180213ms step_avg:170.98ms
step:1065/1530 train_loss:3.3609 train_time:180390ms step_avg:170.99ms
step:1066/1530 train_loss:3.4129 train_time:180567ms step_avg:170.99ms
step:1067/1530 train_loss:3.2861 train_time:180746ms step_avg:171.00ms
step:1068/1530 train_loss:3.4336 train_time:180922ms step_avg:171.00ms
step:1069/1530 train_loss:3.2987 train_time:181103ms step_avg:171.01ms
step:1070/1530 train_loss:3.5661 train_time:181278ms step_avg:171.02ms
step:1071/1530 train_loss:3.5115 train_time:181457ms step_avg:171.02ms
step:1072/1530 train_loss:3.4386 train_time:181632ms step_avg:171.03ms
step:1073/1530 train_loss:3.5214 train_time:181806ms step_avg:171.03ms
step:1074/1530 train_loss:3.4283 train_time:181984ms step_avg:171.04ms
step:1075/1530 train_loss:3.3987 train_time:182162ms step_avg:171.04ms
step:1076/1530 train_loss:3.7930 train_time:182338ms step_avg:171.05ms
step:1077/1530 train_loss:3.4336 train_time:182511ms step_avg:171.05ms
step:1078/1530 train_loss:3.1006 train_time:182695ms step_avg:171.06ms
step:1079/1530 train_loss:3.5320 train_time:182871ms step_avg:171.07ms
step:1080/1530 train_loss:3.4263 train_time:183049ms step_avg:171.07ms
step:1081/1530 train_loss:3.5041 train_time:183224ms step_avg:171.08ms
step:1082/1530 train_loss:3.5920 train_time:183400ms step_avg:171.08ms
step:1083/1530 train_loss:3.4944 train_time:183575ms step_avg:171.09ms
step:1084/1530 train_loss:3.4628 train_time:183750ms step_avg:171.09ms
step:1085/1530 train_loss:3.4361 train_time:183926ms step_avg:171.09ms
step:1086/1530 train_loss:3.6192 train_time:184103ms step_avg:171.10ms
step:1087/1530 train_loss:3.5014 train_time:184279ms step_avg:171.10ms
step:1088/1530 train_loss:3.3711 train_time:184454ms step_avg:171.11ms
step:1089/1530 train_loss:3.3715 train_time:184635ms step_avg:171.12ms
step:1090/1530 train_loss:3.4805 train_time:184813ms step_avg:171.12ms
step:1091/1530 train_loss:3.2900 train_time:184989ms step_avg:171.13ms
step:1092/1530 train_loss:3.4875 train_time:185167ms step_avg:171.13ms
step:1093/1530 train_loss:3.5948 train_time:185345ms step_avg:171.14ms
step:1094/1530 train_loss:3.4483 train_time:185522ms step_avg:171.15ms
step:1095/1530 train_loss:3.4183 train_time:185696ms step_avg:171.15ms
step:1096/1530 train_loss:3.4230 train_time:185873ms step_avg:171.15ms
step:1097/1530 train_loss:3.4904 train_time:186050ms step_avg:171.16ms
step:1098/1530 train_loss:3.5609 train_time:186228ms step_avg:171.17ms
step:1099/1530 train_loss:3.5274 train_time:186405ms step_avg:171.17ms
step:1100/1530 train_loss:3.4251 train_time:186585ms step_avg:171.18ms
step:1101/1530 train_loss:3.2898 train_time:186764ms step_avg:171.19ms
step:1102/1530 train_loss:3.3085 train_time:186943ms step_avg:171.19ms
step:1103/1530 train_loss:3.4400 train_time:187126ms step_avg:171.20ms
step:1104/1530 train_loss:3.3182 train_time:187302ms step_avg:171.21ms
step:1105/1530 train_loss:4.0642 train_time:187481ms step_avg:171.22ms
step:1106/1530 train_loss:3.2262 train_time:187656ms step_avg:171.22ms
step:1107/1530 train_loss:3.5634 train_time:187832ms step_avg:171.22ms
step:1108/1530 train_loss:3.3486 train_time:188006ms step_avg:171.23ms
step:1109/1530 train_loss:3.5018 train_time:188182ms step_avg:171.23ms
step:1110/1530 train_loss:3.4294 train_time:188356ms step_avg:171.23ms
step:1111/1530 train_loss:3.4807 train_time:188532ms step_avg:171.24ms
step:1112/1530 train_loss:3.5603 train_time:188710ms step_avg:171.24ms
step:1113/1530 train_loss:3.4316 train_time:188893ms step_avg:171.25ms
step:1114/1530 train_loss:3.3702 train_time:189073ms step_avg:171.26ms
step:1115/1530 train_loss:3.2408 train_time:189251ms step_avg:171.27ms
step:1116/1530 train_loss:3.4252 train_time:189426ms step_avg:171.27ms
step:1117/1530 train_loss:3.5928 train_time:189604ms step_avg:171.28ms
step:1118/1530 train_loss:3.6205 train_time:189779ms step_avg:171.28ms
step:1119/1530 train_loss:3.4766 train_time:189954ms step_avg:171.28ms
step:1120/1530 train_loss:3.4882 train_time:190130ms step_avg:171.29ms
step:1121/1530 train_loss:3.3872 train_time:190308ms step_avg:171.29ms
step:1122/1530 train_loss:3.4599 train_time:190484ms step_avg:171.30ms
step:1123/1530 train_loss:3.5752 train_time:190662ms step_avg:171.30ms
step:1124/1530 train_loss:3.3354 train_time:190840ms step_avg:171.31ms
step:1125/1530 train_loss:3.2316 train_time:191015ms step_avg:171.31ms
step:1125/1530 val_loss:3.4087 train_time:191066ms step_avg:171.36ms
step:1126/1530 train_loss:3.4777 train_time:191193ms step_avg:171.32ms
step:1127/1530 train_loss:3.6692 train_time:191374ms step_avg:171.33ms
step:1128/1530 train_loss:3.2267 train_time:191553ms step_avg:171.33ms
step:1129/1530 train_loss:3.5555 train_time:191732ms step_avg:171.34ms
step:1130/1530 train_loss:3.3772 train_time:191909ms step_avg:171.35ms
step:1131/1530 train_loss:3.4009 train_time:192092ms step_avg:171.36ms
step:1132/1530 train_loss:3.3677 train_time:192265ms step_avg:171.36ms
step:1133/1530 train_loss:3.4840 train_time:192581ms step_avg:171.49ms
step:1134/1530 train_loss:3.4466 train_time:192764ms step_avg:171.50ms
step:1135/1530 train_loss:3.5215 train_time:192940ms step_avg:171.50ms
step:1136/1530 train_loss:3.5628 train_time:193118ms step_avg:171.51ms
step:1137/1530 train_loss:3.4542 train_time:193295ms step_avg:171.51ms
step:1138/1530 train_loss:3.3535 train_time:193474ms step_avg:171.52ms
step:1139/1530 train_loss:3.6542 train_time:193811ms step_avg:171.67ms
step:1140/1530 train_loss:3.4573 train_time:193988ms step_avg:171.67ms
step:1141/1530 train_loss:3.5935 train_time:194167ms step_avg:171.68ms
step:1142/1530 train_loss:3.4480 train_time:194345ms step_avg:171.68ms
step:1143/1530 train_loss:3.3659 train_time:194523ms step_avg:171.69ms
step:1144/1530 train_loss:3.4418 train_time:194700ms step_avg:171.69ms
step:1145/1530 train_loss:3.5942 train_time:194876ms step_avg:171.70ms
step:1146/1530 train_loss:3.5551 train_time:195058ms step_avg:171.71ms
step:1147/1530 train_loss:3.5077 train_time:195238ms step_avg:171.71ms
step:1148/1530 train_loss:3.4970 train_time:195416ms step_avg:171.72ms
step:1149/1530 train_loss:3.3227 train_time:195596ms step_avg:171.73ms
step:1150/1530 train_loss:3.3735 train_time:195771ms step_avg:171.73ms
step:1151/1530 train_loss:3.3210 train_time:195952ms step_avg:171.74ms
step:1152/1530 train_loss:3.3977 train_time:196134ms step_avg:171.75ms
step:1153/1530 train_loss:3.4368 train_time:196315ms step_avg:171.75ms
step:1154/1530 train_loss:3.5114 train_time:196492ms step_avg:171.76ms
step:1155/1530 train_loss:3.3216 train_time:196675ms step_avg:171.77ms
step:1156/1530 train_loss:3.5383 train_time:196858ms step_avg:171.78ms
step:1157/1530 train_loss:3.4944 train_time:197037ms step_avg:171.78ms
step:1158/1530 train_loss:3.2479 train_time:197214ms step_avg:171.79ms
step:1159/1530 train_loss:3.3488 train_time:197391ms step_avg:171.79ms
step:1160/1530 train_loss:3.3370 train_time:197564ms step_avg:171.79ms
step:1161/1530 train_loss:3.0939 train_time:197745ms step_avg:171.80ms
step:1162/1530 train_loss:3.4201 train_time:197922ms step_avg:171.81ms
step:1163/1530 train_loss:3.3924 train_time:198101ms step_avg:171.81ms
step:1164/1530 train_loss:3.2898 train_time:198279ms step_avg:171.82ms
step:1165/1530 train_loss:3.2468 train_time:198455ms step_avg:171.82ms
step:1166/1530 train_loss:3.3908 train_time:198635ms step_avg:171.83ms
step:1167/1530 train_loss:3.4112 train_time:198811ms step_avg:171.83ms
step:1168/1530 train_loss:3.7208 train_time:198986ms step_avg:171.84ms
step:1169/1530 train_loss:3.3750 train_time:199162ms step_avg:171.84ms
step:1170/1530 train_loss:3.3910 train_time:199339ms step_avg:171.84ms
step:1171/1530 train_loss:3.2938 train_time:199515ms step_avg:171.85ms
step:1172/1530 train_loss:3.4299 train_time:199691ms step_avg:171.85ms
step:1173/1530 train_loss:3.5421 train_time:199872ms step_avg:171.86ms
step:1174/1530 train_loss:3.3854 train_time:200057ms step_avg:171.87ms
step:1175/1530 train_loss:3.3625 train_time:200237ms step_avg:171.88ms
step:1176/1530 train_loss:3.4298 train_time:200418ms step_avg:171.89ms
step:1177/1530 train_loss:3.4494 train_time:200602ms step_avg:171.90ms
step:1178/1530 train_loss:3.4998 train_time:200778ms step_avg:171.90ms
step:1179/1530 train_loss:3.4003 train_time:200955ms step_avg:171.90ms
step:1180/1530 train_loss:3.3490 train_time:201143ms step_avg:171.92ms
step:1181/1530 train_loss:3.3336 train_time:201319ms step_avg:171.92ms
step:1182/1530 train_loss:3.3766 train_time:201496ms step_avg:171.92ms
step:1183/1530 train_loss:3.3326 train_time:201674ms step_avg:171.93ms
step:1184/1530 train_loss:3.5073 train_time:201852ms step_avg:171.94ms
step:1185/1530 train_loss:3.5419 train_time:202035ms step_avg:171.94ms
step:1186/1530 train_loss:3.3658 train_time:202216ms step_avg:171.95ms
step:1187/1530 train_loss:3.4149 train_time:202400ms step_avg:171.96ms
step:1188/1530 train_loss:3.4415 train_time:202577ms step_avg:171.97ms
step:1189/1530 train_loss:3.2721 train_time:202757ms step_avg:171.97ms
step:1190/1530 train_loss:3.4401 train_time:202937ms step_avg:171.98ms
step:1191/1530 train_loss:3.5772 train_time:203119ms step_avg:171.99ms
step:1192/1530 train_loss:3.3940 train_time:203294ms step_avg:171.99ms
step:1193/1530 train_loss:3.2812 train_time:203471ms step_avg:172.00ms
step:1194/1530 train_loss:3.5559 train_time:203648ms step_avg:172.00ms
step:1195/1530 train_loss:3.3670 train_time:203828ms step_avg:172.01ms
step:1196/1530 train_loss:3.3856 train_time:204015ms step_avg:172.02ms
step:1197/1530 train_loss:3.2941 train_time:204195ms step_avg:172.03ms
step:1198/1530 train_loss:3.2982 train_time:204380ms step_avg:172.04ms
step:1199/1530 train_loss:3.3415 train_time:204561ms step_avg:172.04ms
step:1200/1530 train_loss:3.4457 train_time:204738ms step_avg:172.05ms
step:1201/1530 train_loss:3.4822 train_time:204916ms step_avg:172.05ms
step:1202/1530 train_loss:3.6184 train_time:205105ms step_avg:172.07ms
step:1203/1530 train_loss:3.4073 train_time:205285ms step_avg:172.07ms
step:1204/1530 train_loss:3.3107 train_time:205467ms step_avg:172.08ms
step:1205/1530 train_loss:3.4376 train_time:205643ms step_avg:172.09ms
step:1206/1530 train_loss:3.4751 train_time:205821ms step_avg:172.09ms
step:1207/1530 train_loss:3.5185 train_time:205999ms step_avg:172.10ms
step:1208/1530 train_loss:3.3987 train_time:206175ms step_avg:172.10ms
step:1209/1530 train_loss:3.2486 train_time:206355ms step_avg:172.11ms
step:1210/1530 train_loss:3.3034 train_time:206535ms step_avg:172.11ms
step:1211/1530 train_loss:3.3941 train_time:206711ms step_avg:172.12ms
step:1212/1530 train_loss:3.3978 train_time:206887ms step_avg:172.12ms
step:1213/1530 train_loss:3.4120 train_time:207066ms step_avg:172.12ms
step:1214/1530 train_loss:3.2492 train_time:207247ms step_avg:172.13ms
step:1215/1530 train_loss:3.3960 train_time:207423ms step_avg:172.14ms
step:1216/1530 train_loss:3.3330 train_time:207600ms step_avg:172.14ms
step:1217/1530 train_loss:3.3222 train_time:207779ms step_avg:172.14ms
step:1218/1530 train_loss:3.4121 train_time:207958ms step_avg:172.15ms
step:1219/1530 train_loss:3.2509 train_time:208141ms step_avg:172.16ms
step:1220/1530 train_loss:3.4788 train_time:208318ms step_avg:172.16ms
step:1221/1530 train_loss:3.5026 train_time:208493ms step_avg:172.17ms
step:1222/1530 train_loss:3.4326 train_time:208667ms step_avg:172.17ms
step:1223/1530 train_loss:3.2959 train_time:208845ms step_avg:172.17ms
step:1224/1530 train_loss:3.2512 train_time:209027ms step_avg:172.18ms
step:1225/1530 train_loss:3.3671 train_time:209203ms step_avg:172.18ms
step:1226/1530 train_loss:3.3351 train_time:209385ms step_avg:172.19ms
step:1227/1530 train_loss:3.2739 train_time:209564ms step_avg:172.20ms
step:1228/1530 train_loss:3.4454 train_time:209739ms step_avg:172.20ms
step:1229/1530 train_loss:3.3688 train_time:209917ms step_avg:172.20ms
step:1230/1530 train_loss:3.3987 train_time:210099ms step_avg:172.21ms
step:1231/1530 train_loss:3.5821 train_time:210280ms step_avg:172.22ms
step:1232/1530 train_loss:3.4995 train_time:210461ms step_avg:172.23ms
step:1233/1530 train_loss:3.4287 train_time:210638ms step_avg:172.23ms
step:1234/1530 train_loss:3.5825 train_time:210816ms step_avg:172.24ms
step:1235/1530 train_loss:3.3218 train_time:210997ms step_avg:172.24ms
step:1236/1530 train_loss:3.2894 train_time:211175ms step_avg:172.25ms
step:1237/1530 train_loss:3.2748 train_time:211353ms step_avg:172.25ms
step:1238/1530 train_loss:3.2750 train_time:211536ms step_avg:172.26ms
step:1239/1530 train_loss:3.3319 train_time:211714ms step_avg:172.26ms
step:1240/1530 train_loss:3.3865 train_time:211890ms step_avg:172.27ms
step:1241/1530 train_loss:3.4233 train_time:212068ms step_avg:172.27ms
step:1242/1530 train_loss:3.2993 train_time:212244ms step_avg:172.28ms
step:1243/1530 train_loss:3.3979 train_time:212423ms step_avg:172.28ms
step:1244/1530 train_loss:3.4028 train_time:212596ms step_avg:172.28ms
step:1245/1530 train_loss:3.4135 train_time:212774ms step_avg:172.29ms
step:1246/1530 train_loss:3.2445 train_time:212954ms step_avg:172.29ms
step:1247/1530 train_loss:3.3744 train_time:213130ms step_avg:172.30ms
step:1248/1530 train_loss:3.4285 train_time:213305ms step_avg:172.30ms
step:1249/1530 train_loss:3.4265 train_time:213483ms step_avg:172.30ms
step:1250/1530 train_loss:3.3037 train_time:213661ms step_avg:172.31ms
step:1250/1530 val_loss:3.3554 train_time:213716ms step_avg:172.35ms
step:1251/1530 train_loss:3.4922 train_time:213849ms step_avg:172.32ms
step:1252/1530 train_loss:3.3621 train_time:214025ms step_avg:172.32ms
step:1253/1530 train_loss:3.3117 train_time:214200ms step_avg:172.32ms
step:1254/1530 train_loss:3.4172 train_time:214382ms step_avg:172.33ms
step:1255/1530 train_loss:3.5182 train_time:214572ms step_avg:172.35ms
step:1256/1530 train_loss:3.3049 train_time:214755ms step_avg:172.36ms
step:1257/1530 train_loss:3.3738 train_time:214933ms step_avg:172.36ms
step:1258/1530 train_loss:3.3683 train_time:215117ms step_avg:172.37ms
step:1259/1530 train_loss:3.3188 train_time:215296ms step_avg:172.37ms
step:1260/1530 train_loss:3.2084 train_time:215473ms step_avg:172.38ms
step:1261/1530 train_loss:3.3005 train_time:215654ms step_avg:172.39ms
step:1262/1530 train_loss:3.3297 train_time:215838ms step_avg:172.39ms
step:1263/1530 train_loss:3.2416 train_time:216019ms step_avg:172.40ms
step:1264/1530 train_loss:3.4423 train_time:216196ms step_avg:172.40ms
step:1265/1530 train_loss:3.4257 train_time:216371ms step_avg:172.41ms
step:1266/1530 train_loss:3.4414 train_time:216550ms step_avg:172.41ms
step:1267/1530 train_loss:3.3700 train_time:216729ms step_avg:172.42ms
step:1268/1530 train_loss:3.4123 train_time:216909ms step_avg:172.42ms
step:1269/1530 train_loss:3.2526 train_time:217093ms step_avg:172.43ms
step:1270/1530 train_loss:3.1058 train_time:217270ms step_avg:172.44ms
step:1271/1530 train_loss:3.4064 train_time:217450ms step_avg:172.44ms
step:1272/1530 train_loss:3.3561 train_time:217626ms step_avg:172.45ms
step:1273/1530 train_loss:3.3841 train_time:217808ms step_avg:172.45ms
step:1274/1530 train_loss:3.3629 train_time:217988ms step_avg:172.46ms
step:1275/1530 train_loss:3.4313 train_time:218165ms step_avg:172.46ms
step:1276/1530 train_loss:3.4710 train_time:218339ms step_avg:172.46ms
step:1277/1530 train_loss:3.4137 train_time:218518ms step_avg:172.47ms
step:1278/1530 train_loss:3.4102 train_time:218693ms step_avg:172.47ms
step:1279/1530 train_loss:3.2630 train_time:218875ms step_avg:172.48ms
step:1280/1530 train_loss:3.3679 train_time:219061ms step_avg:172.49ms
step:1281/1530 train_loss:3.4234 train_time:219237ms step_avg:172.49ms
step:1282/1530 train_loss:3.4694 train_time:219413ms step_avg:172.49ms
step:1283/1530 train_loss:3.3359 train_time:219592ms step_avg:172.50ms
step:1284/1530 train_loss:3.3734 train_time:219771ms step_avg:172.50ms
step:1285/1530 train_loss:3.3624 train_time:219950ms step_avg:172.51ms
step:1286/1530 train_loss:3.3329 train_time:220128ms step_avg:172.51ms
step:1287/1530 train_loss:3.4846 train_time:220307ms step_avg:172.52ms
step:1288/1530 train_loss:3.2974 train_time:220487ms step_avg:172.52ms
step:1289/1530 train_loss:3.3837 train_time:220673ms step_avg:172.54ms
step:1290/1530 train_loss:3.4561 train_time:220859ms step_avg:172.55ms
step:1291/1530 train_loss:3.3857 train_time:221040ms step_avg:172.55ms
step:1292/1530 train_loss:3.4770 train_time:221221ms step_avg:172.56ms
step:1293/1530 train_loss:3.5126 train_time:221401ms step_avg:172.57ms
step:1294/1530 train_loss:3.4586 train_time:221581ms step_avg:172.57ms
step:1295/1530 train_loss:3.2829 train_time:221760ms step_avg:172.58ms
step:1296/1530 train_loss:3.3712 train_time:221944ms step_avg:172.58ms
step:1297/1530 train_loss:3.2760 train_time:222122ms step_avg:172.59ms
step:1298/1530 train_loss:3.2728 train_time:222300ms step_avg:172.59ms
step:1299/1530 train_loss:3.3958 train_time:222478ms step_avg:172.60ms
step:1300/1530 train_loss:3.4058 train_time:222655ms step_avg:172.60ms
step:1301/1530 train_loss:3.4014 train_time:222833ms step_avg:172.60ms
step:1302/1530 train_loss:3.5788 train_time:223016ms step_avg:172.61ms
step:1303/1530 train_loss:3.3051 train_time:223198ms step_avg:172.62ms
step:1304/1530 train_loss:3.5123 train_time:223378ms step_avg:172.63ms
step:1305/1530 train_loss:3.2563 train_time:223554ms step_avg:172.63ms
step:1306/1530 train_loss:3.4506 train_time:223736ms step_avg:172.64ms
step:1307/1530 train_loss:3.4517 train_time:223910ms step_avg:172.64ms
step:1308/1530 train_loss:3.2882 train_time:224090ms step_avg:172.64ms
step:1309/1530 train_loss:3.3154 train_time:224269ms step_avg:172.65ms
step:1310/1530 train_loss:3.2827 train_time:224447ms step_avg:172.65ms
step:1311/1530 train_loss:3.2962 train_time:224624ms step_avg:172.65ms
step:1312/1530 train_loss:3.3774 train_time:224803ms step_avg:172.66ms
step:1313/1530 train_loss:3.3424 train_time:224978ms step_avg:172.66ms
step:1314/1530 train_loss:3.0453 train_time:225162ms step_avg:172.67ms
step:1315/1530 train_loss:3.2777 train_time:225340ms step_avg:172.67ms
step:1316/1530 train_loss:3.3968 train_time:225515ms step_avg:172.68ms
step:1317/1530 train_loss:3.4230 train_time:225694ms step_avg:172.68ms
step:1318/1530 train_loss:3.3045 train_time:225880ms step_avg:172.69ms
step:1319/1530 train_loss:3.4283 train_time:226059ms step_avg:172.70ms
step:1320/1530 train_loss:3.4622 train_time:226240ms step_avg:172.70ms
step:1321/1530 train_loss:3.3659 train_time:226419ms step_avg:172.71ms
step:1322/1530 train_loss:3.3283 train_time:226736ms step_avg:172.82ms
step:1323/1530 train_loss:3.3209 train_time:226928ms step_avg:172.83ms
step:1324/1530 train_loss:3.4375 train_time:227107ms step_avg:172.84ms
step:1325/1530 train_loss:3.4938 train_time:227291ms step_avg:172.85ms
step:1326/1530 train_loss:3.2184 train_time:227473ms step_avg:172.85ms
step:1327/1530 train_loss:3.1664 train_time:227649ms step_avg:172.85ms
step:1328/1530 train_loss:3.4952 train_time:227828ms step_avg:172.86ms
step:1329/1530 train_loss:3.2992 train_time:228171ms step_avg:172.99ms
step:1330/1530 train_loss:3.4313 train_time:228353ms step_avg:172.99ms
step:1331/1530 train_loss:3.3323 train_time:228530ms step_avg:173.00ms
step:1332/1530 train_loss:3.7428 train_time:228711ms step_avg:173.00ms
step:1333/1530 train_loss:3.4818 train_time:228891ms step_avg:173.01ms
step:1334/1530 train_loss:3.3726 train_time:229070ms step_avg:173.01ms
step:1335/1530 train_loss:3.2939 train_time:229250ms step_avg:173.02ms
step:1336/1530 train_loss:3.2970 train_time:229435ms step_avg:173.03ms
step:1337/1530 train_loss:3.5567 train_time:229615ms step_avg:173.03ms
step:1338/1530 train_loss:3.5256 train_time:229793ms step_avg:173.04ms
step:1339/1530 train_loss:3.3393 train_time:229973ms step_avg:173.04ms
step:1340/1530 train_loss:3.2890 train_time:230152ms step_avg:173.05ms
step:1341/1530 train_loss:3.5968 train_time:230331ms step_avg:173.05ms
step:1342/1530 train_loss:3.3602 train_time:230512ms step_avg:173.06ms
step:1343/1530 train_loss:3.3684 train_time:230690ms step_avg:173.06ms
step:1344/1530 train_loss:3.4154 train_time:230873ms step_avg:173.07ms
step:1345/1530 train_loss:3.3846 train_time:231054ms step_avg:173.07ms
step:1346/1530 train_loss:3.2970 train_time:231232ms step_avg:173.08ms
step:1347/1530 train_loss:3.2781 train_time:231410ms step_avg:173.08ms
step:1348/1530 train_loss:3.3484 train_time:231588ms step_avg:173.09ms
step:1349/1530 train_loss:3.2762 train_time:231763ms step_avg:173.09ms
step:1350/1530 train_loss:3.3929 train_time:231945ms step_avg:173.09ms
step:1351/1530 train_loss:3.2465 train_time:232119ms step_avg:173.09ms
step:1352/1530 train_loss:3.3077 train_time:232297ms step_avg:173.10ms
step:1353/1530 train_loss:3.4041 train_time:232476ms step_avg:173.10ms
step:1354/1530 train_loss:3.2579 train_time:232654ms step_avg:173.11ms
step:1355/1530 train_loss:3.1901 train_time:232832ms step_avg:173.11ms
step:1356/1530 train_loss:3.5154 train_time:233014ms step_avg:173.12ms
step:1357/1530 train_loss:3.4231 train_time:233194ms step_avg:173.12ms
step:1358/1530 train_loss:3.1874 train_time:233374ms step_avg:173.13ms
step:1359/1530 train_loss:3.4446 train_time:233554ms step_avg:173.13ms
step:1360/1530 train_loss:3.3520 train_time:233734ms step_avg:173.14ms
step:1361/1530 train_loss:3.1232 train_time:233919ms step_avg:173.15ms
step:1362/1530 train_loss:3.3944 train_time:234101ms step_avg:173.15ms
step:1363/1530 train_loss:3.2874 train_time:234289ms step_avg:173.16ms
step:1364/1530 train_loss:3.3005 train_time:234468ms step_avg:173.17ms
step:1365/1530 train_loss:3.3174 train_time:234648ms step_avg:173.17ms
step:1366/1530 train_loss:3.4188 train_time:234828ms step_avg:173.18ms
step:1367/1530 train_loss:3.3984 train_time:235006ms step_avg:173.18ms
step:1368/1530 train_loss:3.3484 train_time:235187ms step_avg:173.19ms
step:1369/1530 train_loss:3.2774 train_time:235374ms step_avg:173.20ms
step:1370/1530 train_loss:3.6103 train_time:235555ms step_avg:173.20ms
step:1371/1530 train_loss:3.3172 train_time:235737ms step_avg:173.21ms
step:1372/1530 train_loss:3.3760 train_time:235920ms step_avg:173.22ms
step:1373/1530 train_loss:3.3689 train_time:236099ms step_avg:173.22ms
step:1374/1530 train_loss:3.1542 train_time:236279ms step_avg:173.23ms
step:1375/1530 train_loss:3.5389 train_time:236458ms step_avg:173.23ms
step:1375/1530 val_loss:3.3132 train_time:236510ms step_avg:173.27ms
step:1376/1530 train_loss:3.3479 train_time:236638ms step_avg:173.23ms
step:1377/1530 train_loss:3.4783 train_time:236818ms step_avg:173.24ms
step:1378/1530 train_loss:3.4624 train_time:236996ms step_avg:173.24ms
step:1379/1530 train_loss:3.1214 train_time:237179ms step_avg:173.25ms
step:1380/1530 train_loss:3.3143 train_time:237357ms step_avg:173.25ms
step:1381/1530 train_loss:3.6941 train_time:237542ms step_avg:173.26ms
step:1382/1530 train_loss:3.2149 train_time:237720ms step_avg:173.27ms
step:1383/1530 train_loss:3.3924 train_time:237902ms step_avg:173.27ms
step:1384/1530 train_loss:3.4756 train_time:238087ms step_avg:173.28ms
step:1385/1530 train_loss:3.4069 train_time:238262ms step_avg:173.28ms
step:1386/1530 train_loss:3.3465 train_time:238441ms step_avg:173.29ms
step:1387/1530 train_loss:3.2017 train_time:238621ms step_avg:173.29ms
step:1388/1530 train_loss:3.3503 train_time:238799ms step_avg:173.29ms
step:1389/1530 train_loss:3.3182 train_time:238980ms step_avg:173.30ms
step:1390/1530 train_loss:3.5719 train_time:239157ms step_avg:173.30ms
step:1391/1530 train_loss:3.2944 train_time:239336ms step_avg:173.31ms
step:1392/1530 train_loss:3.2869 train_time:239517ms step_avg:173.31ms
step:1393/1530 train_loss:3.2383 train_time:239697ms step_avg:173.32ms
step:1394/1530 train_loss:3.5007 train_time:239873ms step_avg:173.32ms
step:1395/1530 train_loss:3.3927 train_time:240052ms step_avg:173.32ms
step:1396/1530 train_loss:3.4064 train_time:240230ms step_avg:173.33ms
step:1397/1530 train_loss:3.3101 train_time:240406ms step_avg:173.33ms
step:1398/1530 train_loss:3.2582 train_time:240581ms step_avg:173.33ms
step:1399/1530 train_loss:3.3179 train_time:240761ms step_avg:173.33ms
step:1400/1530 train_loss:3.3221 train_time:240945ms step_avg:173.34ms
step:1401/1530 train_loss:3.3528 train_time:241122ms step_avg:173.34ms
step:1402/1530 train_loss:3.3045 train_time:241302ms step_avg:173.35ms
step:1403/1530 train_loss:3.4931 train_time:241487ms step_avg:173.36ms
step:1404/1530 train_loss:3.2810 train_time:241664ms step_avg:173.36ms
step:1405/1530 train_loss:3.3184 train_time:241844ms step_avg:173.36ms
step:1406/1530 train_loss:3.3152 train_time:242025ms step_avg:173.37ms
step:1407/1530 train_loss:3.1775 train_time:242200ms step_avg:173.37ms
step:1408/1530 train_loss:3.3169 train_time:242378ms step_avg:173.38ms
step:1409/1530 train_loss:3.3014 train_time:242565ms step_avg:173.38ms
step:1410/1530 train_loss:3.2898 train_time:242744ms step_avg:173.39ms
step:1411/1530 train_loss:3.3690 train_time:242921ms step_avg:173.39ms
step:1412/1530 train_loss:3.3380 train_time:243099ms step_avg:173.39ms
step:1413/1530 train_loss:3.3609 train_time:243278ms step_avg:173.40ms
step:1414/1530 train_loss:3.3271 train_time:243458ms step_avg:173.40ms
step:1415/1530 train_loss:3.4088 train_time:243645ms step_avg:173.41ms
step:1416/1530 train_loss:3.2302 train_time:243835ms step_avg:173.42ms
step:1417/1530 train_loss:3.2813 train_time:244018ms step_avg:173.43ms
step:1418/1530 train_loss:3.3908 train_time:244197ms step_avg:173.44ms
step:1419/1530 train_loss:3.3436 train_time:244380ms step_avg:173.44ms
step:1420/1530 train_loss:3.3642 train_time:244562ms step_avg:173.45ms
step:1421/1530 train_loss:3.3715 train_time:244741ms step_avg:173.45ms
step:1422/1530 train_loss:3.3343 train_time:244919ms step_avg:173.46ms
step:1423/1530 train_loss:3.3216 train_time:245099ms step_avg:173.46ms
step:1424/1530 train_loss:3.3334 train_time:245283ms step_avg:173.47ms
step:1425/1530 train_loss:3.1950 train_time:245472ms step_avg:173.48ms
step:1426/1530 train_loss:3.3278 train_time:245650ms step_avg:173.48ms
step:1427/1530 train_loss:3.2873 train_time:245834ms step_avg:173.49ms
step:1428/1530 train_loss:3.3813 train_time:246011ms step_avg:173.49ms
step:1429/1530 train_loss:3.3518 train_time:246187ms step_avg:173.49ms
step:1430/1530 train_loss:3.2624 train_time:246368ms step_avg:173.50ms
step:1431/1530 train_loss:3.3235 train_time:246549ms step_avg:173.50ms
step:1432/1530 train_loss:3.3390 train_time:246732ms step_avg:173.51ms
step:1433/1530 train_loss:3.1337 train_time:246915ms step_avg:173.52ms
step:1434/1530 train_loss:3.2901 train_time:247099ms step_avg:173.52ms
step:1435/1530 train_loss:3.1211 train_time:247279ms step_avg:173.53ms
step:1436/1530 train_loss:3.2307 train_time:247459ms step_avg:173.53ms
step:1437/1530 train_loss:3.4122 train_time:247637ms step_avg:173.54ms
step:1438/1530 train_loss:3.3849 train_time:247816ms step_avg:173.54ms
step:1439/1530 train_loss:3.3157 train_time:247997ms step_avg:173.55ms
step:1440/1530 train_loss:3.1951 train_time:248173ms step_avg:173.55ms
step:1441/1530 train_loss:3.3387 train_time:248354ms step_avg:173.55ms
step:1442/1530 train_loss:3.3934 train_time:248539ms step_avg:173.56ms
step:1443/1530 train_loss:3.4910 train_time:248725ms step_avg:173.57ms
step:1444/1530 train_loss:3.4479 train_time:248901ms step_avg:173.57ms
step:1445/1530 train_loss:3.3383 train_time:249079ms step_avg:173.57ms
step:1446/1530 train_loss:3.1975 train_time:249260ms step_avg:173.58ms
step:1447/1530 train_loss:3.2953 train_time:249441ms step_avg:173.58ms
step:1448/1530 train_loss:3.2978 train_time:249619ms step_avg:173.59ms
step:1449/1530 train_loss:3.3994 train_time:249797ms step_avg:173.59ms
step:1450/1530 train_loss:3.3895 train_time:249978ms step_avg:173.60ms
step:1451/1530 train_loss:3.2057 train_time:250156ms step_avg:173.60ms
step:1452/1530 train_loss:3.3302 train_time:250338ms step_avg:173.60ms
step:1453/1530 train_loss:3.2645 train_time:250513ms step_avg:173.61ms
step:1454/1530 train_loss:3.2906 train_time:250691ms step_avg:173.61ms
step:1455/1530 train_loss:3.3328 train_time:250874ms step_avg:173.61ms
step:1456/1530 train_loss:3.2836 train_time:251051ms step_avg:173.62ms
step:1457/1530 train_loss:3.1567 train_time:251228ms step_avg:173.62ms
step:1458/1530 train_loss:3.4229 train_time:251406ms step_avg:173.62ms
step:1459/1530 train_loss:3.2747 train_time:251588ms step_avg:173.63ms
step:1460/1530 train_loss:3.3173 train_time:251765ms step_avg:173.63ms
step:1461/1530 train_loss:3.4333 train_time:251943ms step_avg:173.63ms
step:1462/1530 train_loss:3.2648 train_time:252119ms step_avg:173.64ms
step:1463/1530 train_loss:3.4697 train_time:252302ms step_avg:173.64ms
step:1464/1530 train_loss:3.3636 train_time:252480ms step_avg:173.65ms
step:1465/1530 train_loss:3.3569 train_time:252662ms step_avg:173.65ms
step:1466/1530 train_loss:3.2841 train_time:252839ms step_avg:173.65ms
step:1467/1530 train_loss:3.3962 train_time:253019ms step_avg:173.66ms
step:1468/1530 train_loss:3.2914 train_time:253196ms step_avg:173.66ms
step:1469/1530 train_loss:3.2735 train_time:253376ms step_avg:173.66ms
step:1470/1530 train_loss:3.3339 train_time:253560ms step_avg:173.67ms
step:1471/1530 train_loss:3.2628 train_time:253746ms step_avg:173.68ms
step:1472/1530 train_loss:3.2491 train_time:253932ms step_avg:173.69ms
step:1473/1530 train_loss:3.4423 train_time:254109ms step_avg:173.69ms
step:1474/1530 train_loss:3.3147 train_time:254294ms step_avg:173.70ms
step:1475/1530 train_loss:3.1546 train_time:254479ms step_avg:173.71ms
step:1476/1530 train_loss:3.2664 train_time:254657ms step_avg:173.71ms
step:1477/1530 train_loss:3.2419 train_time:254843ms step_avg:173.72ms
step:1478/1530 train_loss:3.3103 train_time:255029ms step_avg:173.73ms
step:1479/1530 train_loss:3.3988 train_time:255212ms step_avg:173.73ms
step:1480/1530 train_loss:3.2720 train_time:255389ms step_avg:173.73ms
step:1481/1530 train_loss:3.4528 train_time:255570ms step_avg:173.74ms
step:1482/1530 train_loss:3.3725 train_time:255759ms step_avg:173.75ms
step:1483/1530 train_loss:3.2810 train_time:255950ms step_avg:173.76ms
step:1484/1530 train_loss:3.2658 train_time:256136ms step_avg:173.77ms
step:1485/1530 train_loss:3.2829 train_time:256317ms step_avg:173.77ms
step:1486/1530 train_loss:3.2330 train_time:256503ms step_avg:173.78ms
step:1487/1530 train_loss:3.3449 train_time:256685ms step_avg:173.79ms
step:1488/1530 train_loss:3.2512 train_time:256868ms step_avg:173.79ms
step:1489/1530 train_loss:3.3182 train_time:257048ms step_avg:173.80ms
step:1490/1530 train_loss:3.2538 train_time:257229ms step_avg:173.80ms
step:1491/1530 train_loss:3.1608 train_time:257407ms step_avg:173.81ms
step:1492/1530 train_loss:3.2752 train_time:257587ms step_avg:173.81ms
step:1493/1530 train_loss:3.4336 train_time:257764ms step_avg:173.81ms
step:1494/1530 train_loss:3.2983 train_time:257942ms step_avg:173.82ms
step:1495/1530 train_loss:3.0327 train_time:258127ms step_avg:173.82ms
step:1496/1530 train_loss:3.3628 train_time:258311ms step_avg:173.83ms
step:1497/1530 train_loss:3.3124 train_time:258496ms step_avg:173.84ms
step:1498/1530 train_loss:3.3496 train_time:258682ms step_avg:173.85ms
step:1499/1530 train_loss:3.3133 train_time:258870ms step_avg:173.85ms
step:1500/1530 train_loss:3.3019 train_time:259064ms step_avg:173.87ms
step:1500/1530 val_loss:3.2815 train_time:259120ms step_avg:173.91ms
step:1501/1530 train_loss:3.0915 train_time:259254ms step_avg:173.88ms
step:1502/1530 train_loss:3.3618 train_time:259450ms step_avg:173.89ms
step:1503/1530 train_loss:3.2405 train_time:259630ms step_avg:173.90ms
step:1504/1530 train_loss:3.2497 train_time:259810ms step_avg:173.90ms
step:1505/1530 train_loss:3.2151 train_time:259990ms step_avg:173.91ms
step:1506/1530 train_loss:3.2815 train_time:260172ms step_avg:173.91ms
step:1507/1530 train_loss:3.1795 train_time:260368ms step_avg:173.93ms
step:1508/1530 train_loss:3.4885 train_time:260551ms step_avg:173.93ms
step:1509/1530 train_loss:3.2815 train_time:260729ms step_avg:173.94ms
step:1510/1530 train_loss:3.2777 train_time:260909ms step_avg:173.94ms
step:1511/1530 train_loss:3.4176 train_time:261225ms step_avg:174.03ms
step:1512/1530 train_loss:3.4237 train_time:261413ms step_avg:174.04ms
step:1513/1530 train_loss:3.2685 train_time:261598ms step_avg:174.05ms
step:1514/1530 train_loss:3.0888 train_time:261781ms step_avg:174.06ms
step:1515/1530 train_loss:3.2418 train_time:261963ms step_avg:174.06ms
step:1516/1530 train_loss:3.2575 train_time:262150ms step_avg:174.07ms
step:1517/1530 train_loss:3.3001 train_time:262332ms step_avg:174.08ms
step:1518/1530 train_loss:3.2097 train_time:262516ms step_avg:174.08ms
step:1519/1530 train_loss:3.5150 train_time:262854ms step_avg:174.19ms
step:1520/1530 train_loss:3.1338 train_time:263038ms step_avg:174.20ms
step:1521/1530 train_loss:3.2077 train_time:263216ms step_avg:174.20ms
step:1522/1530 train_loss:3.3600 train_time:263399ms step_avg:174.21ms
step:1523/1530 train_loss:3.2309 train_time:263576ms step_avg:174.21ms
step:1524/1530 train_loss:3.3483 train_time:263755ms step_avg:174.21ms
step:1525/1530 train_loss:3.3397 train_time:263941ms step_avg:174.22ms
step:1526/1530 train_loss:3.2781 train_time:264132ms step_avg:174.23ms
step:1527/1530 train_loss:3.2932 train_time:264313ms step_avg:174.23ms
step:1528/1530 train_loss:3.4105 train_time:264491ms step_avg:174.24ms
step:1529/1530 train_loss:3.4088 train_time:264669ms step_avg:174.24ms
step:1530/1530 train_loss:3.2408 train_time:264847ms step_avg:174.24ms
step:1530/1530 val_loss:3.2791 train_time:264902ms step_avg:174.28ms