records/120424_ValueEmbed/968f73e2-b588-4102-80b0-996bae126be1.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 04:38:03 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   38C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   30C    P0             115W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   38C    P0             119W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   39C    P0             123W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   29C    P0             110W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   38C    P0             128W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   30C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31749ms step_avg:nanms
step:2/1530 train_loss:10.0612 train_time:31860ms step_avg:nanms
step:3/1530 train_loss:8.3630 train_time:32019ms step_avg:nanms
step:4/1530 train_loss:7.5422 train_time:32181ms step_avg:nanms
step:5/1530 train_loss:7.4384 train_time:32342ms step_avg:nanms
step:6/1530 train_loss:6.9705 train_time:32502ms step_avg:nanms
step:7/1530 train_loss:7.1808 train_time:32663ms step_avg:nanms
step:8/1530 train_loss:6.7220 train_time:32823ms step_avg:nanms
step:9/1530 train_loss:6.6189 train_time:32984ms step_avg:nanms
step:10/1530 train_loss:6.4856 train_time:33145ms step_avg:nanms
step:11/1530 train_loss:6.4706 train_time:115ms step_avg:nanms
step:12/1530 train_loss:6.3340 train_time:276ms step_avg:nanms
step:13/1530 train_loss:6.2415 train_time:436ms step_avg:145.17ms
step:14/1530 train_loss:6.1864 train_time:596ms step_avg:149.10ms
step:15/1530 train_loss:6.1742 train_time:757ms step_avg:151.36ms
step:16/1530 train_loss:6.0900 train_time:917ms step_avg:152.81ms
step:17/1530 train_loss:6.1374 train_time:1078ms step_avg:153.96ms
step:18/1530 train_loss:5.9280 train_time:1238ms step_avg:154.73ms
step:19/1530 train_loss:6.0002 train_time:1398ms step_avg:155.36ms
step:20/1530 train_loss:5.6459 train_time:1559ms step_avg:155.86ms
step:21/1530 train_loss:5.9239 train_time:1719ms step_avg:156.26ms
step:22/1530 train_loss:6.1503 train_time:1879ms step_avg:156.54ms
step:23/1530 train_loss:5.8589 train_time:2039ms step_avg:156.86ms
step:24/1530 train_loss:6.0162 train_time:2200ms step_avg:157.13ms
step:25/1530 train_loss:5.6679 train_time:2360ms step_avg:157.36ms
step:26/1530 train_loss:5.5707 train_time:2520ms step_avg:157.49ms
step:27/1530 train_loss:5.7970 train_time:2681ms step_avg:157.73ms
step:28/1530 train_loss:5.3776 train_time:2843ms step_avg:157.95ms
step:29/1530 train_loss:5.6583 train_time:3002ms step_avg:158.00ms
step:30/1530 train_loss:5.4571 train_time:3163ms step_avg:158.15ms
step:31/1530 train_loss:5.4306 train_time:3325ms step_avg:158.33ms
step:32/1530 train_loss:5.2555 train_time:3486ms step_avg:158.44ms
step:33/1530 train_loss:5.5628 train_time:3646ms step_avg:158.51ms
step:34/1530 train_loss:5.4829 train_time:3807ms step_avg:158.61ms
step:35/1530 train_loss:5.6086 train_time:3968ms step_avg:158.70ms
step:36/1530 train_loss:5.5404 train_time:4127ms step_avg:158.75ms
step:37/1530 train_loss:5.4540 train_time:4290ms step_avg:158.87ms
step:38/1530 train_loss:5.2941 train_time:4451ms step_avg:158.95ms
step:39/1530 train_loss:5.3189 train_time:4612ms step_avg:159.03ms
step:40/1530 train_loss:5.2355 train_time:4773ms step_avg:159.09ms
step:41/1530 train_loss:5.2237 train_time:4932ms step_avg:159.10ms
step:42/1530 train_loss:5.1489 train_time:5093ms step_avg:159.17ms
step:43/1530 train_loss:5.2513 train_time:5253ms step_avg:159.20ms
step:44/1530 train_loss:5.2137 train_time:5414ms step_avg:159.25ms
step:45/1530 train_loss:5.3670 train_time:5575ms step_avg:159.29ms
step:46/1530 train_loss:5.1649 train_time:5735ms step_avg:159.31ms
step:47/1530 train_loss:5.0727 train_time:5896ms step_avg:159.34ms
step:48/1530 train_loss:5.1931 train_time:6056ms step_avg:159.37ms
step:49/1530 train_loss:5.1327 train_time:6216ms step_avg:159.39ms
step:50/1530 train_loss:5.2387 train_time:6377ms step_avg:159.42ms
step:51/1530 train_loss:5.1284 train_time:6537ms step_avg:159.43ms
step:52/1530 train_loss:5.0261 train_time:6697ms step_avg:159.44ms
step:53/1530 train_loss:5.1766 train_time:6856ms step_avg:159.45ms
step:54/1530 train_loss:4.9984 train_time:7017ms step_avg:159.47ms
step:55/1530 train_loss:5.3916 train_time:7177ms step_avg:159.50ms
step:56/1530 train_loss:5.0149 train_time:7339ms step_avg:159.54ms
step:57/1530 train_loss:4.8782 train_time:7500ms step_avg:159.58ms
step:58/1530 train_loss:5.0409 train_time:7661ms step_avg:159.60ms
step:59/1530 train_loss:5.0191 train_time:7822ms step_avg:159.63ms
step:60/1530 train_loss:5.1368 train_time:7981ms step_avg:159.62ms
step:61/1530 train_loss:4.8497 train_time:8141ms step_avg:159.63ms
step:62/1530 train_loss:4.9715 train_time:8303ms step_avg:159.67ms
step:63/1530 train_loss:4.9729 train_time:8463ms step_avg:159.68ms
step:64/1530 train_loss:4.9951 train_time:8622ms step_avg:159.67ms
step:65/1530 train_loss:4.7988 train_time:8785ms step_avg:159.72ms
step:66/1530 train_loss:4.9016 train_time:8946ms step_avg:159.76ms
step:67/1530 train_loss:4.8074 train_time:9106ms step_avg:159.76ms
step:68/1530 train_loss:5.0806 train_time:9267ms step_avg:159.77ms
step:69/1530 train_loss:4.7131 train_time:9428ms step_avg:159.79ms
step:70/1530 train_loss:4.8381 train_time:9588ms step_avg:159.80ms
step:71/1530 train_loss:4.9513 train_time:9750ms step_avg:159.84ms
step:72/1530 train_loss:4.8584 train_time:9911ms step_avg:159.85ms
step:73/1530 train_loss:4.7462 train_time:10071ms step_avg:159.85ms
step:74/1530 train_loss:4.8857 train_time:10231ms step_avg:159.86ms
step:75/1530 train_loss:4.8402 train_time:10392ms step_avg:159.88ms
step:76/1530 train_loss:4.7913 train_time:10553ms step_avg:159.89ms
step:77/1530 train_loss:4.9215 train_time:10712ms step_avg:159.89ms
step:78/1530 train_loss:5.1182 train_time:10873ms step_avg:159.90ms
step:79/1530 train_loss:4.8027 train_time:11033ms step_avg:159.89ms
step:80/1530 train_loss:4.8414 train_time:11194ms step_avg:159.92ms
step:81/1530 train_loss:4.6373 train_time:11354ms step_avg:159.92ms
step:82/1530 train_loss:4.8130 train_time:11515ms step_avg:159.93ms
step:83/1530 train_loss:4.7748 train_time:11676ms step_avg:159.94ms
step:84/1530 train_loss:4.7568 train_time:11836ms step_avg:159.94ms
step:85/1530 train_loss:4.6183 train_time:11996ms step_avg:159.95ms
step:86/1530 train_loss:4.8234 train_time:12157ms step_avg:159.96ms
step:87/1530 train_loss:4.7256 train_time:12317ms step_avg:159.96ms
step:88/1530 train_loss:4.7346 train_time:12477ms step_avg:159.96ms
step:89/1530 train_loss:4.6937 train_time:12638ms step_avg:159.97ms
step:90/1530 train_loss:4.6437 train_time:12797ms step_avg:159.97ms
step:91/1530 train_loss:4.6191 train_time:12958ms step_avg:159.97ms
step:92/1530 train_loss:4.7666 train_time:13118ms step_avg:159.97ms
step:93/1530 train_loss:4.5889 train_time:13278ms step_avg:159.98ms
step:94/1530 train_loss:4.6400 train_time:13438ms step_avg:159.98ms
step:95/1530 train_loss:4.6578 train_time:13598ms step_avg:159.98ms
step:96/1530 train_loss:4.5683 train_time:13758ms step_avg:159.98ms
step:97/1530 train_loss:4.6020 train_time:13920ms step_avg:160.00ms
step:98/1530 train_loss:4.5622 train_time:14080ms step_avg:160.00ms
step:99/1530 train_loss:4.6577 train_time:14240ms step_avg:160.00ms
step:100/1530 train_loss:4.6670 train_time:14401ms step_avg:160.01ms
step:101/1530 train_loss:4.5013 train_time:14560ms step_avg:160.00ms
step:102/1530 train_loss:4.6848 train_time:14722ms step_avg:160.02ms
step:103/1530 train_loss:4.5603 train_time:14882ms step_avg:160.02ms
step:104/1530 train_loss:4.5408 train_time:15042ms step_avg:160.03ms
step:105/1530 train_loss:4.5498 train_time:15204ms step_avg:160.04ms
step:106/1530 train_loss:4.5852 train_time:15365ms step_avg:160.05ms
step:107/1530 train_loss:4.4916 train_time:15525ms step_avg:160.05ms
step:108/1530 train_loss:4.3511 train_time:15684ms step_avg:160.04ms
step:109/1530 train_loss:4.4788 train_time:15845ms step_avg:160.05ms
step:110/1530 train_loss:4.4754 train_time:16007ms step_avg:160.07ms
step:111/1530 train_loss:4.4116 train_time:16167ms step_avg:160.07ms
step:112/1530 train_loss:4.5788 train_time:16328ms step_avg:160.08ms
step:113/1530 train_loss:4.4872 train_time:16489ms step_avg:160.09ms
step:114/1530 train_loss:4.3618 train_time:16650ms step_avg:160.10ms
step:115/1530 train_loss:4.5097 train_time:16813ms step_avg:160.12ms
step:116/1530 train_loss:4.4658 train_time:16978ms step_avg:160.17ms
step:117/1530 train_loss:4.3621 train_time:17142ms step_avg:160.20ms
step:118/1530 train_loss:4.5794 train_time:17306ms step_avg:160.24ms
step:119/1530 train_loss:4.4461 train_time:17471ms step_avg:160.28ms
step:120/1530 train_loss:4.3112 train_time:17634ms step_avg:160.31ms
step:121/1530 train_loss:4.2851 train_time:17799ms step_avg:160.35ms
step:122/1530 train_loss:4.4421 train_time:17963ms step_avg:160.38ms
step:123/1530 train_loss:4.2655 train_time:18126ms step_avg:160.41ms
step:124/1530 train_loss:4.5682 train_time:18291ms step_avg:160.45ms
step:125/1530 train_loss:4.4395 train_time:18455ms step_avg:160.48ms
step:125/1530 val_loss:4.3820 train_time:18503ms step_avg:160.89ms
step:126/1530 train_loss:4.3901 train_time:18622ms step_avg:160.54ms
step:127/1530 train_loss:4.4167 train_time:18788ms step_avg:160.58ms
step:128/1530 train_loss:4.3628 train_time:18953ms step_avg:160.62ms
step:129/1530 train_loss:4.6733 train_time:19117ms step_avg:160.65ms
step:130/1530 train_loss:4.3544 train_time:19280ms step_avg:160.67ms
step:131/1530 train_loss:4.3989 train_time:19446ms step_avg:160.71ms
step:132/1530 train_loss:4.3381 train_time:19609ms step_avg:160.73ms
step:133/1530 train_loss:4.4441 train_time:19774ms step_avg:160.76ms
step:134/1530 train_loss:4.2525 train_time:19938ms step_avg:160.79ms
step:135/1530 train_loss:4.4359 train_time:20104ms step_avg:160.83ms
step:136/1530 train_loss:4.2002 train_time:20270ms step_avg:160.88ms
step:137/1530 train_loss:4.3659 train_time:20434ms step_avg:160.90ms
step:138/1530 train_loss:4.2766 train_time:20598ms step_avg:160.92ms
step:139/1530 train_loss:4.3699 train_time:20761ms step_avg:160.94ms
step:140/1530 train_loss:4.4628 train_time:20927ms step_avg:160.97ms
step:141/1530 train_loss:4.2990 train_time:21090ms step_avg:161.00ms
step:142/1530 train_loss:4.2989 train_time:21254ms step_avg:161.01ms
step:143/1530 train_loss:4.2502 train_time:21418ms step_avg:161.04ms
step:144/1530 train_loss:4.3481 train_time:21583ms step_avg:161.06ms
step:145/1530 train_loss:4.3129 train_time:21745ms step_avg:161.08ms
step:146/1530 train_loss:4.1743 train_time:21908ms step_avg:161.09ms
step:147/1530 train_loss:4.3240 train_time:22072ms step_avg:161.11ms
step:148/1530 train_loss:4.3570 train_time:22235ms step_avg:161.12ms
step:149/1530 train_loss:4.3046 train_time:22399ms step_avg:161.14ms
step:150/1530 train_loss:4.4429 train_time:22564ms step_avg:161.17ms
step:151/1530 train_loss:4.2728 train_time:22728ms step_avg:161.19ms
step:152/1530 train_loss:4.2608 train_time:22892ms step_avg:161.21ms
step:153/1530 train_loss:4.3532 train_time:23055ms step_avg:161.23ms
step:154/1530 train_loss:4.3605 train_time:23220ms step_avg:161.25ms
step:155/1530 train_loss:4.2734 train_time:23383ms step_avg:161.26ms
step:156/1530 train_loss:4.3496 train_time:23548ms step_avg:161.28ms
step:157/1530 train_loss:4.4020 train_time:23711ms step_avg:161.30ms
step:158/1530 train_loss:4.2335 train_time:23875ms step_avg:161.32ms
step:159/1530 train_loss:4.2923 train_time:24038ms step_avg:161.33ms
step:160/1530 train_loss:4.1184 train_time:24204ms step_avg:161.36ms
step:161/1530 train_loss:4.3467 train_time:24368ms step_avg:161.38ms
step:162/1530 train_loss:4.3553 train_time:24531ms step_avg:161.39ms
step:163/1530 train_loss:4.3352 train_time:24694ms step_avg:161.40ms
step:164/1530 train_loss:4.1902 train_time:24858ms step_avg:161.42ms
step:165/1530 train_loss:4.2822 train_time:25023ms step_avg:161.44ms
step:166/1530 train_loss:4.3429 train_time:25186ms step_avg:161.45ms
step:167/1530 train_loss:4.1934 train_time:25350ms step_avg:161.47ms
step:168/1530 train_loss:4.2785 train_time:25514ms step_avg:161.48ms
step:169/1530 train_loss:4.1578 train_time:25678ms step_avg:161.49ms
step:170/1530 train_loss:4.0335 train_time:25842ms step_avg:161.51ms
step:171/1530 train_loss:4.1988 train_time:26004ms step_avg:161.52ms
step:172/1530 train_loss:4.2131 train_time:26168ms step_avg:161.53ms
step:173/1530 train_loss:4.2785 train_time:26330ms step_avg:161.54ms
step:174/1530 train_loss:4.4201 train_time:26493ms step_avg:161.54ms
step:175/1530 train_loss:4.2378 train_time:26656ms step_avg:161.55ms
step:176/1530 train_loss:4.0846 train_time:26818ms step_avg:161.56ms
step:177/1530 train_loss:4.0675 train_time:26980ms step_avg:161.56ms
step:178/1530 train_loss:4.1826 train_time:27144ms step_avg:161.57ms
step:179/1530 train_loss:4.1131 train_time:27306ms step_avg:161.58ms
step:180/1530 train_loss:4.1088 train_time:27470ms step_avg:161.59ms
step:181/1530 train_loss:4.2953 train_time:27632ms step_avg:161.59ms
step:182/1530 train_loss:4.1619 train_time:27794ms step_avg:161.60ms
step:183/1530 train_loss:4.1323 train_time:27956ms step_avg:161.60ms
step:184/1530 train_loss:4.1215 train_time:28120ms step_avg:161.61ms
step:185/1530 train_loss:4.2024 train_time:28282ms step_avg:161.61ms
step:186/1530 train_loss:4.1663 train_time:28445ms step_avg:161.62ms
step:187/1530 train_loss:4.2175 train_time:28607ms step_avg:161.62ms
step:188/1530 train_loss:4.1669 train_time:28913ms step_avg:162.43ms
step:189/1530 train_loss:4.1026 train_time:29242ms step_avg:163.36ms
step:190/1530 train_loss:4.2009 train_time:29406ms step_avg:163.36ms
step:191/1530 train_loss:4.0748 train_time:29569ms step_avg:163.37ms
step:192/1530 train_loss:4.0201 train_time:29732ms step_avg:163.36ms
step:193/1530 train_loss:4.2427 train_time:29894ms step_avg:163.36ms
step:194/1530 train_loss:4.1631 train_time:30056ms step_avg:163.35ms
step:195/1530 train_loss:4.3477 train_time:30219ms step_avg:163.35ms
step:196/1530 train_loss:4.1716 train_time:30381ms step_avg:163.34ms
step:197/1530 train_loss:4.0436 train_time:30544ms step_avg:163.34ms
step:198/1530 train_loss:4.1646 train_time:30706ms step_avg:163.33ms
step:199/1530 train_loss:4.0333 train_time:30870ms step_avg:163.33ms
step:200/1530 train_loss:4.1082 train_time:31032ms step_avg:163.33ms
step:201/1530 train_loss:4.0094 train_time:31194ms step_avg:163.32ms
step:202/1530 train_loss:4.2557 train_time:31358ms step_avg:163.32ms
step:203/1530 train_loss:4.0571 train_time:31522ms step_avg:163.32ms
step:204/1530 train_loss:4.1850 train_time:31684ms step_avg:163.32ms
step:205/1530 train_loss:4.2465 train_time:31847ms step_avg:163.32ms
step:206/1530 train_loss:3.9478 train_time:32010ms step_avg:163.31ms
step:207/1530 train_loss:4.0729 train_time:32173ms step_avg:163.31ms
step:208/1530 train_loss:4.0925 train_time:32335ms step_avg:163.31ms
step:209/1530 train_loss:4.2363 train_time:32497ms step_avg:163.30ms
step:210/1530 train_loss:4.1827 train_time:32659ms step_avg:163.30ms
step:211/1530 train_loss:4.0599 train_time:32823ms step_avg:163.30ms
step:212/1530 train_loss:4.1241 train_time:32985ms step_avg:163.29ms
step:213/1530 train_loss:4.0533 train_time:33149ms step_avg:163.30ms
step:214/1530 train_loss:4.1121 train_time:33311ms step_avg:163.29ms
step:215/1530 train_loss:3.9554 train_time:33474ms step_avg:163.29ms
step:216/1530 train_loss:3.9950 train_time:33636ms step_avg:163.28ms
step:217/1530 train_loss:4.0130 train_time:33799ms step_avg:163.28ms
step:218/1530 train_loss:4.0781 train_time:33962ms step_avg:163.28ms
step:219/1530 train_loss:4.0740 train_time:34125ms step_avg:163.28ms
step:220/1530 train_loss:4.0793 train_time:34289ms step_avg:163.28ms
step:221/1530 train_loss:4.0976 train_time:34452ms step_avg:163.28ms
step:222/1530 train_loss:4.0014 train_time:34614ms step_avg:163.27ms
step:223/1530 train_loss:3.9897 train_time:34777ms step_avg:163.27ms
step:224/1530 train_loss:4.2989 train_time:34941ms step_avg:163.27ms
step:225/1530 train_loss:3.9106 train_time:35104ms step_avg:163.27ms
step:226/1530 train_loss:3.9846 train_time:35268ms step_avg:163.28ms
step:227/1530 train_loss:3.9664 train_time:35431ms step_avg:163.28ms
step:228/1530 train_loss:4.1412 train_time:35595ms step_avg:163.28ms
step:229/1530 train_loss:3.9253 train_time:35762ms step_avg:163.29ms
step:230/1530 train_loss:4.0419 train_time:35928ms step_avg:163.31ms
step:231/1530 train_loss:3.8973 train_time:36094ms step_avg:163.32ms
step:232/1530 train_loss:3.9599 train_time:36261ms step_avg:163.34ms
step:233/1530 train_loss:4.0903 train_time:36427ms step_avg:163.35ms
step:234/1530 train_loss:4.0267 train_time:36594ms step_avg:163.37ms
step:235/1530 train_loss:3.8923 train_time:36761ms step_avg:163.38ms
step:236/1530 train_loss:4.0803 train_time:36928ms step_avg:163.40ms
step:237/1530 train_loss:4.0816 train_time:37093ms step_avg:163.41ms
step:238/1530 train_loss:3.9430 train_time:37260ms step_avg:163.42ms
step:239/1530 train_loss:4.0746 train_time:37427ms step_avg:163.44ms
step:240/1530 train_loss:4.1133 train_time:37593ms step_avg:163.45ms
step:241/1530 train_loss:3.9674 train_time:37759ms step_avg:163.46ms
step:242/1530 train_loss:4.1349 train_time:37925ms step_avg:163.47ms
step:243/1530 train_loss:4.0098 train_time:38091ms step_avg:163.48ms
step:244/1530 train_loss:4.0783 train_time:38257ms step_avg:163.49ms
step:245/1530 train_loss:4.1403 train_time:38424ms step_avg:163.51ms
step:246/1530 train_loss:4.0526 train_time:38590ms step_avg:163.52ms
step:247/1530 train_loss:3.9994 train_time:38757ms step_avg:163.53ms
step:248/1530 train_loss:4.0984 train_time:38923ms step_avg:163.54ms
step:249/1530 train_loss:3.9144 train_time:39089ms step_avg:163.55ms
step:250/1530 train_loss:3.9748 train_time:39255ms step_avg:163.56ms
step:250/1530 val_loss:4.0083 train_time:39302ms step_avg:163.76ms
step:251/1530 train_loss:4.0798 train_time:39424ms step_avg:163.58ms
step:252/1530 train_loss:4.1618 train_time:39591ms step_avg:163.60ms
step:253/1530 train_loss:3.9231 train_time:39756ms step_avg:163.61ms
step:254/1530 train_loss:3.8791 train_time:39924ms step_avg:163.62ms
step:255/1530 train_loss:4.0785 train_time:40089ms step_avg:163.63ms
step:256/1530 train_loss:3.9899 train_time:40255ms step_avg:163.64ms
step:257/1530 train_loss:3.9917 train_time:40421ms step_avg:163.65ms
step:258/1530 train_loss:3.9860 train_time:40587ms step_avg:163.66ms
step:259/1530 train_loss:4.0237 train_time:40753ms step_avg:163.67ms
step:260/1530 train_loss:4.0578 train_time:40920ms step_avg:163.68ms
step:261/1530 train_loss:4.0201 train_time:41087ms step_avg:163.69ms
step:262/1530 train_loss:3.9914 train_time:41253ms step_avg:163.70ms
step:263/1530 train_loss:3.8893 train_time:41420ms step_avg:163.71ms
step:264/1530 train_loss:3.9781 train_time:41586ms step_avg:163.72ms
step:265/1530 train_loss:3.8683 train_time:41752ms step_avg:163.73ms
step:266/1530 train_loss:3.9232 train_time:41917ms step_avg:163.74ms
step:267/1530 train_loss:3.9371 train_time:42084ms step_avg:163.75ms
step:268/1530 train_loss:3.9595 train_time:42250ms step_avg:163.76ms
step:269/1530 train_loss:3.8584 train_time:42416ms step_avg:163.77ms
step:270/1530 train_loss:4.0943 train_time:42583ms step_avg:163.78ms
step:271/1530 train_loss:3.9706 train_time:42749ms step_avg:163.79ms
step:272/1530 train_loss:3.9258 train_time:42914ms step_avg:163.79ms
step:273/1530 train_loss:3.9367 train_time:43079ms step_avg:163.80ms
step:274/1530 train_loss:4.0341 train_time:43246ms step_avg:163.81ms
step:275/1530 train_loss:4.0550 train_time:43412ms step_avg:163.82ms
step:276/1530 train_loss:4.2278 train_time:43578ms step_avg:163.83ms
step:277/1530 train_loss:4.0262 train_time:43743ms step_avg:163.83ms
step:278/1530 train_loss:4.0819 train_time:43910ms step_avg:163.84ms
step:279/1530 train_loss:3.9960 train_time:44075ms step_avg:163.85ms
step:280/1530 train_loss:4.1766 train_time:44243ms step_avg:163.86ms
step:281/1530 train_loss:3.9736 train_time:44410ms step_avg:163.87ms
step:282/1530 train_loss:3.9519 train_time:44576ms step_avg:163.88ms
step:283/1530 train_loss:3.9133 train_time:44742ms step_avg:163.89ms
step:284/1530 train_loss:4.0482 train_time:44909ms step_avg:163.90ms
step:285/1530 train_loss:4.0627 train_time:45074ms step_avg:163.90ms
step:286/1530 train_loss:4.0901 train_time:45239ms step_avg:163.91ms
step:287/1530 train_loss:3.9051 train_time:45404ms step_avg:163.91ms
step:288/1530 train_loss:4.0136 train_time:45568ms step_avg:163.91ms
step:289/1530 train_loss:3.8741 train_time:45734ms step_avg:163.92ms
step:290/1530 train_loss:3.8560 train_time:45900ms step_avg:163.93ms
step:291/1530 train_loss:3.9086 train_time:46066ms step_avg:163.94ms
step:292/1530 train_loss:3.8641 train_time:46231ms step_avg:163.94ms
step:293/1530 train_loss:3.9003 train_time:46396ms step_avg:163.94ms
step:294/1530 train_loss:3.9372 train_time:46562ms step_avg:163.95ms
step:295/1530 train_loss:3.8295 train_time:46727ms step_avg:163.95ms
step:296/1530 train_loss:3.8594 train_time:46892ms step_avg:163.96ms
step:297/1530 train_loss:3.8622 train_time:47059ms step_avg:163.97ms
step:298/1530 train_loss:3.9707 train_time:47225ms step_avg:163.97ms
step:299/1530 train_loss:3.8220 train_time:47389ms step_avg:163.98ms
step:300/1530 train_loss:3.9681 train_time:47555ms step_avg:163.98ms
step:301/1530 train_loss:3.9559 train_time:47721ms step_avg:163.99ms
step:302/1530 train_loss:3.9300 train_time:47886ms step_avg:163.99ms
step:303/1530 train_loss:3.9731 train_time:48051ms step_avg:164.00ms
step:304/1530 train_loss:3.9669 train_time:48216ms step_avg:164.00ms
step:305/1530 train_loss:4.4582 train_time:48382ms step_avg:164.01ms
step:306/1530 train_loss:3.9353 train_time:48547ms step_avg:164.01ms
step:307/1530 train_loss:3.8339 train_time:48712ms step_avg:164.01ms
step:308/1530 train_loss:3.9782 train_time:48878ms step_avg:164.02ms
step:309/1530 train_loss:3.8641 train_time:49043ms step_avg:164.02ms
step:310/1530 train_loss:4.0795 train_time:49210ms step_avg:164.03ms
step:311/1530 train_loss:3.9215 train_time:49374ms step_avg:164.03ms
step:312/1530 train_loss:3.8620 train_time:49538ms step_avg:164.03ms
step:313/1530 train_loss:3.9322 train_time:49705ms step_avg:164.04ms
step:314/1530 train_loss:4.0650 train_time:49869ms step_avg:164.04ms
step:315/1530 train_loss:3.9361 train_time:50034ms step_avg:164.04ms
step:316/1530 train_loss:3.7893 train_time:50200ms step_avg:164.05ms
step:317/1530 train_loss:3.8769 train_time:50366ms step_avg:164.06ms
step:318/1530 train_loss:3.9217 train_time:50532ms step_avg:164.07ms
step:319/1530 train_loss:3.8979 train_time:50698ms step_avg:164.07ms
step:320/1530 train_loss:4.0107 train_time:50863ms step_avg:164.08ms
step:321/1530 train_loss:3.9556 train_time:51028ms step_avg:164.08ms
step:322/1530 train_loss:3.9253 train_time:51193ms step_avg:164.08ms
step:323/1530 train_loss:4.0091 train_time:51359ms step_avg:164.09ms
step:324/1530 train_loss:3.9363 train_time:51526ms step_avg:164.09ms
step:325/1530 train_loss:4.0130 train_time:51691ms step_avg:164.10ms
step:326/1530 train_loss:3.8878 train_time:51855ms step_avg:164.10ms
step:327/1530 train_loss:4.3876 train_time:52023ms step_avg:164.11ms
step:328/1530 train_loss:4.0706 train_time:52188ms step_avg:164.11ms
step:329/1530 train_loss:3.8007 train_time:52352ms step_avg:164.11ms
step:330/1530 train_loss:3.7509 train_time:52519ms step_avg:164.12ms
step:331/1530 train_loss:3.9746 train_time:52684ms step_avg:164.13ms
step:332/1530 train_loss:3.9135 train_time:52850ms step_avg:164.13ms
step:333/1530 train_loss:3.8887 train_time:53016ms step_avg:164.14ms
step:334/1530 train_loss:3.8424 train_time:53181ms step_avg:164.14ms
step:335/1530 train_loss:4.0123 train_time:53347ms step_avg:164.15ms
step:336/1530 train_loss:3.9579 train_time:53512ms step_avg:164.15ms
step:337/1530 train_loss:4.4213 train_time:53677ms step_avg:164.15ms
step:338/1530 train_loss:3.9391 train_time:53843ms step_avg:164.15ms
step:339/1530 train_loss:3.8719 train_time:54008ms step_avg:164.16ms
step:340/1530 train_loss:3.9321 train_time:54174ms step_avg:164.16ms
step:341/1530 train_loss:3.8557 train_time:54341ms step_avg:164.17ms
step:342/1530 train_loss:3.8103 train_time:54508ms step_avg:164.18ms
step:343/1530 train_loss:3.8377 train_time:54677ms step_avg:164.19ms
step:344/1530 train_loss:3.9905 train_time:54845ms step_avg:164.21ms
step:345/1530 train_loss:3.8149 train_time:55013ms step_avg:164.22ms
step:346/1530 train_loss:3.7648 train_time:55180ms step_avg:164.23ms
step:347/1530 train_loss:3.7976 train_time:55348ms step_avg:164.24ms
step:348/1530 train_loss:3.8649 train_time:55516ms step_avg:164.25ms
step:349/1530 train_loss:3.8321 train_time:55685ms step_avg:164.26ms
step:350/1530 train_loss:3.5670 train_time:55852ms step_avg:164.27ms
step:351/1530 train_loss:3.8269 train_time:56021ms step_avg:164.28ms
step:352/1530 train_loss:4.1798 train_time:56189ms step_avg:164.30ms
step:353/1530 train_loss:3.6553 train_time:56357ms step_avg:164.31ms
step:354/1530 train_loss:3.9222 train_time:56525ms step_avg:164.32ms
step:355/1530 train_loss:3.7842 train_time:56692ms step_avg:164.33ms
step:356/1530 train_loss:3.8805 train_time:56862ms step_avg:164.34ms
step:357/1530 train_loss:3.7713 train_time:57030ms step_avg:164.35ms
step:358/1530 train_loss:3.8652 train_time:57199ms step_avg:164.36ms
step:359/1530 train_loss:3.7723 train_time:57368ms step_avg:164.38ms
step:360/1530 train_loss:3.4382 train_time:57538ms step_avg:164.39ms
step:361/1530 train_loss:4.0225 train_time:57707ms step_avg:164.41ms
step:362/1530 train_loss:3.9173 train_time:57874ms step_avg:164.41ms
step:363/1530 train_loss:3.8408 train_time:58042ms step_avg:164.43ms
step:364/1530 train_loss:3.7464 train_time:58210ms step_avg:164.44ms
step:365/1530 train_loss:3.9132 train_time:58379ms step_avg:164.45ms
step:366/1530 train_loss:3.8585 train_time:58548ms step_avg:164.46ms
step:367/1530 train_loss:3.8598 train_time:58716ms step_avg:164.47ms
step:368/1530 train_loss:3.8484 train_time:58885ms step_avg:164.48ms
step:369/1530 train_loss:3.7448 train_time:59053ms step_avg:164.49ms
step:370/1530 train_loss:3.8761 train_time:59221ms step_avg:164.50ms
step:371/1530 train_loss:3.7308 train_time:59389ms step_avg:164.51ms
step:372/1530 train_loss:3.6983 train_time:59557ms step_avg:164.52ms
step:373/1530 train_loss:3.9118 train_time:59726ms step_avg:164.53ms
step:374/1530 train_loss:3.8257 train_time:59893ms step_avg:164.54ms
step:375/1530 train_loss:3.7965 train_time:60062ms step_avg:164.55ms
step:375/1530 val_loss:3.8242 train_time:60109ms step_avg:164.68ms
step:376/1530 train_loss:3.8597 train_time:60233ms step_avg:164.57ms
step:377/1530 train_loss:3.7929 train_time:60538ms step_avg:164.95ms
step:378/1530 train_loss:3.8521 train_time:60717ms step_avg:164.99ms
step:379/1530 train_loss:3.8704 train_time:61039ms step_avg:165.42ms
step:380/1530 train_loss:3.9449 train_time:61207ms step_avg:165.42ms
step:381/1530 train_loss:3.8459 train_time:61375ms step_avg:165.43ms
step:382/1530 train_loss:3.8003 train_time:61544ms step_avg:165.44ms
step:383/1530 train_loss:3.7941 train_time:61713ms step_avg:165.45ms
step:384/1530 train_loss:3.8681 train_time:61881ms step_avg:165.46ms
step:385/1530 train_loss:3.7945 train_time:62050ms step_avg:165.47ms
step:386/1530 train_loss:3.8967 train_time:62217ms step_avg:165.47ms
step:387/1530 train_loss:4.0652 train_time:62384ms step_avg:165.48ms
step:388/1530 train_loss:3.7951 train_time:62553ms step_avg:165.48ms
step:389/1530 train_loss:3.7943 train_time:62720ms step_avg:165.49ms
step:390/1530 train_loss:3.8936 train_time:62889ms step_avg:165.50ms
step:391/1530 train_loss:3.8106 train_time:63058ms step_avg:165.51ms
step:392/1530 train_loss:3.9151 train_time:63224ms step_avg:165.51ms
step:393/1530 train_loss:3.7638 train_time:63392ms step_avg:165.51ms
step:394/1530 train_loss:3.8876 train_time:63560ms step_avg:165.52ms
step:395/1530 train_loss:3.6313 train_time:63728ms step_avg:165.53ms
step:396/1530 train_loss:3.8387 train_time:63896ms step_avg:165.53ms
step:397/1530 train_loss:3.8610 train_time:64064ms step_avg:165.54ms
step:398/1530 train_loss:3.8760 train_time:64232ms step_avg:165.55ms
step:399/1530 train_loss:3.7622 train_time:64398ms step_avg:165.55ms
step:400/1530 train_loss:3.8147 train_time:64567ms step_avg:165.56ms
step:401/1530 train_loss:3.9063 train_time:64733ms step_avg:165.56ms
step:402/1530 train_loss:3.8413 train_time:64900ms step_avg:165.56ms
step:403/1530 train_loss:3.9585 train_time:65069ms step_avg:165.57ms
step:404/1530 train_loss:3.6796 train_time:65236ms step_avg:165.57ms
step:405/1530 train_loss:3.7896 train_time:65403ms step_avg:165.58ms
step:406/1530 train_loss:4.0949 train_time:65571ms step_avg:165.58ms
step:407/1530 train_loss:3.7827 train_time:65738ms step_avg:165.59ms
step:408/1530 train_loss:3.8228 train_time:65905ms step_avg:165.59ms
step:409/1530 train_loss:3.8561 train_time:66072ms step_avg:165.59ms
step:410/1530 train_loss:3.7513 train_time:66240ms step_avg:165.60ms
step:411/1530 train_loss:3.7624 train_time:66407ms step_avg:165.60ms
step:412/1530 train_loss:4.1808 train_time:66575ms step_avg:165.61ms
step:413/1530 train_loss:3.6689 train_time:66742ms step_avg:165.61ms
step:414/1530 train_loss:4.0121 train_time:66909ms step_avg:165.62ms
step:415/1530 train_loss:3.7546 train_time:67076ms step_avg:165.62ms
step:416/1530 train_loss:3.7633 train_time:67243ms step_avg:165.62ms
step:417/1530 train_loss:3.9557 train_time:67412ms step_avg:165.63ms
step:418/1530 train_loss:3.6891 train_time:67579ms step_avg:165.63ms
step:419/1530 train_loss:3.8053 train_time:67745ms step_avg:165.64ms
step:420/1530 train_loss:3.7008 train_time:67912ms step_avg:165.64ms
step:421/1530 train_loss:3.6462 train_time:68079ms step_avg:165.64ms
step:422/1530 train_loss:3.7833 train_time:68245ms step_avg:165.64ms
step:423/1530 train_loss:3.8739 train_time:68413ms step_avg:165.65ms
step:424/1530 train_loss:3.6122 train_time:68580ms step_avg:165.65ms
step:425/1530 train_loss:3.7925 train_time:68747ms step_avg:165.65ms
step:426/1530 train_loss:3.6595 train_time:68914ms step_avg:165.66ms
step:427/1530 train_loss:3.8895 train_time:69082ms step_avg:165.66ms
step:428/1530 train_loss:3.8074 train_time:69249ms step_avg:165.67ms
step:429/1530 train_loss:3.7621 train_time:69416ms step_avg:165.67ms
step:430/1530 train_loss:3.6981 train_time:69584ms step_avg:165.68ms
step:431/1530 train_loss:3.6233 train_time:69752ms step_avg:165.68ms
step:432/1530 train_loss:3.7644 train_time:69918ms step_avg:165.68ms
step:433/1530 train_loss:3.8150 train_time:70086ms step_avg:165.69ms
step:434/1530 train_loss:3.7680 train_time:70253ms step_avg:165.69ms
step:435/1530 train_loss:3.7993 train_time:70420ms step_avg:165.69ms
step:436/1530 train_loss:3.8260 train_time:70588ms step_avg:165.70ms
step:437/1530 train_loss:3.7143 train_time:70757ms step_avg:165.71ms
step:438/1530 train_loss:3.7018 train_time:70924ms step_avg:165.71ms
step:439/1530 train_loss:3.7067 train_time:71092ms step_avg:165.72ms
step:440/1530 train_loss:3.8941 train_time:71259ms step_avg:165.72ms
step:441/1530 train_loss:3.7598 train_time:71427ms step_avg:165.72ms
step:442/1530 train_loss:3.7389 train_time:71595ms step_avg:165.73ms
step:443/1530 train_loss:3.6215 train_time:71762ms step_avg:165.73ms
step:444/1530 train_loss:3.9175 train_time:71929ms step_avg:165.73ms
step:445/1530 train_loss:3.8400 train_time:72095ms step_avg:165.74ms
step:446/1530 train_loss:3.8344 train_time:72263ms step_avg:165.74ms
step:447/1530 train_loss:3.7543 train_time:72431ms step_avg:165.75ms
step:448/1530 train_loss:3.8563 train_time:72598ms step_avg:165.75ms
step:449/1530 train_loss:3.6913 train_time:72766ms step_avg:165.75ms
step:450/1530 train_loss:3.7150 train_time:72934ms step_avg:165.76ms
step:451/1530 train_loss:3.5845 train_time:73101ms step_avg:165.76ms
step:452/1530 train_loss:3.7120 train_time:73268ms step_avg:165.77ms
step:453/1530 train_loss:3.6634 train_time:73436ms step_avg:165.77ms
step:454/1530 train_loss:3.6394 train_time:73603ms step_avg:165.77ms
step:455/1530 train_loss:3.8349 train_time:73771ms step_avg:165.78ms
step:456/1530 train_loss:3.7244 train_time:73941ms step_avg:165.79ms
step:457/1530 train_loss:3.7810 train_time:74111ms step_avg:165.80ms
step:458/1530 train_loss:3.8249 train_time:74281ms step_avg:165.81ms
step:459/1530 train_loss:3.6265 train_time:74455ms step_avg:165.82ms
step:460/1530 train_loss:3.7911 train_time:74624ms step_avg:165.83ms
step:461/1530 train_loss:3.6954 train_time:74795ms step_avg:165.84ms
step:462/1530 train_loss:3.7328 train_time:74964ms step_avg:165.85ms
step:463/1530 train_loss:3.7787 train_time:75136ms step_avg:165.86ms
step:464/1530 train_loss:3.7130 train_time:75306ms step_avg:165.87ms
step:465/1530 train_loss:3.7153 train_time:75476ms step_avg:165.88ms
step:466/1530 train_loss:3.7913 train_time:75644ms step_avg:165.89ms
step:467/1530 train_loss:3.8201 train_time:75816ms step_avg:165.90ms
step:468/1530 train_loss:3.7937 train_time:75984ms step_avg:165.90ms
step:469/1530 train_loss:3.6842 train_time:76154ms step_avg:165.91ms
step:470/1530 train_loss:3.7726 train_time:76324ms step_avg:165.92ms
step:471/1530 train_loss:3.8068 train_time:76495ms step_avg:165.93ms
step:472/1530 train_loss:3.7784 train_time:76664ms step_avg:165.94ms
step:473/1530 train_loss:3.7098 train_time:76834ms step_avg:165.95ms
step:474/1530 train_loss:3.5833 train_time:77002ms step_avg:165.95ms
step:475/1530 train_loss:4.0145 train_time:77175ms step_avg:165.97ms
step:476/1530 train_loss:3.7535 train_time:77344ms step_avg:165.97ms
step:477/1530 train_loss:3.5913 train_time:77515ms step_avg:165.99ms
step:478/1530 train_loss:3.8226 train_time:77684ms step_avg:165.99ms
step:479/1530 train_loss:3.7716 train_time:77855ms step_avg:166.00ms
step:480/1530 train_loss:3.9192 train_time:78024ms step_avg:166.01ms
step:481/1530 train_loss:3.7259 train_time:78193ms step_avg:166.02ms
step:482/1530 train_loss:3.5286 train_time:78362ms step_avg:166.02ms
step:483/1530 train_loss:3.7982 train_time:78530ms step_avg:166.03ms
step:484/1530 train_loss:3.6605 train_time:78700ms step_avg:166.03ms
step:485/1530 train_loss:3.6545 train_time:78870ms step_avg:166.04ms
step:486/1530 train_loss:3.5705 train_time:79040ms step_avg:166.05ms
step:487/1530 train_loss:3.6860 train_time:79210ms step_avg:166.06ms
step:488/1530 train_loss:3.8768 train_time:79379ms step_avg:166.06ms
step:489/1530 train_loss:3.7100 train_time:79549ms step_avg:166.07ms
step:490/1530 train_loss:3.5896 train_time:79718ms step_avg:166.08ms
step:491/1530 train_loss:3.6193 train_time:79887ms step_avg:166.09ms
step:492/1530 train_loss:3.7357 train_time:80058ms step_avg:166.10ms
step:493/1530 train_loss:3.5707 train_time:80230ms step_avg:166.11ms
step:494/1530 train_loss:3.6958 train_time:80399ms step_avg:166.11ms
step:495/1530 train_loss:3.6611 train_time:80569ms step_avg:166.12ms
step:496/1530 train_loss:3.5049 train_time:80740ms step_avg:166.13ms
step:497/1530 train_loss:3.7303 train_time:80909ms step_avg:166.14ms
step:498/1530 train_loss:3.7870 train_time:81078ms step_avg:166.14ms
step:499/1530 train_loss:3.8166 train_time:81248ms step_avg:166.15ms
step:500/1530 train_loss:3.7321 train_time:81418ms step_avg:166.16ms
step:500/1530 val_loss:3.7033 train_time:81467ms step_avg:166.26ms
step:501/1530 train_loss:3.8042 train_time:81591ms step_avg:166.17ms
step:502/1530 train_loss:3.7515 train_time:81761ms step_avg:166.18ms
step:503/1530 train_loss:3.7758 train_time:81931ms step_avg:166.19ms
step:504/1530 train_loss:3.7168 train_time:82100ms step_avg:166.19ms
step:505/1530 train_loss:3.8024 train_time:82270ms step_avg:166.20ms
step:506/1530 train_loss:3.6449 train_time:82441ms step_avg:166.21ms
step:507/1530 train_loss:3.7584 train_time:82610ms step_avg:166.22ms
step:508/1530 train_loss:3.8302 train_time:82780ms step_avg:166.23ms
step:509/1530 train_loss:3.7701 train_time:82951ms step_avg:166.23ms
step:510/1530 train_loss:3.5784 train_time:83120ms step_avg:166.24ms
step:511/1530 train_loss:3.7711 train_time:83289ms step_avg:166.25ms
step:512/1530 train_loss:3.7173 train_time:83459ms step_avg:166.25ms
step:513/1530 train_loss:3.6631 train_time:83628ms step_avg:166.26ms
step:514/1530 train_loss:3.8397 train_time:83799ms step_avg:166.27ms
step:515/1530 train_loss:3.7336 train_time:83967ms step_avg:166.27ms
step:516/1530 train_loss:4.0781 train_time:84138ms step_avg:166.28ms
step:517/1530 train_loss:3.6820 train_time:84307ms step_avg:166.29ms
step:518/1530 train_loss:3.7681 train_time:84476ms step_avg:166.29ms
step:519/1530 train_loss:3.6546 train_time:84644ms step_avg:166.30ms
step:520/1530 train_loss:3.6831 train_time:84814ms step_avg:166.30ms
step:521/1530 train_loss:3.6618 train_time:84983ms step_avg:166.31ms
step:522/1530 train_loss:3.6610 train_time:85154ms step_avg:166.32ms
step:523/1530 train_loss:4.2820 train_time:85323ms step_avg:166.32ms
step:524/1530 train_loss:3.7376 train_time:85492ms step_avg:166.33ms
step:525/1530 train_loss:3.6768 train_time:85661ms step_avg:166.33ms
step:526/1530 train_loss:3.6921 train_time:85830ms step_avg:166.34ms
step:527/1530 train_loss:3.6573 train_time:85999ms step_avg:166.34ms
step:528/1530 train_loss:3.6266 train_time:86167ms step_avg:166.34ms
step:529/1530 train_loss:3.8424 train_time:86337ms step_avg:166.35ms
step:530/1530 train_loss:3.6480 train_time:86506ms step_avg:166.36ms
step:531/1530 train_loss:3.9182 train_time:86678ms step_avg:166.37ms
step:532/1530 train_loss:3.7286 train_time:86848ms step_avg:166.38ms
step:533/1530 train_loss:3.6521 train_time:87017ms step_avg:166.38ms
step:534/1530 train_loss:3.6691 train_time:87185ms step_avg:166.38ms
step:535/1530 train_loss:3.6122 train_time:87355ms step_avg:166.39ms
step:536/1530 train_loss:3.7474 train_time:87525ms step_avg:166.40ms
step:537/1530 train_loss:3.7184 train_time:87695ms step_avg:166.40ms
step:538/1530 train_loss:3.6224 train_time:87863ms step_avg:166.41ms
step:539/1530 train_loss:4.1175 train_time:88035ms step_avg:166.42ms
step:540/1530 train_loss:3.6740 train_time:88204ms step_avg:166.42ms
step:541/1530 train_loss:3.7828 train_time:88373ms step_avg:166.43ms
step:542/1530 train_loss:3.5871 train_time:88540ms step_avg:166.43ms
step:543/1530 train_loss:3.5816 train_time:88710ms step_avg:166.44ms
step:544/1530 train_loss:3.6353 train_time:88879ms step_avg:166.44ms
step:545/1530 train_loss:3.5896 train_time:89047ms step_avg:166.44ms
step:546/1530 train_loss:3.6260 train_time:89217ms step_avg:166.45ms
step:547/1530 train_loss:3.6370 train_time:89385ms step_avg:166.45ms
step:548/1530 train_loss:3.6029 train_time:89556ms step_avg:166.46ms
step:549/1530 train_loss:3.7202 train_time:89724ms step_avg:166.46ms
step:550/1530 train_loss:3.6204 train_time:89895ms step_avg:166.47ms
step:551/1530 train_loss:3.6313 train_time:90062ms step_avg:166.47ms
step:552/1530 train_loss:3.9290 train_time:90231ms step_avg:166.48ms
step:553/1530 train_loss:3.7565 train_time:90400ms step_avg:166.48ms
step:554/1530 train_loss:3.7084 train_time:90568ms step_avg:166.49ms
step:555/1530 train_loss:3.6230 train_time:90738ms step_avg:166.49ms
step:556/1530 train_loss:3.6954 train_time:90906ms step_avg:166.49ms
step:557/1530 train_loss:3.3098 train_time:91076ms step_avg:166.50ms
step:558/1530 train_loss:3.6074 train_time:91245ms step_avg:166.51ms
step:559/1530 train_loss:3.6425 train_time:91413ms step_avg:166.51ms
step:560/1530 train_loss:3.6823 train_time:91583ms step_avg:166.51ms
step:561/1530 train_loss:3.6160 train_time:91751ms step_avg:166.52ms
step:562/1530 train_loss:3.5574 train_time:91920ms step_avg:166.52ms
step:563/1530 train_loss:3.7541 train_time:92089ms step_avg:166.53ms
step:564/1530 train_loss:3.5687 train_time:92257ms step_avg:166.53ms
step:565/1530 train_loss:3.6803 train_time:92427ms step_avg:166.53ms
step:566/1530 train_loss:3.6139 train_time:92731ms step_avg:166.78ms
step:567/1530 train_loss:3.5978 train_time:92913ms step_avg:166.81ms
step:568/1530 train_loss:3.6825 train_time:93082ms step_avg:166.81ms
step:569/1530 train_loss:3.6473 train_time:93410ms step_avg:167.10ms
step:570/1530 train_loss:3.6851 train_time:93581ms step_avg:167.11ms
step:571/1530 train_loss:3.7566 train_time:93751ms step_avg:167.11ms
step:572/1530 train_loss:3.7221 train_time:93923ms step_avg:167.12ms
step:573/1530 train_loss:3.7296 train_time:94097ms step_avg:167.14ms
step:574/1530 train_loss:3.7762 train_time:94271ms step_avg:167.15ms
step:575/1530 train_loss:3.7256 train_time:94441ms step_avg:167.15ms
step:576/1530 train_loss:3.7580 train_time:94613ms step_avg:167.16ms
step:577/1530 train_loss:3.6682 train_time:94782ms step_avg:167.16ms
step:578/1530 train_loss:3.6734 train_time:94955ms step_avg:167.17ms
step:579/1530 train_loss:3.6700 train_time:95126ms step_avg:167.18ms
step:580/1530 train_loss:3.5859 train_time:95299ms step_avg:167.19ms
step:581/1530 train_loss:3.6337 train_time:95470ms step_avg:167.20ms
step:582/1530 train_loss:3.8476 train_time:95641ms step_avg:167.20ms
step:583/1530 train_loss:3.6241 train_time:95814ms step_avg:167.22ms
step:584/1530 train_loss:3.5902 train_time:95985ms step_avg:167.22ms
step:585/1530 train_loss:3.7916 train_time:96155ms step_avg:167.23ms
step:586/1530 train_loss:3.5180 train_time:96326ms step_avg:167.23ms
step:587/1530 train_loss:3.6646 train_time:96496ms step_avg:167.24ms
step:588/1530 train_loss:3.6401 train_time:96665ms step_avg:167.24ms
step:589/1530 train_loss:3.9966 train_time:96839ms step_avg:167.25ms
step:590/1530 train_loss:3.7815 train_time:97013ms step_avg:167.26ms
step:591/1530 train_loss:3.5024 train_time:97184ms step_avg:167.27ms
step:592/1530 train_loss:3.5286 train_time:97356ms step_avg:167.28ms
step:593/1530 train_loss:3.4970 train_time:97530ms step_avg:167.29ms
step:594/1530 train_loss:3.5539 train_time:97701ms step_avg:167.30ms
step:595/1530 train_loss:3.9027 train_time:97876ms step_avg:167.31ms
step:596/1530 train_loss:3.6472 train_time:98050ms step_avg:167.32ms
step:597/1530 train_loss:3.5841 train_time:98221ms step_avg:167.33ms
step:598/1530 train_loss:3.6565 train_time:98391ms step_avg:167.33ms
step:599/1530 train_loss:3.4812 train_time:98561ms step_avg:167.34ms
step:600/1530 train_loss:3.5969 train_time:98733ms step_avg:167.34ms
step:601/1530 train_loss:3.6490 train_time:98905ms step_avg:167.35ms
step:602/1530 train_loss:3.6685 train_time:99078ms step_avg:167.36ms
step:603/1530 train_loss:3.7799 train_time:99248ms step_avg:167.37ms
step:604/1530 train_loss:3.6092 train_time:99419ms step_avg:167.37ms
step:605/1530 train_loss:3.6089 train_time:99592ms step_avg:167.38ms
step:606/1530 train_loss:3.5724 train_time:99766ms step_avg:167.39ms
step:607/1530 train_loss:3.8400 train_time:99938ms step_avg:167.40ms
step:608/1530 train_loss:3.6297 train_time:100112ms step_avg:167.41ms
step:609/1530 train_loss:3.6117 train_time:100283ms step_avg:167.42ms
step:610/1530 train_loss:3.7015 train_time:100452ms step_avg:167.42ms
step:611/1530 train_loss:3.5972 train_time:100624ms step_avg:167.43ms
step:612/1530 train_loss:3.5664 train_time:100796ms step_avg:167.44ms
step:613/1530 train_loss:3.7598 train_time:100968ms step_avg:167.44ms
step:614/1530 train_loss:3.6985 train_time:101139ms step_avg:167.45ms
step:615/1530 train_loss:3.7112 train_time:101310ms step_avg:167.45ms
step:616/1530 train_loss:3.6295 train_time:101479ms step_avg:167.46ms
step:617/1530 train_loss:3.5516 train_time:101653ms step_avg:167.47ms
step:618/1530 train_loss:3.6869 train_time:101823ms step_avg:167.47ms
step:619/1530 train_loss:3.5482 train_time:101995ms step_avg:167.48ms
step:620/1530 train_loss:3.5850 train_time:102165ms step_avg:167.48ms
step:621/1530 train_loss:3.9210 train_time:102339ms step_avg:167.49ms
step:622/1530 train_loss:3.5672 train_time:102512ms step_avg:167.50ms
step:623/1530 train_loss:3.6020 train_time:102683ms step_avg:167.51ms
step:624/1530 train_loss:3.6916 train_time:102854ms step_avg:167.52ms
step:625/1530 train_loss:3.6978 train_time:103024ms step_avg:167.52ms
step:625/1530 val_loss:3.6227 train_time:103074ms step_avg:167.60ms
step:626/1530 train_loss:3.7419 train_time:103196ms step_avg:167.53ms
step:627/1530 train_loss:3.7159 train_time:103369ms step_avg:167.53ms
step:628/1530 train_loss:3.7583 train_time:103539ms step_avg:167.54ms
step:629/1530 train_loss:3.5919 train_time:103710ms step_avg:167.54ms
step:630/1530 train_loss:3.7157 train_time:103880ms step_avg:167.55ms
step:631/1530 train_loss:3.7378 train_time:104050ms step_avg:167.55ms
step:632/1530 train_loss:3.6447 train_time:104221ms step_avg:167.56ms
step:633/1530 train_loss:3.5979 train_time:104393ms step_avg:167.57ms
step:634/1530 train_loss:3.6948 train_time:104564ms step_avg:167.57ms
step:635/1530 train_loss:3.9534 train_time:104735ms step_avg:167.58ms
step:636/1530 train_loss:3.5538 train_time:104906ms step_avg:167.58ms
step:637/1530 train_loss:3.3552 train_time:105077ms step_avg:167.59ms
step:638/1530 train_loss:3.5926 train_time:105247ms step_avg:167.59ms
step:639/1530 train_loss:3.6348 train_time:105417ms step_avg:167.60ms
step:640/1530 train_loss:3.5636 train_time:105588ms step_avg:167.60ms
step:641/1530 train_loss:3.5849 train_time:105758ms step_avg:167.60ms
step:642/1530 train_loss:3.6278 train_time:105928ms step_avg:167.61ms
step:643/1530 train_loss:3.5937 train_time:106097ms step_avg:167.61ms
step:644/1530 train_loss:3.5532 train_time:106267ms step_avg:167.61ms
step:645/1530 train_loss:3.7767 train_time:106439ms step_avg:167.62ms
step:646/1530 train_loss:3.6699 train_time:106610ms step_avg:167.63ms
step:647/1530 train_loss:3.6609 train_time:106781ms step_avg:167.63ms
step:648/1530 train_loss:3.7052 train_time:106951ms step_avg:167.63ms
step:649/1530 train_loss:3.7633 train_time:107122ms step_avg:167.64ms
step:650/1530 train_loss:3.6201 train_time:107292ms step_avg:167.64ms
step:651/1530 train_loss:3.7649 train_time:107464ms step_avg:167.65ms
step:652/1530 train_loss:3.5830 train_time:107634ms step_avg:167.65ms
step:653/1530 train_loss:3.6580 train_time:107805ms step_avg:167.66ms
step:654/1530 train_loss:3.4251 train_time:107976ms step_avg:167.66ms
step:655/1530 train_loss:3.5775 train_time:108146ms step_avg:167.67ms
step:656/1530 train_loss:3.5721 train_time:108316ms step_avg:167.67ms
step:657/1530 train_loss:3.5013 train_time:108486ms step_avg:167.68ms
step:658/1530 train_loss:3.6880 train_time:108657ms step_avg:167.68ms
step:659/1530 train_loss:3.5806 train_time:108828ms step_avg:167.69ms
step:660/1530 train_loss:3.6758 train_time:108999ms step_avg:167.69ms
step:661/1530 train_loss:3.7486 train_time:109171ms step_avg:167.70ms
step:662/1530 train_loss:3.6636 train_time:109340ms step_avg:167.70ms
step:663/1530 train_loss:3.5512 train_time:109510ms step_avg:167.70ms
step:664/1530 train_loss:3.6088 train_time:109681ms step_avg:167.71ms
step:665/1530 train_loss:3.4875 train_time:109852ms step_avg:167.71ms
step:666/1530 train_loss:3.7760 train_time:110024ms step_avg:167.72ms
step:667/1530 train_loss:3.6052 train_time:110194ms step_avg:167.72ms
step:668/1530 train_loss:3.6400 train_time:110365ms step_avg:167.73ms
step:669/1530 train_loss:3.4883 train_time:110537ms step_avg:167.73ms
step:670/1530 train_loss:3.5942 train_time:110707ms step_avg:167.74ms
step:671/1530 train_loss:3.5584 train_time:110878ms step_avg:167.74ms
step:672/1530 train_loss:3.5607 train_time:111049ms step_avg:167.75ms
step:673/1530 train_loss:3.8509 train_time:111220ms step_avg:167.75ms
step:674/1530 train_loss:3.6259 train_time:111390ms step_avg:167.76ms
step:675/1530 train_loss:3.7123 train_time:111562ms step_avg:167.76ms
step:676/1530 train_loss:3.4950 train_time:111732ms step_avg:167.77ms
step:677/1530 train_loss:3.5908 train_time:111904ms step_avg:167.77ms
step:678/1530 train_loss:3.5495 train_time:112075ms step_avg:167.78ms
step:679/1530 train_loss:3.6746 train_time:112246ms step_avg:167.78ms
step:680/1530 train_loss:3.5854 train_time:112416ms step_avg:167.79ms
step:681/1530 train_loss:3.6163 train_time:112587ms step_avg:167.79ms
step:682/1530 train_loss:3.6614 train_time:112764ms step_avg:167.80ms
step:683/1530 train_loss:3.7329 train_time:112937ms step_avg:167.81ms
step:684/1530 train_loss:3.6447 train_time:113108ms step_avg:167.82ms
step:685/1530 train_loss:3.6817 train_time:113283ms step_avg:167.83ms
step:686/1530 train_loss:3.6341 train_time:113455ms step_avg:167.83ms
step:687/1530 train_loss:3.6626 train_time:113627ms step_avg:167.84ms
step:688/1530 train_loss:3.2080 train_time:113803ms step_avg:167.85ms
step:689/1530 train_loss:3.3983 train_time:113977ms step_avg:167.86ms
step:690/1530 train_loss:3.5355 train_time:114152ms step_avg:167.87ms
step:691/1530 train_loss:3.4088 train_time:114324ms step_avg:167.88ms
step:692/1530 train_loss:3.6294 train_time:114495ms step_avg:167.88ms
step:693/1530 train_loss:3.6490 train_time:114668ms step_avg:167.89ms
step:694/1530 train_loss:3.5506 train_time:114841ms step_avg:167.90ms
step:695/1530 train_loss:3.5311 train_time:115011ms step_avg:167.90ms
step:696/1530 train_loss:3.8450 train_time:115184ms step_avg:167.91ms
step:697/1530 train_loss:3.5841 train_time:115357ms step_avg:167.91ms
step:698/1530 train_loss:3.6426 train_time:115528ms step_avg:167.92ms
step:699/1530 train_loss:3.7703 train_time:115703ms step_avg:167.93ms
step:700/1530 train_loss:3.5667 train_time:115875ms step_avg:167.93ms
step:701/1530 train_loss:3.5398 train_time:116047ms step_avg:167.94ms
step:702/1530 train_loss:3.5118 train_time:116221ms step_avg:167.95ms
step:703/1530 train_loss:3.4970 train_time:116392ms step_avg:167.95ms
step:704/1530 train_loss:3.5673 train_time:116566ms step_avg:167.96ms
step:705/1530 train_loss:3.5608 train_time:116741ms step_avg:167.97ms
step:706/1530 train_loss:3.5803 train_time:116916ms step_avg:167.98ms
step:707/1530 train_loss:3.6394 train_time:117089ms step_avg:167.99ms
step:708/1530 train_loss:3.6025 train_time:117261ms step_avg:168.00ms
step:709/1530 train_loss:3.5742 train_time:117433ms step_avg:168.00ms
step:710/1530 train_loss:3.5336 train_time:117605ms step_avg:168.01ms
step:711/1530 train_loss:3.5915 train_time:117777ms step_avg:168.01ms
step:712/1530 train_loss:3.6416 train_time:117953ms step_avg:168.02ms
step:713/1530 train_loss:3.6514 train_time:118129ms step_avg:168.04ms
step:714/1530 train_loss:3.5586 train_time:118301ms step_avg:168.04ms
step:715/1530 train_loss:3.5674 train_time:118473ms step_avg:168.05ms
step:716/1530 train_loss:3.5871 train_time:118645ms step_avg:168.05ms
step:717/1530 train_loss:3.7018 train_time:118821ms step_avg:168.06ms
step:718/1530 train_loss:3.5976 train_time:118991ms step_avg:168.07ms
step:719/1530 train_loss:3.6732 train_time:119164ms step_avg:168.07ms
step:720/1530 train_loss:3.8488 train_time:119337ms step_avg:168.08ms
step:721/1530 train_loss:3.4638 train_time:119510ms step_avg:168.09ms
step:722/1530 train_loss:3.7355 train_time:119683ms step_avg:168.09ms
step:723/1530 train_loss:3.7667 train_time:119855ms step_avg:168.10ms
step:724/1530 train_loss:3.5668 train_time:120028ms step_avg:168.11ms
step:725/1530 train_loss:3.6487 train_time:120201ms step_avg:168.11ms
step:726/1530 train_loss:3.5302 train_time:120374ms step_avg:168.12ms
step:727/1530 train_loss:3.5785 train_time:120550ms step_avg:168.13ms
step:728/1530 train_loss:3.7309 train_time:120723ms step_avg:168.14ms
step:729/1530 train_loss:3.6670 train_time:120894ms step_avg:168.14ms
step:730/1530 train_loss:3.6564 train_time:121068ms step_avg:168.15ms
step:731/1530 train_loss:3.5535 train_time:121241ms step_avg:168.16ms
step:732/1530 train_loss:3.5955 train_time:121413ms step_avg:168.16ms
step:733/1530 train_loss:3.8296 train_time:121587ms step_avg:168.17ms
step:734/1530 train_loss:3.5579 train_time:121761ms step_avg:168.18ms
step:735/1530 train_loss:3.6097 train_time:121933ms step_avg:168.18ms
step:736/1530 train_loss:3.7372 train_time:122106ms step_avg:168.19ms
step:737/1530 train_loss:3.6737 train_time:122277ms step_avg:168.19ms
step:738/1530 train_loss:3.5948 train_time:122450ms step_avg:168.20ms
step:739/1530 train_loss:3.5006 train_time:122623ms step_avg:168.21ms
step:740/1530 train_loss:4.1041 train_time:122798ms step_avg:168.22ms
step:741/1530 train_loss:3.4864 train_time:122970ms step_avg:168.22ms
step:742/1530 train_loss:3.5554 train_time:123144ms step_avg:168.23ms
step:743/1530 train_loss:3.5710 train_time:123316ms step_avg:168.23ms
step:744/1530 train_loss:3.6439 train_time:123488ms step_avg:168.24ms
step:745/1530 train_loss:3.5807 train_time:123662ms step_avg:168.25ms
step:746/1530 train_loss:3.5866 train_time:123834ms step_avg:168.25ms
step:747/1530 train_loss:3.6437 train_time:124008ms step_avg:168.26ms
step:748/1530 train_loss:3.5612 train_time:124185ms step_avg:168.27ms
step:749/1530 train_loss:3.5596 train_time:124357ms step_avg:168.28ms
step:750/1530 train_loss:3.5928 train_time:124527ms step_avg:168.28ms
step:750/1530 val_loss:3.5627 train_time:124576ms step_avg:168.35ms
step:751/1530 train_loss:3.5678 train_time:124699ms step_avg:168.29ms
step:752/1530 train_loss:3.6182 train_time:124872ms step_avg:168.29ms
step:753/1530 train_loss:3.6207 train_time:125044ms step_avg:168.30ms
step:754/1530 train_loss:3.5871 train_time:125217ms step_avg:168.30ms
step:755/1530 train_loss:3.6777 train_time:125526ms step_avg:168.49ms
step:756/1530 train_loss:3.4608 train_time:125708ms step_avg:168.51ms
step:757/1530 train_loss:3.7268 train_time:125882ms step_avg:168.52ms
step:758/1530 train_loss:3.6485 train_time:126054ms step_avg:168.52ms
step:759/1530 train_loss:3.5859 train_time:126378ms step_avg:168.73ms
step:760/1530 train_loss:3.7046 train_time:126549ms step_avg:168.73ms
step:761/1530 train_loss:3.4020 train_time:126720ms step_avg:168.73ms
step:762/1530 train_loss:3.5501 train_time:126892ms step_avg:168.74ms
step:763/1530 train_loss:3.6578 train_time:127066ms step_avg:168.75ms
step:764/1530 train_loss:3.3157 train_time:127238ms step_avg:168.75ms
step:765/1530 train_loss:3.7325 train_time:127411ms step_avg:168.76ms
step:766/1530 train_loss:3.5652 train_time:127582ms step_avg:168.76ms
step:767/1530 train_loss:3.5624 train_time:127756ms step_avg:168.77ms
step:768/1530 train_loss:3.5648 train_time:127928ms step_avg:168.77ms
step:769/1530 train_loss:3.5796 train_time:128100ms step_avg:168.77ms
step:770/1530 train_loss:3.6404 train_time:128272ms step_avg:168.78ms
step:771/1530 train_loss:3.8804 train_time:128444ms step_avg:168.78ms
step:772/1530 train_loss:3.4482 train_time:128614ms step_avg:168.79ms
step:773/1530 train_loss:3.6267 train_time:128785ms step_avg:168.79ms
step:774/1530 train_loss:3.6356 train_time:128957ms step_avg:168.79ms
step:775/1530 train_loss:3.6018 train_time:129129ms step_avg:168.80ms
step:776/1530 train_loss:3.4118 train_time:129303ms step_avg:168.80ms
step:777/1530 train_loss:3.3889 train_time:129477ms step_avg:168.81ms
step:778/1530 train_loss:3.4931 train_time:129649ms step_avg:168.81ms
step:779/1530 train_loss:3.5775 train_time:129819ms step_avg:168.82ms
step:780/1530 train_loss:3.5814 train_time:129993ms step_avg:168.82ms
step:781/1530 train_loss:3.6725 train_time:130165ms step_avg:168.83ms
step:782/1530 train_loss:3.5867 train_time:130336ms step_avg:168.83ms
step:783/1530 train_loss:3.5689 train_time:130507ms step_avg:168.83ms
step:784/1530 train_loss:3.5986 train_time:130679ms step_avg:168.84ms
step:785/1530 train_loss:3.5587 train_time:130851ms step_avg:168.84ms
step:786/1530 train_loss:3.4364 train_time:131022ms step_avg:168.84ms
step:787/1530 train_loss:3.7797 train_time:131195ms step_avg:168.85ms
step:788/1530 train_loss:3.5002 train_time:131371ms step_avg:168.86ms
step:789/1530 train_loss:3.5465 train_time:131541ms step_avg:168.86ms
step:790/1530 train_loss:3.6241 train_time:131715ms step_avg:168.87ms
step:791/1530 train_loss:3.7707 train_time:131891ms step_avg:168.88ms
step:792/1530 train_loss:3.7585 train_time:132063ms step_avg:168.88ms
step:793/1530 train_loss:3.4454 train_time:132235ms step_avg:168.88ms
step:794/1530 train_loss:3.5865 train_time:132410ms step_avg:168.89ms
step:795/1530 train_loss:3.6746 train_time:132583ms step_avg:168.90ms
step:796/1530 train_loss:3.7269 train_time:132760ms step_avg:168.91ms
step:797/1530 train_loss:3.5230 train_time:132934ms step_avg:168.91ms
step:798/1530 train_loss:3.6446 train_time:133109ms step_avg:168.92ms
step:799/1530 train_loss:3.5353 train_time:133285ms step_avg:168.93ms
step:800/1530 train_loss:3.5226 train_time:133459ms step_avg:168.94ms
step:801/1530 train_loss:3.6270 train_time:133633ms step_avg:168.94ms
step:802/1530 train_loss:3.4914 train_time:133809ms step_avg:168.95ms
step:803/1530 train_loss:3.4826 train_time:133982ms step_avg:168.96ms
step:804/1530 train_loss:3.6223 train_time:134156ms step_avg:168.96ms
step:805/1530 train_loss:3.5133 train_time:134333ms step_avg:168.97ms
step:806/1530 train_loss:3.5544 train_time:134506ms step_avg:168.98ms
step:807/1530 train_loss:3.6347 train_time:134678ms step_avg:168.98ms
step:808/1530 train_loss:3.5360 train_time:134854ms step_avg:168.99ms
step:809/1530 train_loss:3.4906 train_time:135028ms step_avg:169.00ms
step:810/1530 train_loss:3.5558 train_time:135200ms step_avg:169.00ms
step:811/1530 train_loss:3.5768 train_time:135374ms step_avg:169.01ms
step:812/1530 train_loss:3.5941 train_time:135548ms step_avg:169.01ms
step:813/1530 train_loss:3.6269 train_time:135719ms step_avg:169.02ms
step:814/1530 train_loss:3.5594 train_time:135895ms step_avg:169.02ms
step:815/1530 train_loss:3.5582 train_time:136070ms step_avg:169.03ms
step:816/1530 train_loss:3.6792 train_time:136244ms step_avg:169.04ms
step:817/1530 train_loss:3.7693 train_time:136417ms step_avg:169.04ms
step:818/1530 train_loss:3.5173 train_time:136590ms step_avg:169.05ms
step:819/1530 train_loss:3.7163 train_time:136765ms step_avg:169.05ms
step:820/1530 train_loss:3.4926 train_time:136940ms step_avg:169.06ms
step:821/1530 train_loss:3.5593 train_time:137113ms step_avg:169.07ms
step:822/1530 train_loss:3.6926 train_time:137290ms step_avg:169.08ms
step:823/1530 train_loss:3.5690 train_time:137463ms step_avg:169.08ms
step:824/1530 train_loss:3.5126 train_time:137636ms step_avg:169.09ms
step:825/1530 train_loss:3.6129 train_time:137811ms step_avg:169.09ms
step:826/1530 train_loss:3.4753 train_time:137987ms step_avg:169.10ms
step:827/1530 train_loss:3.7315 train_time:138162ms step_avg:169.11ms
step:828/1530 train_loss:3.6143 train_time:138336ms step_avg:169.11ms
step:829/1530 train_loss:3.6242 train_time:138511ms step_avg:169.12ms
step:830/1530 train_loss:3.5283 train_time:138686ms step_avg:169.13ms
step:831/1530 train_loss:3.5955 train_time:138860ms step_avg:169.13ms
step:832/1530 train_loss:3.5106 train_time:139036ms step_avg:169.14ms
step:833/1530 train_loss:3.6454 train_time:139212ms step_avg:169.15ms
step:834/1530 train_loss:3.4675 train_time:139385ms step_avg:169.16ms
step:835/1530 train_loss:3.4564 train_time:139559ms step_avg:169.16ms
step:836/1530 train_loss:3.7150 train_time:139736ms step_avg:169.17ms
step:837/1530 train_loss:3.3968 train_time:139909ms step_avg:169.18ms
step:838/1530 train_loss:3.5896 train_time:140084ms step_avg:169.18ms
step:839/1530 train_loss:3.4138 train_time:140259ms step_avg:169.19ms
step:840/1530 train_loss:3.4623 train_time:140433ms step_avg:169.20ms
step:841/1530 train_loss:3.5689 train_time:140605ms step_avg:169.20ms
step:842/1530 train_loss:3.5834 train_time:140781ms step_avg:169.21ms
step:843/1530 train_loss:3.5608 train_time:140953ms step_avg:169.21ms
step:844/1530 train_loss:3.4296 train_time:141126ms step_avg:169.22ms
step:845/1530 train_loss:3.6617 train_time:141299ms step_avg:169.22ms
step:846/1530 train_loss:3.5076 train_time:141474ms step_avg:169.23ms
step:847/1530 train_loss:3.4896 train_time:141649ms step_avg:169.23ms
step:848/1530 train_loss:3.6371 train_time:141824ms step_avg:169.24ms
step:849/1530 train_loss:3.4887 train_time:141999ms step_avg:169.25ms
step:850/1530 train_loss:3.4413 train_time:142175ms step_avg:169.26ms
step:851/1530 train_loss:3.7355 train_time:142347ms step_avg:169.26ms
step:852/1530 train_loss:3.4360 train_time:142519ms step_avg:169.26ms
step:853/1530 train_loss:3.5634 train_time:142692ms step_avg:169.27ms
step:854/1530 train_loss:3.6495 train_time:142867ms step_avg:169.27ms
step:855/1530 train_loss:3.5102 train_time:143040ms step_avg:169.28ms
step:856/1530 train_loss:3.5426 train_time:143214ms step_avg:169.28ms
step:857/1530 train_loss:3.6028 train_time:143389ms step_avg:169.29ms
step:858/1530 train_loss:3.4626 train_time:143564ms step_avg:169.30ms
step:859/1530 train_loss:3.5655 train_time:143737ms step_avg:169.30ms
step:860/1530 train_loss:3.5796 train_time:143909ms step_avg:169.31ms
step:861/1530 train_loss:3.6293 train_time:144087ms step_avg:169.31ms
step:862/1530 train_loss:3.6060 train_time:144264ms step_avg:169.32ms
step:863/1530 train_loss:3.5659 train_time:144440ms step_avg:169.33ms
step:864/1530 train_loss:3.3808 train_time:144614ms step_avg:169.34ms
step:865/1530 train_loss:3.5987 train_time:144786ms step_avg:169.34ms
step:866/1530 train_loss:3.9203 train_time:144962ms step_avg:169.35ms
step:867/1530 train_loss:3.4517 train_time:145135ms step_avg:169.35ms
step:868/1530 train_loss:3.6384 train_time:145308ms step_avg:169.36ms
step:869/1530 train_loss:3.6063 train_time:145480ms step_avg:169.36ms
step:870/1530 train_loss:3.4490 train_time:145656ms step_avg:169.37ms
step:871/1530 train_loss:3.4034 train_time:145830ms step_avg:169.37ms
step:872/1530 train_loss:3.6445 train_time:146004ms step_avg:169.38ms
step:873/1530 train_loss:3.4558 train_time:146179ms step_avg:169.38ms
step:874/1530 train_loss:3.2208 train_time:146358ms step_avg:169.40ms
step:875/1530 train_loss:3.6302 train_time:146531ms step_avg:169.40ms
step:875/1530 val_loss:3.5167 train_time:146581ms step_avg:169.46ms
step:876/1530 train_loss:3.4371 train_time:146707ms step_avg:169.41ms
step:877/1530 train_loss:3.6121 train_time:146882ms step_avg:169.41ms
step:878/1530 train_loss:3.4617 train_time:147056ms step_avg:169.42ms
step:879/1530 train_loss:3.6470 train_time:147230ms step_avg:169.42ms
step:880/1530 train_loss:3.3119 train_time:147401ms step_avg:169.43ms
step:881/1530 train_loss:3.4762 train_time:147574ms step_avg:169.43ms
step:882/1530 train_loss:3.6951 train_time:147746ms step_avg:169.43ms
step:883/1530 train_loss:3.8347 train_time:147920ms step_avg:169.44ms
step:884/1530 train_loss:3.5630 train_time:148096ms step_avg:169.45ms
step:885/1530 train_loss:3.4937 train_time:148269ms step_avg:169.45ms
step:886/1530 train_loss:3.5677 train_time:148442ms step_avg:169.45ms
step:887/1530 train_loss:4.0828 train_time:148619ms step_avg:169.46ms
step:888/1530 train_loss:3.8333 train_time:148799ms step_avg:169.47ms
step:889/1530 train_loss:3.5119 train_time:148973ms step_avg:169.48ms
step:890/1530 train_loss:3.5313 train_time:149145ms step_avg:169.48ms
step:891/1530 train_loss:3.3561 train_time:149320ms step_avg:169.49ms
step:892/1530 train_loss:3.7178 train_time:149494ms step_avg:169.49ms
step:893/1530 train_loss:3.4205 train_time:149665ms step_avg:169.50ms
step:894/1530 train_loss:3.6543 train_time:149841ms step_avg:169.50ms
step:895/1530 train_loss:3.6733 train_time:150016ms step_avg:169.51ms
step:896/1530 train_loss:3.4941 train_time:150191ms step_avg:169.52ms
step:897/1530 train_loss:3.5356 train_time:150365ms step_avg:169.52ms
step:898/1530 train_loss:3.5880 train_time:150539ms step_avg:169.53ms
step:899/1530 train_loss:3.4741 train_time:150713ms step_avg:169.53ms
step:900/1530 train_loss:3.4282 train_time:150886ms step_avg:169.53ms
step:901/1530 train_loss:3.6184 train_time:151058ms step_avg:169.54ms
step:902/1530 train_loss:3.6312 train_time:151231ms step_avg:169.54ms
step:903/1530 train_loss:3.5348 train_time:151406ms step_avg:169.55ms
step:904/1530 train_loss:3.4947 train_time:151580ms step_avg:169.55ms
step:905/1530 train_loss:3.4982 train_time:151751ms step_avg:169.55ms
step:906/1530 train_loss:3.7000 train_time:151926ms step_avg:169.56ms
step:907/1530 train_loss:3.5109 train_time:152099ms step_avg:169.56ms
step:908/1530 train_loss:3.5609 train_time:152273ms step_avg:169.57ms
step:909/1530 train_loss:3.4498 train_time:152448ms step_avg:169.57ms
step:910/1530 train_loss:3.5246 train_time:152625ms step_avg:169.58ms
step:911/1530 train_loss:3.6353 train_time:152802ms step_avg:169.59ms
step:912/1530 train_loss:3.5885 train_time:152980ms step_avg:169.60ms
step:913/1530 train_loss:3.4573 train_time:153159ms step_avg:169.61ms
step:914/1530 train_loss:3.7416 train_time:153337ms step_avg:169.62ms
step:915/1530 train_loss:3.5389 train_time:153518ms step_avg:169.63ms
step:916/1530 train_loss:3.6125 train_time:153694ms step_avg:169.64ms
step:917/1530 train_loss:3.5927 train_time:153869ms step_avg:169.65ms
step:918/1530 train_loss:4.8223 train_time:154047ms step_avg:169.66ms
step:919/1530 train_loss:3.4928 train_time:154226ms step_avg:169.67ms
step:920/1530 train_loss:3.5847 train_time:154402ms step_avg:169.67ms
step:921/1530 train_loss:3.5463 train_time:154580ms step_avg:169.68ms
step:922/1530 train_loss:3.5813 train_time:154757ms step_avg:169.69ms
step:923/1530 train_loss:3.6093 train_time:154933ms step_avg:169.70ms
step:924/1530 train_loss:3.6703 train_time:155111ms step_avg:169.71ms
step:925/1530 train_loss:3.6421 train_time:155283ms step_avg:169.71ms
step:926/1530 train_loss:3.5560 train_time:155457ms step_avg:169.71ms
step:927/1530 train_loss:3.5552 train_time:155633ms step_avg:169.72ms
step:928/1530 train_loss:3.7878 train_time:155809ms step_avg:169.73ms
step:929/1530 train_loss:3.6115 train_time:155982ms step_avg:169.73ms
step:930/1530 train_loss:3.4014 train_time:156158ms step_avg:169.74ms
step:931/1530 train_loss:3.4895 train_time:156333ms step_avg:169.74ms
step:932/1530 train_loss:3.6456 train_time:156513ms step_avg:169.75ms
step:933/1530 train_loss:3.3560 train_time:156688ms step_avg:169.76ms
step:934/1530 train_loss:3.5784 train_time:156867ms step_avg:169.77ms
step:935/1530 train_loss:3.4354 train_time:157045ms step_avg:169.78ms
step:936/1530 train_loss:3.5163 train_time:157224ms step_avg:169.79ms
step:937/1530 train_loss:3.6205 train_time:157401ms step_avg:169.80ms
step:938/1530 train_loss:3.5365 train_time:157575ms step_avg:169.80ms
step:939/1530 train_loss:3.6688 train_time:157757ms step_avg:169.81ms
step:940/1530 train_loss:3.4806 train_time:157932ms step_avg:169.82ms
step:941/1530 train_loss:3.5483 train_time:158106ms step_avg:169.82ms
step:942/1530 train_loss:3.3515 train_time:158282ms step_avg:169.83ms
step:943/1530 train_loss:3.7056 train_time:158464ms step_avg:169.84ms
step:944/1530 train_loss:3.3992 train_time:158780ms step_avg:170.00ms
step:945/1530 train_loss:3.4198 train_time:158964ms step_avg:170.02ms
step:946/1530 train_loss:5.0622 train_time:159146ms step_avg:170.03ms
step:947/1530 train_loss:3.5979 train_time:159322ms step_avg:170.03ms
step:948/1530 train_loss:3.4863 train_time:159498ms step_avg:170.04ms
step:949/1530 train_loss:3.3679 train_time:159828ms step_avg:170.21ms
step:950/1530 train_loss:3.4384 train_time:160002ms step_avg:170.21ms
step:951/1530 train_loss:3.4062 train_time:160179ms step_avg:170.22ms
step:952/1530 train_loss:3.4753 train_time:160355ms step_avg:170.23ms
step:953/1530 train_loss:3.5692 train_time:160530ms step_avg:170.23ms
step:954/1530 train_loss:3.4456 train_time:160709ms step_avg:170.24ms
step:955/1530 train_loss:3.4735 train_time:160882ms step_avg:170.25ms
step:956/1530 train_loss:3.4408 train_time:161058ms step_avg:170.25ms
step:957/1530 train_loss:3.4933 train_time:161238ms step_avg:170.26ms
step:958/1530 train_loss:3.5011 train_time:161417ms step_avg:170.27ms
step:959/1530 train_loss:3.5060 train_time:161596ms step_avg:170.28ms
step:960/1530 train_loss:3.4007 train_time:161774ms step_avg:170.29ms
step:961/1530 train_loss:3.6429 train_time:161950ms step_avg:170.29ms
step:962/1530 train_loss:3.5882 train_time:162125ms step_avg:170.30ms
step:963/1530 train_loss:3.7040 train_time:162302ms step_avg:170.31ms
step:964/1530 train_loss:3.4293 train_time:162480ms step_avg:170.31ms
step:965/1530 train_loss:3.4783 train_time:162653ms step_avg:170.32ms
step:966/1530 train_loss:3.7078 train_time:162830ms step_avg:170.32ms
step:967/1530 train_loss:3.5185 train_time:163004ms step_avg:170.33ms
step:968/1530 train_loss:3.5103 train_time:163179ms step_avg:170.33ms
step:969/1530 train_loss:3.5804 train_time:163355ms step_avg:170.34ms
step:970/1530 train_loss:3.3719 train_time:163528ms step_avg:170.34ms
step:971/1530 train_loss:3.5302 train_time:163701ms step_avg:170.34ms
step:972/1530 train_loss:3.4614 train_time:163875ms step_avg:170.35ms
step:973/1530 train_loss:3.5371 train_time:164049ms step_avg:170.35ms
step:974/1530 train_loss:3.5872 train_time:164225ms step_avg:170.36ms
step:975/1530 train_loss:3.4592 train_time:164400ms step_avg:170.36ms
step:976/1530 train_loss:3.6690 train_time:164575ms step_avg:170.37ms
step:977/1530 train_loss:3.5692 train_time:164749ms step_avg:170.37ms
step:978/1530 train_loss:3.3608 train_time:164923ms step_avg:170.38ms
step:979/1530 train_loss:3.6227 train_time:165099ms step_avg:170.38ms
step:980/1530 train_loss:3.4165 train_time:165278ms step_avg:170.39ms
step:981/1530 train_loss:3.5663 train_time:165456ms step_avg:170.40ms
step:982/1530 train_loss:3.5397 train_time:165630ms step_avg:170.40ms
step:983/1530 train_loss:3.5114 train_time:165806ms step_avg:170.41ms
step:984/1530 train_loss:3.4925 train_time:165980ms step_avg:170.41ms
step:985/1530 train_loss:3.5731 train_time:166158ms step_avg:170.42ms
step:986/1530 train_loss:3.4110 train_time:166334ms step_avg:170.42ms
step:987/1530 train_loss:3.4844 train_time:166506ms step_avg:170.43ms
step:988/1530 train_loss:3.4663 train_time:166681ms step_avg:170.43ms
step:989/1530 train_loss:3.4118 train_time:166855ms step_avg:170.43ms
step:990/1530 train_loss:3.6585 train_time:167033ms step_avg:170.44ms
step:991/1530 train_loss:3.4706 train_time:167208ms step_avg:170.45ms
step:992/1530 train_loss:3.4393 train_time:167387ms step_avg:170.46ms
step:993/1530 train_loss:3.4960 train_time:167568ms step_avg:170.47ms
step:994/1530 train_loss:3.5919 train_time:167741ms step_avg:170.47ms
step:995/1530 train_loss:3.5307 train_time:167915ms step_avg:170.47ms
step:996/1530 train_loss:3.4559 train_time:168089ms step_avg:170.48ms
step:997/1530 train_loss:3.7544 train_time:168262ms step_avg:170.48ms
step:998/1530 train_loss:3.4354 train_time:168435ms step_avg:170.48ms
step:999/1530 train_loss:3.5851 train_time:168612ms step_avg:170.49ms
step:1000/1530 train_loss:3.4350 train_time:168790ms step_avg:170.49ms
step:1000/1530 val_loss:3.4633 train_time:168841ms step_avg:170.55ms
step:1001/1530 train_loss:3.4992 train_time:168967ms step_avg:170.50ms
step:1002/1530 train_loss:3.3743 train_time:169141ms step_avg:170.51ms
step:1003/1530 train_loss:3.5533 train_time:169317ms step_avg:170.51ms
step:1004/1530 train_loss:3.5978 train_time:169494ms step_avg:170.52ms
step:1005/1530 train_loss:3.3873 train_time:169670ms step_avg:170.52ms
step:1006/1530 train_loss:3.4641 train_time:169847ms step_avg:170.53ms
step:1007/1530 train_loss:3.4349 train_time:170022ms step_avg:170.53ms
step:1008/1530 train_loss:3.5570 train_time:170198ms step_avg:170.54ms
step:1009/1530 train_loss:3.6613 train_time:170375ms step_avg:170.55ms
step:1010/1530 train_loss:3.5576 train_time:170548ms step_avg:170.55ms
step:1011/1530 train_loss:3.5325 train_time:170722ms step_avg:170.55ms
step:1012/1530 train_loss:3.3873 train_time:170896ms step_avg:170.56ms
step:1013/1530 train_loss:3.5324 train_time:171071ms step_avg:170.56ms
step:1014/1530 train_loss:3.6215 train_time:171248ms step_avg:170.57ms
step:1015/1530 train_loss:3.3268 train_time:171424ms step_avg:170.57ms
step:1016/1530 train_loss:3.4084 train_time:171599ms step_avg:170.58ms
step:1017/1530 train_loss:3.3949 train_time:171775ms step_avg:170.58ms
step:1018/1530 train_loss:3.3946 train_time:171951ms step_avg:170.59ms
step:1019/1530 train_loss:3.5179 train_time:172127ms step_avg:170.59ms
step:1020/1530 train_loss:3.3839 train_time:172306ms step_avg:170.60ms
step:1021/1530 train_loss:3.3552 train_time:172479ms step_avg:170.60ms
step:1022/1530 train_loss:3.4759 train_time:172655ms step_avg:170.61ms
step:1023/1530 train_loss:3.5025 train_time:172831ms step_avg:170.61ms
step:1024/1530 train_loss:3.4765 train_time:173010ms step_avg:170.62ms
step:1025/1530 train_loss:3.4786 train_time:173188ms step_avg:170.63ms
step:1026/1530 train_loss:3.6105 train_time:173364ms step_avg:170.63ms
step:1027/1530 train_loss:3.3206 train_time:173538ms step_avg:170.64ms
step:1028/1530 train_loss:3.3948 train_time:173720ms step_avg:170.65ms
step:1029/1530 train_loss:3.3091 train_time:173902ms step_avg:170.66ms
step:1030/1530 train_loss:3.5361 train_time:174076ms step_avg:170.66ms
step:1031/1530 train_loss:3.5068 train_time:174252ms step_avg:170.67ms
step:1032/1530 train_loss:3.6922 train_time:174434ms step_avg:170.68ms
step:1033/1530 train_loss:3.4842 train_time:174609ms step_avg:170.68ms
step:1034/1530 train_loss:3.3924 train_time:174785ms step_avg:170.69ms
step:1035/1530 train_loss:3.4406 train_time:174962ms step_avg:170.69ms
step:1036/1530 train_loss:3.4762 train_time:175136ms step_avg:170.70ms
step:1037/1530 train_loss:3.7886 train_time:175315ms step_avg:170.71ms
step:1038/1530 train_loss:3.6152 train_time:175494ms step_avg:170.71ms
step:1039/1530 train_loss:3.5055 train_time:175674ms step_avg:170.72ms
step:1040/1530 train_loss:3.4152 train_time:175850ms step_avg:170.73ms
step:1041/1530 train_loss:3.4838 train_time:176029ms step_avg:170.74ms
step:1042/1530 train_loss:3.5199 train_time:176202ms step_avg:170.74ms
step:1043/1530 train_loss:3.4419 train_time:176376ms step_avg:170.74ms
step:1044/1530 train_loss:3.4496 train_time:176551ms step_avg:170.75ms
step:1045/1530 train_loss:3.5129 train_time:176730ms step_avg:170.75ms
step:1046/1530 train_loss:3.4187 train_time:176904ms step_avg:170.76ms
step:1047/1530 train_loss:3.6348 train_time:177081ms step_avg:170.76ms
step:1048/1530 train_loss:3.4962 train_time:177257ms step_avg:170.77ms
step:1049/1530 train_loss:3.3994 train_time:177433ms step_avg:170.77ms
step:1050/1530 train_loss:3.3895 train_time:177612ms step_avg:170.78ms
step:1051/1530 train_loss:3.4929 train_time:177789ms step_avg:170.79ms
step:1052/1530 train_loss:3.3600 train_time:177968ms step_avg:170.79ms
step:1053/1530 train_loss:3.6871 train_time:178146ms step_avg:170.80ms
step:1054/1530 train_loss:3.5344 train_time:178327ms step_avg:170.81ms
step:1055/1530 train_loss:3.3803 train_time:178503ms step_avg:170.82ms
step:1056/1530 train_loss:3.4940 train_time:178677ms step_avg:170.82ms
step:1057/1530 train_loss:3.5740 train_time:178854ms step_avg:170.83ms
step:1058/1530 train_loss:3.3022 train_time:179033ms step_avg:170.83ms
step:1059/1530 train_loss:3.3684 train_time:179214ms step_avg:170.84ms
step:1060/1530 train_loss:3.4317 train_time:179391ms step_avg:170.85ms
step:1061/1530 train_loss:3.4148 train_time:179565ms step_avg:170.85ms
step:1062/1530 train_loss:3.3733 train_time:179742ms step_avg:170.86ms
step:1063/1530 train_loss:3.4582 train_time:179916ms step_avg:170.86ms
step:1064/1530 train_loss:3.3770 train_time:180090ms step_avg:170.86ms
step:1065/1530 train_loss:3.3577 train_time:180269ms step_avg:170.87ms
step:1066/1530 train_loss:3.4041 train_time:180444ms step_avg:170.88ms
step:1067/1530 train_loss:3.2790 train_time:180622ms step_avg:170.88ms
step:1068/1530 train_loss:3.4334 train_time:180798ms step_avg:170.89ms
step:1069/1530 train_loss:3.2947 train_time:180978ms step_avg:170.90ms
step:1070/1530 train_loss:3.5656 train_time:181152ms step_avg:170.90ms
step:1071/1530 train_loss:3.5067 train_time:181332ms step_avg:170.91ms
step:1072/1530 train_loss:3.4351 train_time:181508ms step_avg:170.91ms
step:1073/1530 train_loss:3.5194 train_time:181683ms step_avg:170.92ms
step:1074/1530 train_loss:3.4316 train_time:181859ms step_avg:170.92ms
step:1075/1530 train_loss:3.3962 train_time:182038ms step_avg:170.93ms
step:1076/1530 train_loss:3.8010 train_time:182214ms step_avg:170.93ms
step:1077/1530 train_loss:3.4317 train_time:182389ms step_avg:170.94ms
step:1078/1530 train_loss:3.0892 train_time:182572ms step_avg:170.95ms
step:1079/1530 train_loss:3.5316 train_time:182748ms step_avg:170.95ms
step:1080/1530 train_loss:3.4198 train_time:182927ms step_avg:170.96ms
step:1081/1530 train_loss:3.4973 train_time:183101ms step_avg:170.96ms
step:1082/1530 train_loss:3.5861 train_time:183276ms step_avg:170.97ms
step:1083/1530 train_loss:3.4937 train_time:183451ms step_avg:170.97ms
step:1084/1530 train_loss:3.4577 train_time:183628ms step_avg:170.98ms
step:1085/1530 train_loss:3.4308 train_time:183804ms step_avg:170.98ms
step:1086/1530 train_loss:3.6281 train_time:183979ms step_avg:170.98ms
step:1087/1530 train_loss:3.4957 train_time:184152ms step_avg:170.99ms
step:1088/1530 train_loss:3.3626 train_time:184328ms step_avg:170.99ms
step:1089/1530 train_loss:3.3723 train_time:184507ms step_avg:171.00ms
step:1090/1530 train_loss:3.4779 train_time:184686ms step_avg:171.01ms
step:1091/1530 train_loss:3.2828 train_time:184863ms step_avg:171.01ms
step:1092/1530 train_loss:3.4835 train_time:185039ms step_avg:171.02ms
step:1093/1530 train_loss:3.6008 train_time:185215ms step_avg:171.02ms
step:1094/1530 train_loss:3.4472 train_time:185391ms step_avg:171.02ms
step:1095/1530 train_loss:3.4113 train_time:185566ms step_avg:171.03ms
step:1096/1530 train_loss:3.4241 train_time:185743ms step_avg:171.03ms
step:1097/1530 train_loss:3.4873 train_time:185919ms step_avg:171.04ms
step:1098/1530 train_loss:3.5645 train_time:186098ms step_avg:171.05ms
step:1099/1530 train_loss:3.5219 train_time:186276ms step_avg:171.05ms
step:1100/1530 train_loss:3.4237 train_time:186454ms step_avg:171.06ms
step:1101/1530 train_loss:3.2863 train_time:186632ms step_avg:171.06ms
step:1102/1530 train_loss:3.3100 train_time:186811ms step_avg:171.07ms
step:1103/1530 train_loss:3.4398 train_time:186992ms step_avg:171.08ms
step:1104/1530 train_loss:3.3222 train_time:187169ms step_avg:171.09ms
step:1105/1530 train_loss:4.0603 train_time:187348ms step_avg:171.09ms
step:1106/1530 train_loss:3.2239 train_time:187524ms step_avg:171.10ms
step:1107/1530 train_loss:3.5593 train_time:187698ms step_avg:171.10ms
step:1108/1530 train_loss:3.3433 train_time:187872ms step_avg:171.10ms
step:1109/1530 train_loss:3.4981 train_time:188047ms step_avg:171.11ms
step:1110/1530 train_loss:3.4270 train_time:188220ms step_avg:171.11ms
step:1111/1530 train_loss:3.4827 train_time:188395ms step_avg:171.11ms
step:1112/1530 train_loss:3.5603 train_time:188574ms step_avg:171.12ms
step:1113/1530 train_loss:3.4279 train_time:188756ms step_avg:171.13ms
step:1114/1530 train_loss:3.3732 train_time:188935ms step_avg:171.14ms
step:1115/1530 train_loss:3.2345 train_time:189115ms step_avg:171.14ms
step:1116/1530 train_loss:3.4222 train_time:189289ms step_avg:171.15ms
step:1117/1530 train_loss:3.5914 train_time:189468ms step_avg:171.15ms
step:1118/1530 train_loss:3.6184 train_time:189644ms step_avg:171.16ms
step:1119/1530 train_loss:3.4766 train_time:189818ms step_avg:171.16ms
step:1120/1530 train_loss:3.4877 train_time:189995ms step_avg:171.17ms
step:1121/1530 train_loss:3.3832 train_time:190173ms step_avg:171.17ms
step:1122/1530 train_loss:3.4577 train_time:190349ms step_avg:171.18ms
step:1123/1530 train_loss:3.5766 train_time:190526ms step_avg:171.18ms
step:1124/1530 train_loss:3.3378 train_time:190703ms step_avg:171.19ms
step:1125/1530 train_loss:3.2249 train_time:190879ms step_avg:171.19ms
step:1125/1530 val_loss:3.4062 train_time:190929ms step_avg:171.24ms
step:1126/1530 train_loss:3.4790 train_time:191058ms step_avg:171.20ms
step:1127/1530 train_loss:3.6672 train_time:191237ms step_avg:171.21ms
step:1128/1530 train_loss:3.2291 train_time:191415ms step_avg:171.21ms
step:1129/1530 train_loss:3.5558 train_time:191595ms step_avg:171.22ms
step:1130/1530 train_loss:3.3798 train_time:191772ms step_avg:171.22ms
step:1131/1530 train_loss:3.3980 train_time:191956ms step_avg:171.24ms
step:1132/1530 train_loss:3.3658 train_time:192130ms step_avg:171.24ms
step:1133/1530 train_loss:3.4904 train_time:192443ms step_avg:171.36ms
step:1134/1530 train_loss:3.4426 train_time:192627ms step_avg:171.38ms
step:1135/1530 train_loss:3.5136 train_time:192803ms step_avg:171.38ms
step:1136/1530 train_loss:3.5606 train_time:192980ms step_avg:171.39ms
step:1137/1530 train_loss:3.4548 train_time:193156ms step_avg:171.39ms
step:1138/1530 train_loss:3.3555 train_time:193335ms step_avg:171.40ms
step:1139/1530 train_loss:3.6471 train_time:193667ms step_avg:171.54ms
step:1140/1530 train_loss:3.4526 train_time:193843ms step_avg:171.54ms
step:1141/1530 train_loss:3.5922 train_time:194025ms step_avg:171.55ms
step:1142/1530 train_loss:3.4401 train_time:194203ms step_avg:171.56ms
step:1143/1530 train_loss:3.3613 train_time:194381ms step_avg:171.56ms
step:1144/1530 train_loss:3.4430 train_time:194558ms step_avg:171.57ms
step:1145/1530 train_loss:3.5846 train_time:194733ms step_avg:171.57ms
step:1146/1530 train_loss:3.5541 train_time:194915ms step_avg:171.58ms
step:1147/1530 train_loss:3.4814 train_time:195094ms step_avg:171.59ms
step:1148/1530 train_loss:3.4942 train_time:195271ms step_avg:171.59ms
step:1149/1530 train_loss:3.3194 train_time:195455ms step_avg:171.60ms
step:1150/1530 train_loss:3.3693 train_time:195630ms step_avg:171.61ms
step:1151/1530 train_loss:3.3172 train_time:195810ms step_avg:171.61ms
step:1152/1530 train_loss:3.3944 train_time:195992ms step_avg:171.62ms
step:1153/1530 train_loss:3.4260 train_time:196174ms step_avg:171.63ms
step:1154/1530 train_loss:3.5130 train_time:196350ms step_avg:171.63ms
step:1155/1530 train_loss:3.3175 train_time:196529ms step_avg:171.64ms
step:1156/1530 train_loss:3.5301 train_time:196715ms step_avg:171.65ms
step:1157/1530 train_loss:3.4914 train_time:196894ms step_avg:171.66ms
step:1158/1530 train_loss:3.2492 train_time:197071ms step_avg:171.66ms
step:1159/1530 train_loss:3.3443 train_time:197246ms step_avg:171.67ms
step:1160/1530 train_loss:3.3354 train_time:197420ms step_avg:171.67ms
step:1161/1530 train_loss:3.0747 train_time:197600ms step_avg:171.68ms
step:1162/1530 train_loss:3.4192 train_time:197778ms step_avg:171.68ms
step:1163/1530 train_loss:3.3883 train_time:197956ms step_avg:171.69ms
step:1164/1530 train_loss:3.2861 train_time:198134ms step_avg:171.69ms
step:1165/1530 train_loss:3.2467 train_time:198310ms step_avg:171.70ms
step:1166/1530 train_loss:3.3812 train_time:198485ms step_avg:171.70ms
step:1167/1530 train_loss:3.4127 train_time:198662ms step_avg:171.70ms
step:1168/1530 train_loss:3.7205 train_time:198837ms step_avg:171.71ms
step:1169/1530 train_loss:3.3739 train_time:199015ms step_avg:171.71ms
step:1170/1530 train_loss:3.3829 train_time:199192ms step_avg:171.72ms
step:1171/1530 train_loss:3.3091 train_time:199367ms step_avg:171.72ms
step:1172/1530 train_loss:3.4198 train_time:199542ms step_avg:171.72ms
step:1173/1530 train_loss:3.5315 train_time:199723ms step_avg:171.73ms
step:1174/1530 train_loss:3.3809 train_time:199909ms step_avg:171.74ms
step:1175/1530 train_loss:3.3644 train_time:200086ms step_avg:171.75ms
step:1176/1530 train_loss:3.4210 train_time:200267ms step_avg:171.76ms
step:1177/1530 train_loss:3.4488 train_time:200448ms step_avg:171.76ms
step:1178/1530 train_loss:3.4951 train_time:200625ms step_avg:171.77ms
step:1179/1530 train_loss:3.4013 train_time:200801ms step_avg:171.77ms
step:1180/1530 train_loss:3.3529 train_time:200989ms step_avg:171.79ms
step:1181/1530 train_loss:3.3340 train_time:201167ms step_avg:171.79ms
step:1182/1530 train_loss:3.3709 train_time:201345ms step_avg:171.80ms
step:1183/1530 train_loss:3.3347 train_time:201524ms step_avg:171.80ms
step:1184/1530 train_loss:3.5108 train_time:201702ms step_avg:171.81ms
step:1185/1530 train_loss:3.5362 train_time:201883ms step_avg:171.82ms
step:1186/1530 train_loss:3.3624 train_time:202062ms step_avg:171.82ms
step:1187/1530 train_loss:3.4137 train_time:202249ms step_avg:171.83ms
step:1188/1530 train_loss:3.4384 train_time:202426ms step_avg:171.84ms
step:1189/1530 train_loss:3.2787 train_time:202606ms step_avg:171.85ms
step:1190/1530 train_loss:3.4379 train_time:202784ms step_avg:171.85ms
step:1191/1530 train_loss:3.5822 train_time:202964ms step_avg:171.86ms
step:1192/1530 train_loss:3.3848 train_time:203140ms step_avg:171.86ms
step:1193/1530 train_loss:3.2711 train_time:203317ms step_avg:171.87ms
step:1194/1530 train_loss:3.5505 train_time:203494ms step_avg:171.87ms
step:1195/1530 train_loss:3.3718 train_time:203672ms step_avg:171.87ms
step:1196/1530 train_loss:3.3822 train_time:203858ms step_avg:171.89ms
step:1197/1530 train_loss:3.2914 train_time:204037ms step_avg:171.89ms
step:1198/1530 train_loss:3.2968 train_time:204222ms step_avg:171.90ms
step:1199/1530 train_loss:3.3399 train_time:204401ms step_avg:171.91ms
step:1200/1530 train_loss:3.4451 train_time:204578ms step_avg:171.91ms
step:1201/1530 train_loss:3.4800 train_time:204756ms step_avg:171.92ms
step:1202/1530 train_loss:3.5932 train_time:204944ms step_avg:171.93ms
step:1203/1530 train_loss:3.4014 train_time:205123ms step_avg:171.94ms
step:1204/1530 train_loss:3.3045 train_time:205305ms step_avg:171.95ms
step:1205/1530 train_loss:3.4323 train_time:205481ms step_avg:171.95ms
step:1206/1530 train_loss:3.4729 train_time:205657ms step_avg:171.95ms
step:1207/1530 train_loss:3.5129 train_time:205835ms step_avg:171.96ms
step:1208/1530 train_loss:3.3937 train_time:206011ms step_avg:171.96ms
step:1209/1530 train_loss:3.2400 train_time:206188ms step_avg:171.97ms
step:1210/1530 train_loss:3.3073 train_time:206368ms step_avg:171.97ms
step:1211/1530 train_loss:3.3962 train_time:206546ms step_avg:171.98ms
step:1212/1530 train_loss:3.3900 train_time:206724ms step_avg:171.98ms
step:1213/1530 train_loss:3.4089 train_time:206904ms step_avg:171.99ms
step:1214/1530 train_loss:3.2494 train_time:207085ms step_avg:172.00ms
step:1215/1530 train_loss:3.3954 train_time:207260ms step_avg:172.00ms
step:1216/1530 train_loss:3.3255 train_time:207438ms step_avg:172.00ms
step:1217/1530 train_loss:3.3199 train_time:207616ms step_avg:172.01ms
step:1218/1530 train_loss:3.4063 train_time:207795ms step_avg:172.02ms
step:1219/1530 train_loss:3.2518 train_time:207979ms step_avg:172.03ms
step:1220/1530 train_loss:3.4750 train_time:208156ms step_avg:172.03ms
step:1221/1530 train_loss:3.5035 train_time:208332ms step_avg:172.03ms
step:1222/1530 train_loss:3.4270 train_time:208506ms step_avg:172.03ms
step:1223/1530 train_loss:3.2928 train_time:208683ms step_avg:172.04ms
step:1224/1530 train_loss:3.2563 train_time:208865ms step_avg:172.05ms
step:1225/1530 train_loss:3.3633 train_time:209042ms step_avg:172.05ms
step:1226/1530 train_loss:3.3359 train_time:209222ms step_avg:172.06ms
step:1227/1530 train_loss:3.2741 train_time:209402ms step_avg:172.06ms
step:1228/1530 train_loss:3.4457 train_time:209578ms step_avg:172.07ms
step:1229/1530 train_loss:3.3656 train_time:209758ms step_avg:172.07ms
step:1230/1530 train_loss:3.3989 train_time:209941ms step_avg:172.08ms
step:1231/1530 train_loss:3.5756 train_time:210121ms step_avg:172.09ms
step:1232/1530 train_loss:3.4933 train_time:210301ms step_avg:172.10ms
step:1233/1530 train_loss:3.4231 train_time:210477ms step_avg:172.10ms
step:1234/1530 train_loss:3.5817 train_time:210656ms step_avg:172.10ms
step:1235/1530 train_loss:3.3204 train_time:210838ms step_avg:172.11ms
step:1236/1530 train_loss:3.2915 train_time:211016ms step_avg:172.12ms
step:1237/1530 train_loss:3.2690 train_time:211194ms step_avg:172.12ms
step:1238/1530 train_loss:3.2727 train_time:211378ms step_avg:172.13ms
step:1239/1530 train_loss:3.3283 train_time:211556ms step_avg:172.14ms
step:1240/1530 train_loss:3.3824 train_time:211734ms step_avg:172.14ms
step:1241/1530 train_loss:3.4221 train_time:211915ms step_avg:172.15ms
step:1242/1530 train_loss:3.2950 train_time:212092ms step_avg:172.15ms
step:1243/1530 train_loss:3.4009 train_time:212271ms step_avg:172.16ms
step:1244/1530 train_loss:3.4006 train_time:212444ms step_avg:172.16ms
step:1245/1530 train_loss:3.4076 train_time:212622ms step_avg:172.16ms
step:1246/1530 train_loss:3.2380 train_time:212799ms step_avg:172.17ms
step:1247/1530 train_loss:3.3653 train_time:212976ms step_avg:172.17ms
step:1248/1530 train_loss:3.4256 train_time:213152ms step_avg:172.17ms
step:1249/1530 train_loss:3.4246 train_time:213327ms step_avg:172.18ms
step:1250/1530 train_loss:3.2990 train_time:213506ms step_avg:172.18ms
step:1250/1530 val_loss:3.3527 train_time:213560ms step_avg:172.23ms
step:1251/1530 train_loss:3.4949 train_time:213692ms step_avg:172.19ms
step:1252/1530 train_loss:3.3554 train_time:213867ms step_avg:172.20ms
step:1253/1530 train_loss:3.3058 train_time:214044ms step_avg:172.20ms
step:1254/1530 train_loss:3.4162 train_time:214227ms step_avg:172.21ms
step:1255/1530 train_loss:3.5150 train_time:214414ms step_avg:172.22ms
step:1256/1530 train_loss:3.3001 train_time:214595ms step_avg:172.23ms
step:1257/1530 train_loss:3.3733 train_time:214773ms step_avg:172.23ms
step:1258/1530 train_loss:3.3627 train_time:214956ms step_avg:172.24ms
step:1259/1530 train_loss:3.3213 train_time:215138ms step_avg:172.25ms
step:1260/1530 train_loss:3.2042 train_time:215313ms step_avg:172.25ms
step:1261/1530 train_loss:3.3007 train_time:215495ms step_avg:172.26ms
step:1262/1530 train_loss:3.3257 train_time:215678ms step_avg:172.27ms
step:1263/1530 train_loss:3.2417 train_time:215861ms step_avg:172.27ms
step:1264/1530 train_loss:3.4426 train_time:216036ms step_avg:172.28ms
step:1265/1530 train_loss:3.4245 train_time:216211ms step_avg:172.28ms
step:1266/1530 train_loss:3.4382 train_time:216391ms step_avg:172.29ms
step:1267/1530 train_loss:3.3690 train_time:216571ms step_avg:172.29ms
step:1268/1530 train_loss:3.4060 train_time:216752ms step_avg:172.30ms
step:1269/1530 train_loss:3.2554 train_time:216935ms step_avg:172.31ms
step:1270/1530 train_loss:3.1033 train_time:217113ms step_avg:172.31ms
step:1271/1530 train_loss:3.4002 train_time:217292ms step_avg:172.32ms
step:1272/1530 train_loss:3.3483 train_time:217468ms step_avg:172.32ms
step:1273/1530 train_loss:3.3756 train_time:217649ms step_avg:172.33ms
step:1274/1530 train_loss:3.3577 train_time:217830ms step_avg:172.33ms
step:1275/1530 train_loss:3.4332 train_time:218007ms step_avg:172.34ms
step:1276/1530 train_loss:3.4662 train_time:218181ms step_avg:172.34ms
step:1277/1530 train_loss:3.4118 train_time:218359ms step_avg:172.34ms
step:1278/1530 train_loss:3.4059 train_time:218534ms step_avg:172.35ms
step:1279/1530 train_loss:3.2640 train_time:218715ms step_avg:172.35ms
step:1280/1530 train_loss:3.3647 train_time:218900ms step_avg:172.36ms
step:1281/1530 train_loss:3.4243 train_time:219077ms step_avg:172.37ms
step:1282/1530 train_loss:3.4703 train_time:219252ms step_avg:172.37ms
step:1283/1530 train_loss:3.3344 train_time:219431ms step_avg:172.37ms
step:1284/1530 train_loss:3.3672 train_time:219609ms step_avg:172.38ms
step:1285/1530 train_loss:3.3592 train_time:219789ms step_avg:172.38ms
step:1286/1530 train_loss:3.3338 train_time:219965ms step_avg:172.39ms
step:1287/1530 train_loss:3.4856 train_time:220144ms step_avg:172.39ms
step:1288/1530 train_loss:3.2967 train_time:220325ms step_avg:172.40ms
step:1289/1530 train_loss:3.3794 train_time:220511ms step_avg:172.41ms
step:1290/1530 train_loss:3.4584 train_time:220695ms step_avg:172.42ms
step:1291/1530 train_loss:3.3807 train_time:220879ms step_avg:172.43ms
step:1292/1530 train_loss:3.4768 train_time:221062ms step_avg:172.44ms
step:1293/1530 train_loss:3.5119 train_time:221242ms step_avg:172.44ms
step:1294/1530 train_loss:3.4600 train_time:221423ms step_avg:172.45ms
step:1295/1530 train_loss:3.2799 train_time:221602ms step_avg:172.45ms
step:1296/1530 train_loss:3.3714 train_time:221783ms step_avg:172.46ms
step:1297/1530 train_loss:3.2742 train_time:221963ms step_avg:172.47ms
step:1298/1530 train_loss:3.2737 train_time:222145ms step_avg:172.47ms
step:1299/1530 train_loss:3.3955 train_time:222323ms step_avg:172.48ms
step:1300/1530 train_loss:3.4032 train_time:222501ms step_avg:172.48ms
step:1301/1530 train_loss:3.4002 train_time:222677ms step_avg:172.48ms
step:1302/1530 train_loss:3.5760 train_time:222859ms step_avg:172.49ms
step:1303/1530 train_loss:3.3047 train_time:223043ms step_avg:172.50ms
step:1304/1530 train_loss:3.5156 train_time:223225ms step_avg:172.51ms
step:1305/1530 train_loss:3.2542 train_time:223402ms step_avg:172.51ms
step:1306/1530 train_loss:3.4537 train_time:223585ms step_avg:172.52ms
step:1307/1530 train_loss:3.4493 train_time:223761ms step_avg:172.52ms
step:1308/1530 train_loss:3.2816 train_time:223940ms step_avg:172.53ms
step:1309/1530 train_loss:3.3109 train_time:224118ms step_avg:172.53ms
step:1310/1530 train_loss:3.2882 train_time:224297ms step_avg:172.54ms
step:1311/1530 train_loss:3.2953 train_time:224473ms step_avg:172.54ms
step:1312/1530 train_loss:3.3782 train_time:224655ms step_avg:172.55ms
step:1313/1530 train_loss:3.3421 train_time:224830ms step_avg:172.55ms
step:1314/1530 train_loss:3.0422 train_time:225014ms step_avg:172.56ms
step:1315/1530 train_loss:3.2730 train_time:225191ms step_avg:172.56ms
step:1316/1530 train_loss:3.3962 train_time:225366ms step_avg:172.56ms
step:1317/1530 train_loss:3.4167 train_time:225543ms step_avg:172.57ms
step:1318/1530 train_loss:3.3015 train_time:225729ms step_avg:172.58ms
step:1319/1530 train_loss:3.4243 train_time:225909ms step_avg:172.58ms
step:1320/1530 train_loss:3.4546 train_time:226091ms step_avg:172.59ms
step:1321/1530 train_loss:3.3643 train_time:226269ms step_avg:172.59ms
step:1322/1530 train_loss:3.3248 train_time:226583ms step_avg:172.70ms
step:1323/1530 train_loss:3.3171 train_time:226772ms step_avg:172.71ms
step:1324/1530 train_loss:3.4369 train_time:226953ms step_avg:172.72ms
step:1325/1530 train_loss:3.4957 train_time:227135ms step_avg:172.73ms
step:1326/1530 train_loss:3.2152 train_time:227316ms step_avg:172.73ms
step:1327/1530 train_loss:3.1651 train_time:227492ms step_avg:172.73ms
step:1328/1530 train_loss:3.4937 train_time:227671ms step_avg:172.74ms
step:1329/1530 train_loss:3.3009 train_time:228016ms step_avg:172.87ms
step:1330/1530 train_loss:3.4269 train_time:228197ms step_avg:172.88ms
step:1331/1530 train_loss:3.3312 train_time:228374ms step_avg:172.88ms
step:1332/1530 train_loss:3.7367 train_time:228556ms step_avg:172.89ms
step:1333/1530 train_loss:3.4777 train_time:228736ms step_avg:172.89ms
step:1334/1530 train_loss:3.3692 train_time:228914ms step_avg:172.90ms
step:1335/1530 train_loss:3.2871 train_time:229092ms step_avg:172.90ms
step:1336/1530 train_loss:3.2929 train_time:229278ms step_avg:172.91ms
step:1337/1530 train_loss:3.5521 train_time:229457ms step_avg:172.91ms
step:1338/1530 train_loss:3.5202 train_time:229635ms step_avg:172.92ms
step:1339/1530 train_loss:3.3353 train_time:229814ms step_avg:172.92ms
step:1340/1530 train_loss:3.2875 train_time:229993ms step_avg:172.93ms
step:1341/1530 train_loss:3.5897 train_time:230169ms step_avg:172.93ms
step:1342/1530 train_loss:3.3589 train_time:230350ms step_avg:172.94ms
step:1343/1530 train_loss:3.3652 train_time:230527ms step_avg:172.94ms
step:1344/1530 train_loss:3.4165 train_time:230708ms step_avg:172.94ms
step:1345/1530 train_loss:3.3879 train_time:230892ms step_avg:172.95ms
step:1346/1530 train_loss:3.2966 train_time:231068ms step_avg:172.96ms
step:1347/1530 train_loss:3.2770 train_time:231246ms step_avg:172.96ms
step:1348/1530 train_loss:3.3511 train_time:231425ms step_avg:172.96ms
step:1349/1530 train_loss:3.2744 train_time:231602ms step_avg:172.97ms
step:1350/1530 train_loss:3.3855 train_time:231783ms step_avg:172.97ms
step:1351/1530 train_loss:3.2424 train_time:231960ms step_avg:172.98ms
step:1352/1530 train_loss:3.3073 train_time:232138ms step_avg:172.98ms
step:1353/1530 train_loss:3.4045 train_time:232317ms step_avg:172.98ms
step:1354/1530 train_loss:3.2609 train_time:232495ms step_avg:172.99ms
step:1355/1530 train_loss:3.1878 train_time:232671ms step_avg:172.99ms
step:1356/1530 train_loss:3.5084 train_time:232851ms step_avg:172.99ms
step:1357/1530 train_loss:3.4230 train_time:233031ms step_avg:173.00ms
step:1358/1530 train_loss:3.1815 train_time:233210ms step_avg:173.00ms
step:1359/1530 train_loss:3.4415 train_time:233391ms step_avg:173.01ms
step:1360/1530 train_loss:3.3497 train_time:233571ms step_avg:173.02ms
step:1361/1530 train_loss:3.1272 train_time:233757ms step_avg:173.03ms
step:1362/1530 train_loss:3.3950 train_time:233939ms step_avg:173.03ms
step:1363/1530 train_loss:3.2828 train_time:234126ms step_avg:173.04ms
step:1364/1530 train_loss:3.3014 train_time:234306ms step_avg:173.05ms
step:1365/1530 train_loss:3.3146 train_time:234484ms step_avg:173.05ms
step:1366/1530 train_loss:3.4242 train_time:234666ms step_avg:173.06ms
step:1367/1530 train_loss:3.3952 train_time:234845ms step_avg:173.06ms
step:1368/1530 train_loss:3.3476 train_time:235025ms step_avg:173.07ms
step:1369/1530 train_loss:3.2741 train_time:235211ms step_avg:173.08ms
step:1370/1530 train_loss:3.6061 train_time:235393ms step_avg:173.08ms
step:1371/1530 train_loss:3.3133 train_time:235574ms step_avg:173.09ms
step:1372/1530 train_loss:3.3669 train_time:235759ms step_avg:173.10ms
step:1373/1530 train_loss:3.3680 train_time:235939ms step_avg:173.10ms
step:1374/1530 train_loss:3.1489 train_time:236120ms step_avg:173.11ms
step:1375/1530 train_loss:3.5348 train_time:236301ms step_avg:173.11ms
step:1375/1530 val_loss:3.3103 train_time:236353ms step_avg:173.15ms
step:1376/1530 train_loss:3.3453 train_time:236480ms step_avg:173.12ms
step:1377/1530 train_loss:3.4801 train_time:236659ms step_avg:173.12ms
step:1378/1530 train_loss:3.4703 train_time:236837ms step_avg:173.13ms
step:1379/1530 train_loss:3.1100 train_time:237020ms step_avg:173.13ms
step:1380/1530 train_loss:3.3146 train_time:237200ms step_avg:173.14ms
step:1381/1530 train_loss:3.7018 train_time:237386ms step_avg:173.15ms
step:1382/1530 train_loss:3.2087 train_time:237565ms step_avg:173.15ms
step:1383/1530 train_loss:3.3874 train_time:237747ms step_avg:173.16ms
step:1384/1530 train_loss:3.4720 train_time:237931ms step_avg:173.17ms
step:1385/1530 train_loss:3.4074 train_time:238106ms step_avg:173.17ms
step:1386/1530 train_loss:3.3429 train_time:238285ms step_avg:173.17ms
step:1387/1530 train_loss:3.1973 train_time:238463ms step_avg:173.18ms
step:1388/1530 train_loss:3.3451 train_time:238640ms step_avg:173.18ms
step:1389/1530 train_loss:3.3130 train_time:238824ms step_avg:173.19ms
step:1390/1530 train_loss:3.5664 train_time:239000ms step_avg:173.19ms
step:1391/1530 train_loss:3.2889 train_time:239179ms step_avg:173.19ms
step:1392/1530 train_loss:3.2860 train_time:239359ms step_avg:173.20ms
step:1393/1530 train_loss:3.2383 train_time:239539ms step_avg:173.20ms
step:1394/1530 train_loss:3.4968 train_time:239716ms step_avg:173.21ms
step:1395/1530 train_loss:3.3901 train_time:239896ms step_avg:173.21ms
step:1396/1530 train_loss:3.4006 train_time:240074ms step_avg:173.21ms
step:1397/1530 train_loss:3.3046 train_time:240251ms step_avg:173.22ms
step:1398/1530 train_loss:3.2548 train_time:240426ms step_avg:173.22ms
step:1399/1530 train_loss:3.3168 train_time:240603ms step_avg:173.22ms
step:1400/1530 train_loss:3.3155 train_time:240787ms step_avg:173.23ms
step:1401/1530 train_loss:3.3465 train_time:240964ms step_avg:173.23ms
step:1402/1530 train_loss:3.2986 train_time:241144ms step_avg:173.24ms
step:1403/1530 train_loss:3.4971 train_time:241330ms step_avg:173.24ms
step:1404/1530 train_loss:3.2788 train_time:241508ms step_avg:173.25ms
step:1405/1530 train_loss:3.3157 train_time:241690ms step_avg:173.25ms
step:1406/1530 train_loss:3.3171 train_time:241871ms step_avg:173.26ms
step:1407/1530 train_loss:3.1751 train_time:242047ms step_avg:173.26ms
step:1408/1530 train_loss:3.3116 train_time:242226ms step_avg:173.27ms
step:1409/1530 train_loss:3.3033 train_time:242414ms step_avg:173.28ms
step:1410/1530 train_loss:3.2870 train_time:242592ms step_avg:173.28ms
step:1411/1530 train_loss:3.3629 train_time:242769ms step_avg:173.28ms
step:1412/1530 train_loss:3.3322 train_time:242945ms step_avg:173.28ms
step:1413/1530 train_loss:3.3595 train_time:243122ms step_avg:173.29ms
step:1414/1530 train_loss:3.3251 train_time:243301ms step_avg:173.29ms
step:1415/1530 train_loss:3.4040 train_time:243485ms step_avg:173.30ms
step:1416/1530 train_loss:3.2301 train_time:243674ms step_avg:173.31ms
step:1417/1530 train_loss:3.2775 train_time:243858ms step_avg:173.32ms
step:1418/1530 train_loss:3.3886 train_time:244038ms step_avg:173.32ms
step:1419/1530 train_loss:3.3409 train_time:244220ms step_avg:173.33ms
step:1420/1530 train_loss:3.3672 train_time:244401ms step_avg:173.33ms
step:1421/1530 train_loss:3.3723 train_time:244580ms step_avg:173.34ms
step:1422/1530 train_loss:3.3311 train_time:244759ms step_avg:173.34ms
step:1423/1530 train_loss:3.3187 train_time:244938ms step_avg:173.35ms
step:1424/1530 train_loss:3.3330 train_time:245123ms step_avg:173.35ms
step:1425/1530 train_loss:3.1903 train_time:245311ms step_avg:173.36ms
step:1426/1530 train_loss:3.3243 train_time:245490ms step_avg:173.37ms
step:1427/1530 train_loss:3.2843 train_time:245672ms step_avg:173.37ms
step:1428/1530 train_loss:3.3753 train_time:245850ms step_avg:173.38ms
step:1429/1530 train_loss:3.3530 train_time:246027ms step_avg:173.38ms
step:1430/1530 train_loss:3.2571 train_time:246209ms step_avg:173.39ms
step:1431/1530 train_loss:3.3188 train_time:246392ms step_avg:173.39ms
step:1432/1530 train_loss:3.3361 train_time:246574ms step_avg:173.40ms
step:1433/1530 train_loss:3.1303 train_time:246759ms step_avg:173.41ms
step:1434/1530 train_loss:3.2872 train_time:246945ms step_avg:173.42ms
step:1435/1530 train_loss:3.1171 train_time:247125ms step_avg:173.42ms
step:1436/1530 train_loss:3.2323 train_time:247304ms step_avg:173.42ms
step:1437/1530 train_loss:3.4097 train_time:247481ms step_avg:173.43ms
step:1438/1530 train_loss:3.3799 train_time:247658ms step_avg:173.43ms
step:1439/1530 train_loss:3.3147 train_time:247838ms step_avg:173.43ms
step:1440/1530 train_loss:3.1963 train_time:248013ms step_avg:173.44ms
step:1441/1530 train_loss:3.3410 train_time:248193ms step_avg:173.44ms
step:1442/1530 train_loss:3.3896 train_time:248376ms step_avg:173.45ms
step:1443/1530 train_loss:3.4896 train_time:248563ms step_avg:173.46ms
step:1444/1530 train_loss:3.4490 train_time:248741ms step_avg:173.46ms
step:1445/1530 train_loss:3.3387 train_time:248918ms step_avg:173.46ms
step:1446/1530 train_loss:3.2012 train_time:249099ms step_avg:173.47ms
step:1447/1530 train_loss:3.2983 train_time:249281ms step_avg:173.47ms
step:1448/1530 train_loss:3.2952 train_time:249459ms step_avg:173.48ms
step:1449/1530 train_loss:3.3911 train_time:249638ms step_avg:173.48ms
step:1450/1530 train_loss:3.3833 train_time:249818ms step_avg:173.48ms
step:1451/1530 train_loss:3.2061 train_time:249997ms step_avg:173.49ms
step:1452/1530 train_loss:3.3315 train_time:250178ms step_avg:173.49ms
step:1453/1530 train_loss:3.2585 train_time:250353ms step_avg:173.49ms
step:1454/1530 train_loss:3.2876 train_time:250531ms step_avg:173.50ms
step:1455/1530 train_loss:3.3259 train_time:250714ms step_avg:173.50ms
step:1456/1530 train_loss:3.2853 train_time:250890ms step_avg:173.51ms
step:1457/1530 train_loss:3.1494 train_time:251067ms step_avg:173.51ms
step:1458/1530 train_loss:3.4218 train_time:251245ms step_avg:173.51ms
step:1459/1530 train_loss:3.2693 train_time:251427ms step_avg:173.52ms
step:1460/1530 train_loss:3.3174 train_time:251604ms step_avg:173.52ms
step:1461/1530 train_loss:3.4295 train_time:251785ms step_avg:173.53ms
step:1462/1530 train_loss:3.2614 train_time:251962ms step_avg:173.53ms
step:1463/1530 train_loss:3.4670 train_time:252146ms step_avg:173.53ms
step:1464/1530 train_loss:3.3576 train_time:252325ms step_avg:173.54ms
step:1465/1530 train_loss:3.3568 train_time:252504ms step_avg:173.54ms
step:1466/1530 train_loss:3.2885 train_time:252681ms step_avg:173.54ms
step:1467/1530 train_loss:3.3920 train_time:252860ms step_avg:173.55ms
step:1468/1530 train_loss:3.2885 train_time:253036ms step_avg:173.55ms
step:1469/1530 train_loss:3.2722 train_time:253216ms step_avg:173.55ms
step:1470/1530 train_loss:3.3303 train_time:253399ms step_avg:173.56ms
step:1471/1530 train_loss:3.2553 train_time:253584ms step_avg:173.57ms
step:1472/1530 train_loss:3.2492 train_time:253769ms step_avg:173.58ms
step:1473/1530 train_loss:3.4426 train_time:253947ms step_avg:173.58ms
step:1474/1530 train_loss:3.3117 train_time:254131ms step_avg:173.59ms
step:1475/1530 train_loss:3.1518 train_time:254317ms step_avg:173.59ms
step:1476/1530 train_loss:3.2620 train_time:254496ms step_avg:173.60ms
step:1477/1530 train_loss:3.2376 train_time:254683ms step_avg:173.61ms
step:1478/1530 train_loss:3.3079 train_time:254867ms step_avg:173.62ms
step:1479/1530 train_loss:3.3929 train_time:255050ms step_avg:173.62ms
step:1480/1530 train_loss:3.2699 train_time:255226ms step_avg:173.62ms
step:1481/1530 train_loss:3.4487 train_time:255411ms step_avg:173.63ms
step:1482/1530 train_loss:3.3715 train_time:255597ms step_avg:173.64ms
step:1483/1530 train_loss:3.2773 train_time:255787ms step_avg:173.65ms
step:1484/1530 train_loss:3.2641 train_time:255975ms step_avg:173.66ms
step:1485/1530 train_loss:3.2829 train_time:256155ms step_avg:173.66ms
step:1486/1530 train_loss:3.2272 train_time:256339ms step_avg:173.67ms
step:1487/1530 train_loss:3.3420 train_time:256521ms step_avg:173.68ms
step:1488/1530 train_loss:3.2366 train_time:256705ms step_avg:173.68ms
step:1489/1530 train_loss:3.3103 train_time:256885ms step_avg:173.69ms
step:1490/1530 train_loss:3.2544 train_time:257064ms step_avg:173.69ms
step:1491/1530 train_loss:3.1615 train_time:257243ms step_avg:173.70ms
step:1492/1530 train_loss:3.2651 train_time:257424ms step_avg:173.70ms
step:1493/1530 train_loss:3.4280 train_time:257601ms step_avg:173.70ms
step:1494/1530 train_loss:3.2953 train_time:257781ms step_avg:173.71ms
step:1495/1530 train_loss:3.0312 train_time:257964ms step_avg:173.71ms
step:1496/1530 train_loss:3.3614 train_time:258147ms step_avg:173.72ms
step:1497/1530 train_loss:3.3132 train_time:258332ms step_avg:173.73ms
step:1498/1530 train_loss:3.3464 train_time:258517ms step_avg:173.73ms
step:1499/1530 train_loss:3.3138 train_time:258706ms step_avg:173.75ms
step:1500/1530 train_loss:3.2951 train_time:258898ms step_avg:173.76ms
step:1500/1530 val_loss:3.2791 train_time:258954ms step_avg:173.79ms
step:1501/1530 train_loss:3.0907 train_time:259090ms step_avg:173.77ms
step:1502/1530 train_loss:3.3635 train_time:259282ms step_avg:173.78ms
step:1503/1530 train_loss:3.2438 train_time:259460ms step_avg:173.78ms
step:1504/1530 train_loss:3.2487 train_time:259641ms step_avg:173.79ms
step:1505/1530 train_loss:3.2169 train_time:259820ms step_avg:173.79ms
step:1506/1530 train_loss:3.2820 train_time:260004ms step_avg:173.80ms
step:1507/1530 train_loss:3.1798 train_time:260199ms step_avg:173.81ms
step:1508/1530 train_loss:3.4791 train_time:260383ms step_avg:173.82ms
step:1509/1530 train_loss:3.2811 train_time:260561ms step_avg:173.82ms
step:1510/1530 train_loss:3.2704 train_time:260741ms step_avg:173.83ms
step:1511/1530 train_loss:3.4135 train_time:261057ms step_avg:173.92ms
step:1512/1530 train_loss:3.4197 train_time:261245ms step_avg:173.93ms
step:1513/1530 train_loss:3.2691 train_time:261428ms step_avg:173.94ms
step:1514/1530 train_loss:3.0839 train_time:261608ms step_avg:173.94ms
step:1515/1530 train_loss:3.2422 train_time:261789ms step_avg:173.95ms
step:1516/1530 train_loss:3.2557 train_time:261975ms step_avg:173.95ms
step:1517/1530 train_loss:3.3038 train_time:262156ms step_avg:173.96ms
step:1518/1530 train_loss:3.2037 train_time:262339ms step_avg:173.96ms
step:1519/1530 train_loss:3.5054 train_time:262674ms step_avg:174.07ms
step:1520/1530 train_loss:3.1304 train_time:262858ms step_avg:174.08ms
step:1521/1530 train_loss:3.2052 train_time:263036ms step_avg:174.08ms
step:1522/1530 train_loss:3.3584 train_time:263220ms step_avg:174.09ms
step:1523/1530 train_loss:3.2267 train_time:263399ms step_avg:174.09ms
step:1524/1530 train_loss:3.3478 train_time:263580ms step_avg:174.09ms
step:1525/1530 train_loss:3.3368 train_time:263769ms step_avg:174.10ms
step:1526/1530 train_loss:3.2789 train_time:263959ms step_avg:174.12ms
step:1527/1530 train_loss:3.2881 train_time:264141ms step_avg:174.12ms
step:1528/1530 train_loss:3.4073 train_time:264320ms step_avg:174.12ms
step:1529/1530 train_loss:3.4103 train_time:264499ms step_avg:174.13ms
step:1530/1530 train_loss:3.2370 train_time:264678ms step_avg:174.13ms
step:1530/1530 val_loss:3.2766 train_time:264732ms step_avg:174.17ms