Chapter 2

2025-12-11 19:15:23 -08:00
parent 7c575e1d3e
commit 4430247d40
4 changed files with 136 additions and 4 deletions
--- a/crates/llmfs/Cargo.toml
+++ b/crates/llmfs/Cargo.toml
@@ -12,9 +12,11 @@ tokenizer = { workspace = true }

 anstyle = { workspace = true }
 anyhow = { workspace = true }
+burn = { workspace = true }
 clap = { workspace = true }
 futures-util = { workspace = true }
 indicatif = { workspace = true }
+ndarray = { workspace = true }
 parking_lot = { workspace = true }
 parquet = { workspace = true }
 rayon = { workspace = true }
--- a/crates/llmfs/src/command/mod.rs
+++ b/crates/llmfs/src/command/mod.rs
@@ -1,4 +1,5 @@
 mod download;
+mod sample_data;
 mod train_tokenizer;

 #[derive(Debug, clap::Subcommand)]
@@ -14,6 +15,12 @@ pub enum SubCommand {
 		#[command(flatten)]
 		args: train_tokenizer::TrainTokenizerArgs,
 	},
+
+	/// Sample data
+	SampleData {
+		#[command(flatten)]
+		args: sample_data::SampleDataArgs,
+	},
 }

 impl SubCommand {
@@ -21,6 +28,7 @@ impl SubCommand {
 		match self {
 			Self::Download { args } => args.run(mp),
 			Self::TrainTokenizer { args } => args.run(mp),
+			Self::SampleData { args } => args.run(mp),
 		}
 	}
 }
--- a/crates/llmfs/src/command/sample_data.rs
+++ b/crates/llmfs/src/command/sample_data.rs
@@ -0,0 +1,122 @@
+use anyhow::{Context, Result};
+use burn::{
+	Tensor,
+	backend::{Cuda, cuda::CudaDevice},
+	nn::{Embedding, EmbeddingConfig},
+	tensor::Int,
+};
+use clap::Args;
+use indicatif::MultiProgress;
+use ndarray::Array2;
+use std::{fs::File, path::PathBuf};
+use tokenizer::Tokenizer;
+
+use crate::data_reader::DataReader;
+
+#[derive(Debug, Args, Clone)]
+
+pub struct SampleDataArgs {
+	/// Path to training data
+	#[clap(long, default_value = "data")]
+	data_dir: PathBuf,
+
+	/// Path to tokenizer
+	#[clap(long)]
+	tokenizer: PathBuf,
+
+	/// How many texts to return
+	#[clap(long, short = 'n', default_value = "10")]
+	n: usize,
+
+	/// How many texts to skip
+	#[clap(long, short = 's', default_value = "0")]
+	skip: usize,
+}
+
+impl SampleDataArgs {
+	pub fn run(self, _mp: Option<MultiProgress>) -> Result<()> {
+		let device = CudaDevice::new(0);
+
+		let iter = DataReader::new(1, &self.data_dir).context("while initializing data reader")?;
+
+		let tokenizer = File::open(self.tokenizer).context("while opening tokenizer")?;
+		let tokenizer: Tokenizer =
+			serde_json::from_reader(tokenizer).context("while loading tokenizer")?;
+
+		let context_size = 4;
+		let stride = 4;
+
+		// Dimension of each token vector
+		let embedding_dim = 256;
+
+		let batch_size = 10;
+		let mut input_batch = Vec::with_capacity(batch_size);
+		let mut output_batch = Vec::with_capacity(batch_size);
+
+		#[expect(clippy::unwrap_used)] // Lazy error handling
+		let iter = iter.map(|x| x.unwrap()).skip(self.skip).take(self.n);
+
+		// TODO: what is this?
+		let tok_embedder = EmbeddingConfig::new(tokenizer.vocab_size() as usize, embedding_dim);
+		let tok_embedder: Embedding<Cuda> = tok_embedder.init(&device);
+
+		let pos_embedder = EmbeddingConfig::new(context_size, embedding_dim);
+		let pos_embedder: Embedding<Cuda> = pos_embedder.init(&device);
+
+		let pos_tensor: Tensor<Cuda, 2, Int> =
+			Tensor::arange(0..context_size as i64, &device).unsqueeze_dim(0);
+
+		// [1, context_size, dim]
+		let pos_embedding = pos_embedder.forward(pos_tensor);
+
+		println!("{:?}", pos_embedding.shape());
+
+		for i in iter {
+			let tokens = tokenizer.encode(&i);
+
+			for (a, b) in tokens
+				.windows(context_size)
+				.step_by(stride)
+				.zip(tokens[stride..].windows(context_size).step_by(stride))
+			{
+				input_batch.push(a.to_owned());
+				output_batch.push(b.to_owned());
+
+				let context = a;
+				let desired = &b[b.len() - 1..];
+
+				println!("{context:?} -> {desired:?}");
+
+				/*
+				let input = tokenizer.decode(context);
+				let target = tokenizer.decode(desired);
+				println!("{input:?} -> {target:?}");
+				*/
+
+				// TODO: last batch
+				if input_batch.len() >= batch_size {
+					let shape = [batch_size, context_size];
+
+					let input = std::mem::replace(&mut input_batch, Vec::with_capacity(batch_size));
+					let input: Array2<u32> = Array2::from_shape_fn(shape, |(a, b)| input[a][b]);
+					let input: Tensor<Cuda, 2, Int> =
+						Tensor::<_, 1, Int>::from_ints(input.as_slice().unwrap(), &device)
+							.reshape(shape);
+
+					let output =
+						std::mem::replace(&mut output_batch, Vec::with_capacity(batch_size));
+					let output: Array2<u32> = Array2::from_shape_fn(shape, |(a, b)| output[a][b]);
+					let output: Tensor<Cuda, 2, Int> =
+						Tensor::<_, 1, Int>::from_ints(output.as_slice().unwrap(), &device)
+							.reshape(shape);
+
+					let tok_e = tok_embedder.forward(input);
+					let tok_e: Tensor<Cuda, 3> = Tensor::from_data(tok_e.to_data(), &device);
+					let tok_e = tok_e.add(pos_embedding.clone().unsqueeze_dim(0));
+				}
+			}
+		}
+
+		Ok(())
+	}
+}
--- a/crates/llmfs/src/command/train_tokenizer.rs
+++ b/crates/llmfs/src/command/train_tokenizer.rs
@@ -12,14 +12,14 @@ use crate::data_reader::DataReader;
 #[derive(Debug, Args, Clone)]

 pub struct TrainTokenizerArgs {
-	/// Path to training data
-	#[clap(default_value = "data")]
-	data_dir: PathBuf,
-
 	/// Where to save tokenizer
 	#[clap(default_value = "tokenizer.json")]
 	target: PathBuf,

+	/// Path to training data
+	#[clap(long, default_value = "data")]
+	data_dir: PathBuf,
+
 	/// Only train on the first n texts
 	#[clap(long)]
 	first_n: Option<usize>,