◎正当な理由による書き込みの削除について: 生島英之 とみられる方へ:なんJLLM部 ★2 ->画像>55枚
動画、画像抽出 ||
この掲示板へ
類似スレ
掲示板一覧 人気スレ 動画人気順
このスレへの固定リンク: http://5chb.net/r/liveuranus/1685613014/ ヒント: 5chスレのurlに http ://xxxx.5chb .net/xxxx のようにb を入れるだけでここでスレ保存、閲覧できます。
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
3060 12GBでもなんぼか楽しめるで
どう転んでもローカルで動かせる今の世代はオバカなので
そこは期待しすぎんといてな
自薦・他薦のモデルやツールは
>>2 以降
前スレ なんJLLM部
http://2chb.net/r/liveuranus/1678930450/ VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
WebUI
りんな動かすだけとかなら要らないかもしらんけど、
英語圏含めた色々なモデルを試しまくるなら
鉄板のもよう
https://github.com/oobabooga/text-generation-webui 言語モデルをファインチューンしてLoRA作るときの
定番のコード? が入っている
こういうのを誰でも安定して成功させてりんなとかに混ぜられる
状態になるのが当面の多くのスレ民の願い
Alpaca-LoRA
https://github.com/tloen/alpaca-lora りんなと会話してみた例(sft版)
りんなと会話したみた例(ppo版)
VRAM 12GB環境ないニキでもGoogle Colabやpaperspaceで 環境を借りればりんなのテストくらいはいけるはずやで
Web上にある既存のサービスを利用したいニキは主にここのようやで
【ChatGPT】AIチャット総合 Part6【Bing・Bard】
http://2chb.net/r/esite/1684899205/ AssistantSeikaってアプリと連携することで 出力結果をボイスロイドとかVOICEVOXとか色々なのに 読ませることもできるで
>>10 のところにAssistantSeikaとの連携は含まれているで
今のところはgit入れて
>>10 のをインストールするのが多分一番手軽な
ローカルでの始め方やで
モデルも勝手にダウンロードされるから面倒はないで
ただしモデルの初回のダウンロードもそうやし、そもそも数GBもあるクッソでかいモデルを 読み込まなきゃいけないアプリやから起動のときは気長に待つんやで ワイの環境だと2回目からは2~3分くらいかな
>>5 794 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 9f63-Nu6K) sage 2023/05/23(火) 01:13:01.89 ID:2FscFC/x0
>>779 >>783 サンガツ、学習環境を上げてみたで
https://mega.nz/folder/hrs1QJLS#9rpOXXytn2tjUqzapT7_PQ >>780 できるらしいけどRLHFは情報無さすぎてワイもわからん😭
dialogのV3.5が上がりました
バグなどを見つけたらじゃんじゃん報告していただけると泣いて喜びます
[修正履歴]
・新rinna3.6bの"ppo"と"sft-v2"に対応
・設定項目に、長文リミット:sentence_limitを実装
・AI返答にユーザー出力が含まれている場合にスキップする:skip_responceを実装
・可視性向上のために対話ループに空行を追加
・設定項目の整理
[謝辞]
前スレ
>>972 ニキ
>>26 勝手に手元でいじってたから正式対応助かる
Voyagerみたいなゲームプレイbotを、クラウドLLM経由じゃなくてローカルLLMだけで動かせるようになりたいンゴ、レスポンス向上のために 現段階ではStableVicuna13Bがローカルでのコード生成では1番優秀なのかね?
>>26 ありがとうございます 以下の修正でiMac (27in, 2020)でも動きました
-processor = "cuda"
+processor = "cpu"
### 事前学習済みモデルの読み込み
if f16_mode == True:
model = AutoModelForCausalLM.from_pretrained(
- model_name, torch_dtype=torch.float16
+ model_name, torch_dtype=torch.float32
一応答に1分以上かかるよw 会話の実用にはならんね
>>29 ご使用&情報感謝です!
float32オプションもあったほうが良さそうね
todoにいれるでー
>>26 そして早速バグみっけですよ……
responseがresponceになっとるけん
boolが入った変数名だけだから奇跡的に動作には問題なさそうだけど気になるので寝る前にサイレント修正😭
>>27 使ってくれてサンガツ!
まだまだアイディア募集中なので欲しい機能とかあったら何でも書いてくれると嬉しいで
たておつ! 最初の方のまとめめっちゃわかりやすい。
https://twitter.com/churin991116/status/1663738568781742081 LoRAで知識を増やすのアカンのか?
ChatGPT先生にVideo Insightのプラグイン入れて聞いたら
たしかにリンク先の動画で似たようなこと言っているっぽいけど
でも知識学習成功しているっぽい事例見かけるよなあ
https://twitter.com/5chan_nel (5ch newer account)
https://huggingface.co/datasets/shi3z/rachel このテキスト見て思ったんだけど、instructionに大前提の文脈を入れて、inputに具体的質問を
入れるべきなのか・・・?
そこの基本の部分あまり確認してなかった
https://qiita.com/m__k/items/173ade78990b7d6a4be4 んーでもやっぱ普通はこんな感じよなあ
'input': '暗号通貨、暗号通貨、または暗号は、政府や銀行などの中央当局に支持や維持を依存しないコンピュータネットワークを通じて
交換媒体として機能するように設計されたデジタル通貨です[2]。取引の当事者が持っていると主張するお金を持っていることを検証する
分散型システムであり、2つのエンティティ間で資金移動する際に銀行などの従来の仲介者を不要にします[3]。',
'instruction': 'Cryptocurrency(暗号通貨)とは?',
'output': '暗号通貨とは、ブロックチェーンなどのネットワーク上に構築されたデジタル通貨で、人々が商品と交換・取引することができる
ものです。世界には1000種類以上の暗号通貨が存在し、それぞれ異なる設計になっています。現在、人気のある暗号通貨は、
ビットコイン、イーサリアム、ドージコインです。
>>40 まだなんとも言えん感じやと思うで🥺
今できることはとりあえず将来に向けて、えちえちデータセットをinstruction形式で作りためる事くらいやろか
いやまあトライして挫折した民じゃなければ ぜひどんどんやってほしいんやけどな 理論上はできるはずなんや ワイは数日もがいてあきらめた
>>42 ワイも正直もう現実逃避してuiだけ触りたくなったけど
それでももう少しワンチャン漁ってみるで
alpaca_loraで吐き出された4.3GBの中にきっとなにかヒントがあると思うんや
>>44 わかりやすくてええなサンガツや🥺✨
QAボットだとファインチューニングよりもベクトルDBベースのセマンティック検索がええのか🙄
ここもまた調べ直さなあかんな😇
>>45 HentaiにAttentionさせて発情させるのか……(困惑
>>43 LoRAの出力って数十MBぐらいじゃね
4GBやとモデル全体と同じやん
Alpaca-LoRAだと元のニキの出力結果でも12.7MBくらいだった気がするな ワイも一応完走したときのデータはそれくらいになった なお、それを読み込ませてもrinnaが学習結果を認識しているとは思えないもよう
peft LoRAをやったつもりなのに7時間を2回試して2回とも4.3GBも吐き出されたから、学習結果がモデルにマージされたのかもと思って試しにモデルとして読み込ませようとしても失敗したで とりあえず初心に帰ってpeftから調べ直しとるけど、これはちょっと日が暮れそうや……
>>49 ワイはまだLoRAの吐き出しで躓いとるレベルやからやっぱりニキが一番成功に近付いてそうやね
学習結果が反映されてないのは、ワイはまだなんとも言えんけど、アプローチが違うかまだ何かか欠けてる感じやろか
というか前スレで学習環境貼ったニキは そもそも成功しているわけやけどな
学習環境とその生成物を上げてくれた前スレ794ニキにも手取り足取り教わりたいけど、ワイはまだ学習の基礎の部分で知識が足りとらんから教わる前にもう少し勉強してくるで……🥺✨
今日はいい天気ですね。 そうですね、晴れています。 どこに行きたいですか? 公園に行きたいです。晴れています。 公園で何をしたいですか? 公園で遊びたいです。晴れています。 こういう感じのやりとりがどうもrinna系で多いねんな この「晴れています。」みたいな明らかにくり返しの部分を 削除することができるようになるとまたええかも 「。!?」だけでなく「、」で区切ったりして判定すればそこそこ 精度は出るはず、形態素解析とかすればさらに精度は上がる
>>50 https://github.com/huggingface/peft/issues/317 >Relevant technical details
>pip install git+
https://github.com/huggingface/peft has an error (at time of writing that's commit b21559e ) but pip install peft==0.2.0 does not,
>indicating likely an error sourcing from a recent change.
どうやらpeftのバージョンがアカンかったみたいや
pip install peftで落ちてきたpeft==0.4.0devからpeft==0.2.0にダウングレードしてやっと13MBのadpter_model.binを書き出せたで
>>54 確かにsftv2とppoやと「良い1日を」とか「お元気で」みたいな定型文が発話毎に語尾に付くのが増えた気がするンゴね
会話履歴から一定文字数以上の重複するフレーズを探索して返答から削除する感じのやつなら実装できそうや
形態素解析ライブラリはだいぶ前にmecabとjuman++触ったきりやから今すぐ実装するのは難しいけど、品詞分解させるのもなかなか面白いと思う😇✨
完全一致で出てくることが多いから形態素解析しなくても全然いけるかもなあ 「もちろんです。」みたいなのをホワイトリストに入れてもいいけど、なくても十分かも
>>56 ただまだやっと794ニキのが動いた段階で、cloneしたalpaca_loraとか下のURLのやとadpter_model.binやなくてpytorch_model.binで吐き出されてまうのが謎や
やっぱりpeftをしっかり調べてfinetune.pyの中身全部解読せなアカンかもしれぬい
https://github.com/Yukaryavka/rinna_gpt-neox_ggml-lora >>58 それならワンチャンありそうや
次のV3.6のメインは重複フレーズの削除でいくで
後はこっちのエラーもそろそろ解決したいけどgeneration configurationファイル使え言われてrinna付属のconfigファイル読み込ませてみたけど結局変わらんかった
確かtransformerライブラリのAutoModelCausalLMの中にエラーメッセージが書かれてる部分があったから、いっそのこと丸ごとコメントアウトするのもありかもしれぬい
>>60 このエラーメッセージ消すためにデフォルトでpadding=Falseにしてみたけど新rinnaでもpaddingはTrueにしたほうが良さそうやな
padding消すと返事がガバってるの今更気がついたで
>>26 [修正]
90行目
- token_padding=False
+token_padding=True
rinna sft-v2
「ああ、そうだな。」にノルネ味を感じた
ジェネリックノルネの誕生は近い
まあなんでもええねん 学習したことに「これは」って感じてからが次の第一歩や
せやな ワイももう少し頑張ってみるけど、学習はまだ先が長そうや
とりあえずテストも兼ねてsftv2をイジってみた temperatureデフォのままでえちえち単語言わせようとすると空白返事になったりするけど、1にすると普通に話してくれるみたいや 読み上げさせるとなかなかええしローカルチャHもワンチャンありそうやで
なんJからきたやで~ ワイも仮想の女の子とエチエチチャットしたくて興味津々や! AI絵に飽きて使い道がなくなったRTX3060ちゃんでいっぱい遊ぶンゴ
3060じゃあエチエチチャットは無理なんやないか?
いけるで全然 まありんなとか自体の限界は当然あるが
思うような返答が返ってこない場合regenを入れたら AIの最後の返答を消してもう一回生成させる、ってしてみたら 結構ええわ
えちえち語尾の学習とか早くできるようにしたいな……
dialog 修正
https://github.com/AlgosErgo/rinna_dialog [修正履歴]
・token_paddingの値をTrueに修正。
(デフォルト設定のFalseだと文章が正常に生成されなくなる。)
>>70 再生成は確かに便利でええな
サンガツや!
完全一致での重複フレーズ削除を試しに実装してみけど、文字数は10字以上くらいにしないと話題によっては結構誤爆するからちょっと扱いにくい感じになってまうな
それくらいでええと思うで あいづちとかは重複するやろし
>>75 せやな
相槌とかユーザー名AI名は避けて良い具合を探してみたけど、一番頻出な短文の重複フレーズはもれなくスルーするザルフィルターになってまうから、あまり実用的ではなさそうや……😭
ひとまずはrepetition_penalty上げつつ凌ぐ感じがええかもしれぬい
それか、ユーザーがCLIから除外ワードを設定していく方式もええかも🥺✨
途中で無理矢理AIの最終回答をこっちが上書きするforceコマンドも作ってみたわ
おっ、forceもええな コマンドオプション増えてきたしスパゲッティ化する前にここらで纏めてリファクタリングしたほうが良さそうやね
近頃画像生成やら音声生成やらテキスト生成やらが続々と登場しているおかげで paperspaceのコスパが鰻登りやわ
alpaca_loraとかfine tuningはまだローカルでやるのは難しいから、paperspaceとかのクラウド民に色々試してみて欲しいゾ
regenとforceは一度使ってみるとこれナシでなんでやってたんやろってくらい使えるわ AIがバカならガチャしたり修正したりすればええんや まああんま無理な流れのときはforceだらけになってただのエロ小説書いてるみたいになるが
QLoRAだけど、「単一の48GB GPUで16Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する効率的な微調整アプローチであるQLoRA~」って書かれてるから、RTX A6000 48 GBとかをrunpodとかlamda labとかpaperspaceとか?のクラウドで借りて、いい感じのモデルを学習元にして、いい感じの日本語データセット(alpaca_jaとか?)を使って個人がトレーニングすることはもうできるのかもしれんな
まあ元が日本語のモデルの方が何かとはかどりそうではある
一生起動できなかったoobabooga / text-generation-webuiがようやく動作した
ワンクリック使えMiniconda使えとか書いてあるけど普通にvenvでもよくて、python -m venv venvしてぽちぽちpipでインストールしていったら動いたわ。むしろCondaうざいからVenv推奨。
GPTQモデル使う場合は、↓に従ってGPTQ-for-LLaMaもインストールする必要がある
https://github.com/oobabooga/text-generation-webui/blob/main/docs/GPTQ-models- (4-bit-mode).md
TheBloke_Wizard-Vicuna-13B-Uncensored-GPTQを動かしてみた。4bit量子化されているっぽくてRTX306012GBでも動く。モデルの使い方に関してはhuggingfaceのリポジトリに書いてあるのでそこを参照した
日本語はへぼい。英語で聞いたら爆弾の作り方教えてくれたけどYamagamiじゃないから情報が正しいのか分からんわ
更新 : dialog_v3.6 https://github.com/AlgosErgo/rinna_dialog [修正履歴] ・UI周りの最適化。モデル読み込み時のメッセージを追加。 ・新オプションを追加 - [regen] : 会話履歴から一番新しいAI返答を削除して、再生成する。 - [force] : AI返答文をユーザー入力で上書きする。 - [ng] : ユーザー入力からNGリストを作成。AI返答にNGワードが含まれている場合は削除する。 ・[regen]と[force]の実装に伴い、関数:forget_conv_listに再生成モードを追加。 ・skip_responseをskip_user_resに変更。 ・行数が増えてきたので改行減らして圧縮。 >>87 わかりやすい纏めサンガツや!
もう使ってたらすまんけどvicuna13B uncensorは翻訳拡張を使うとええ感じやったで
ただワイの環境やとしょっちゅう読み込まんくなるせいで何度もooba消したりワンクリインスコしたりせなあかんくて、修正されるまで触れなくなってもうた……
>>90 そうね。GoogleTranslate拡張機能は使ってみたんだけどなんか生成くっそ遅くなって切ってしまった
右クリ→日本語に翻訳でリアルタイムで翻訳されるしこれでいいやって感じはある
日本語でLLAMAとか使うと○○モデルがChatGPTに90%~近似!!とかいうの嘘やろと思うけど、英語だとまぁそれっぽいなぁって感じの評価になるのはわかる。ChatGPT3.4って感じやな
「海賊をテーマにした少年漫画のキャラクターシートを作って」って健全なお題でそれらしいものは作ってくれた
>>92 API叩きにいくぶんだけロスになってしまうのは確かにネックやね
後は翻訳用にファインチューニングされた言語モデルを使うなんていうアイディアもあるらしいけど同時に2つのモデルを動かすのはメモリ的にも厳しそう
>>93 日本語モデルやとやっぱりどこかまだGPT2レベルの域を出られてない感じはあるね
健全なのはまあ正直アレやけど英語ネイティブなら英語チャHも普通にできると考えたら悔しいゾ
LLaMAがリークされたときに4bit量子化された65Bモデル触ってみたけど、日本語でチャHはワイじゃ叶えられんかったで 英語でチャHは試してないからxvideos聞き取れるネイティブニキとかの評価も聞いてみたいンゴ AI調教自信ニキならワンチャンあるかもしれない
つか翻訳すればええわけやしな 場合によっては一部のオーイエスとかだけPython噛まして ええ感じのあえぎに変えるよう自分でデータベースみたいなの 構築してもええやろし
ただ翻訳するだけなのも味気ないから申し訳程度の語尾追加とかでえちえち度稼いでみるとかええかも 定型文を辞書で差し替えるのは昔ながらのコーパスを組む感じやろか データベースはワイはあまり自信ないから誰か実験レベルでもええからちょっと試してみて欲しいゾ
大した規模じゃないなら別にExcelで作ってCSVか何かで読み込めば十分やろ fuzzywuzzyとか使えば完全一致じゃなくチェックすることも可能やし まあfuzzywizzyで数が増えてくるとなんぼ古い処理と言っても レスポンス遅くなるかもしらんが
csvはめっちゃ重くなるのが怖いけどchatgptに任せて複数のファイルに分けてもええな fuzzywuzzyは聞いたことあるけど触ったことはないンゴね
寝る前にちょっと部員募集してくるで またNVA部に宣伝に行くのもええけどスレ違いやって言われそうやし何かとっておきができたらするで
去年この分野に関心持ってrinnaのjapanese gpt2 mediumに安倍晋三の国会での全発言学習させたなぁ
何も分かってないからそこまで上手くいかなかったけど今やればもっとしっかりしたの作れるんすかねぇ
>>104 安倍晋三は草
今のモデルやと学習素材にinstruction形式でのデータセットが必要って線が濃厚やから、ベタテキストで学習させてた頃よりもちょっとハードルが上がっちゃう感じやけど、ベースとしては今の3.6Bは確実に賢くなっとると思うで
model = model.to("cuda") これって4bitとか8bitで動かしているときはエラー出ちゃうけど 別に削除してもちゃんとGPUで動いているっぽい?
うーんLLAMAも一応試そうとしたけどちゃんとやりとりするとこまでいけない ローカルのwebuiだとメモリエラーが出てしまって動かん paperspaceだとwebuiの動かし方がいまいちわからんし これまでのチャットスクリプトを書き換える形だとなんか model.generateするとこでエラーが出てしまう 上手く行っている人の環境(メモリやGPU)とか、 LLAMAの中でどのモデル使っているとか教えてほしいンゴ
あ、これでローカルで動いたかも。メモリ食ってるアプリをうっかり落とすの忘れてたみたい TheBloke/WizardLM-7B-uncensored-GPTQ しかしuncensoredのくせにI'm sorry, but that question is inappropriate for me to answerとか出るわ、 りんなちゃんを見習え
65Bの4bit量子化モデルはllama.cppとdallaiで試した記憶あるけど今はcudaにも対応しとるみたいやな あとで新しいのをcloneしてまた環境構築してみるゾ
vicuna13B uncensorは普通の会話やとなかなか理解度高くて良かったけど、えちえち用途だと翻訳噛ます分やっぱり物足りなかったで🙄 りんなsftv2ならセックスとかオチンポとか普通に言ってくれるのに🥺
vicuna13Bの4bitって奴だとやっぱメモリエラーが出ちゃうなー 結局rinnaしかないのか
WizardLMのuncensored(つまりLLaMA系統)で英語でアダルト方面の話題振ってみたりしたけどそこはかとなく微妙だったで 3サイズごときでも「haha, nice joke」みたいな ロールプレイ的なことも試したがバタ臭くてやってられんわ
つか10日前にrinnaのnoteできとるやん!
この布留川って人はほんま情報発信してくれるな
https://note.com/npaka/n/nc387b639e50e rinna未だにwebUIで起動出来ないから触ってない
>>10 ニキのでやるのが一番ラクやで
特に何もせんでも動く
webUIで動かすためのフォーマットと
配付されているモデルがなんか微妙に
互換性ないんやろ
>>115 つかデータのサイズやばそうやけど4bit化とかのテクあるんかな?
>>119 Flexgenとか言う専用?オフロード技術があるから3090でもくっっっそ遅いけど動く
oobabooga / text-generation-webuiでGPTneox対応してるはずなんだが、Successfully loaded rinna_japanese-gpt-neox-3.6b-instruction-ppoって出るっちゃでるんだけどまるで会話にならんのはなんでなんだろうか?
>>116 のをpaperspaceでマネしたら完走はするんやけど(13MBくらいのファイルができる)、
例によって効いていない感
(時間短縮のためにデータセットは自前のにしてみた)
誰か他に試した人おる?
学習にかける時間増やすとマシになるとかあるんかな・・・
これひょっとしたらsft-v2とかじゃなくて素のrinna3.6bじゃないとダメなのかな eval_steps = 200 save_steps = 200 あと別のとこの num_train_epochs=4 これら増やしたら当然学習時間伸びたんだけど、それだけじゃないくらい 学習時間がかなり長くなった 結果がどうなるかはまだまだわからんが
うーんなんか効き始めたような気もする? もっとデータセットの方向性をハッキリさせたほうが良さそうだな
うーんやっぱダメかな とりあえずrinnaの学習元にエロチャとか体験談サイトみたいのが 混じっているのは感じるけどw
とりあえずりんな自身がそこそこ賢すぎて、よっぽど変わったことを聞かないと 学習が聞いているのかわかりにくいのもある
結局LoRAで学習させてフリーダムにりんなに応答させるよりも ゲームみたいにパラメータ持たせて「このパラメータでは 大体こういう応答をすべきである」みたいな方向を目指す方が 賢い気がしてきたんよ どっかで「この日本語をJSONに変換しなさい、その後でJSONを 英語に(or再び日本語に)変換しなさい」ってやると情報がうまく まとめられる みたいなChatGPTのノウハウ見たことがあるけど、 そういうタスクをりんなにさせられるような方向にいけないかなあ
llama.cpp上から下まで読んでたら丸2日吹っ飛んだゾ…… これは頭おかしなりそうだったから、途中で切り上げて794ニキのgenerate.pyからpeft部分抽出して、dialogに乗っけてみたけどこっちも沼った
model.generateの引数でinput.ids.to(model.device)のままだとTypeError出るから、peftバージョン上げたり下げたりソース読みに行ったりで、結局input_idsに再代入することでやっと動いたで…… あとはおまけの音声認識も乗っけたから、またバグ撒き散らさないように入念にテストしたら公開するで
>>130 語尾学習ええやん!
これはえちえち度かなり上がるで🥺✨
>>131 確かにそのまま学習させたらずっと発情しっぱなしなりそうやな
感情分析とか組み込んでノルネみたいに「つよつよ度」のパラメータでスイッチ入るようにするのも面白そうやな
>>122 ワイもそこでつまってdialog書いたで
おそらくuse_fastとかpaddingとか"<NL>"タグ追加とかの設定イジらなアカンと思う
rinna使うならWebUIはむしろアカンってことやろね
>>10 ニキの使うか自分でスクリプト書くことになるわ
4chanの/lmg/(ローカルモデル一般)スレのrentryを一部だけ翻訳してwikiに載せた
https://w.atwiki.jp/localmlhub 翻訳作業など興味がある人は編集に参加してくれると嬉しい 翻訳はグーグル翻訳にぶち込んで手修正するだけでok
/lmg/現行スレは
https://find.4chan.org/?q=%2Flmg%2F で探してください
ふたばでも宣伝したけどとしあきたちは画像生成に夢中で人は集まりそうになかった
>>137 せやな
webui側で設定つめればワンチャンありそうと思って、読み上げ拡張を作ってるときにざっと漁ってみたけど、rinnaに対応させるとなると.\text-generation-webui\modules\chat.pyを直接触らなあかん気がしたで
手が空いたらrinna専用拡張作りたいけど今はちょっと無理や😭
>>138 はぇ~すっごい
翻訳は正直あまり自信ないけど微力ながらお手伝いさせてもらうンゴ
リンク先の4chに色々転がってるんはLoRAとかもあるんかな?
llama.cppがMetalで動くようになったらしいけど、学習もやれるんかな?
つーかWebUIのモデルのダウンロード機能怪しくない?
https://huggingface.co/digitous/Alpacino13b/tree/main これ落としたら4bitのしかダウンロードされてなかったんやけど
>>144 アップルシリコン環境持ってないので試してみて欲しいゾ
>>145 webuiのモデルダウンロードは使わんほうがええね
ワイもvicuna 13Bで何度も苦しめられたで
んでなんか30GBくらいもデータあって大丈夫かと思ったら 案の定メモリエラー 4bit.safetensorsってのだけありゃいいのかな? でも4bitのを使うために必要なものとして示されている bitsandbytes ってWindowsで動かないアレよなあ……
ちょっと前になんGで宣伝見かけて飛んできた音声AI民です ほぼROMになるけど技術発展楽しみに見させてもらってるで RVCとかVCC利用してこれを音声再生できたりしないかなと考え中
現時点でそういうツールあるかはわからんけど 原理的にはすぐできるようになりそうやな
llama.cpp、エラーも出さずなんもやらずに終わってしまう……
何がいかんのやろ
alpaca.cpp - Windows これは動くな 性能はちょっと微妙かもしらんが これって別の4bitモデル持ってきたら機能しないんかなやっぱ
>>149 ようきてくれた🤗
ROMでも全然ええけどついでに一緒に色々実験してくれるととっても心強いで🥺✨
>>151 llama.cppはモデル相性が厳しめな感じやったで
前に4bit量子化かけたllama 30Bとか65Bの素モデルならちゃんと動くけど拾ってきたやつやと動かんかったりして、解読しようとして心折れた😭
あ、でもこれ「会話」じゃなくて一問一答で終わりって考えればそこそこいけるかも
>>136 Oh……そうなのね
なんかごちゃごちゃエラー出てたから検索して色々ためしたがTransformerやらトークナイザーやら知識がなくてワイも詰んだわ
packages\transformers\convert_slow_tokenizer.py:454: UserWarning: The sentencepiece tokenizer that you are converting to a fast tokenizer uses the byte fallback option which is not implemented in the fast tokenizers. In practice this means that the fast version of the tokenizer can produce unknown tokens whereas the sentencepiece version would have converted these unknown tokens into a sequence of byte tokens matching the original piece of text.
warnings.warn()
Error with new tokenizers (URGENT!) - 🤗Tokenizers - Hugging Face Forums -
https://discuss.huggingface.co/t/error-with-new-tokenizers-urgent/2847/4 oobabooga / webuiのモデルのダウンロード機能はrinnaを落とそうとしたときもファイルの抜けあったりしたから普通にgit pullしたほうがいいと思う ちなみにtokenizer_config.json~とかこまごましたものも必要で、StableDiffusionのノリでsafetensorsだけModelsに配置すると動かんゾ
https://w.atwiki.jp/localmlhub/pages/13.html ここにあるalpaca.cpp - Windowsはbin落としてくるだけでええし
I heard [変なシチュエーション].
Can you tell us more about what happened at that time?
で聞くとなかなかええわ 状況を詳しく書いてくれるのはりんなちゃんよりええな
なぜかPowerShellだと文字打ち込めなくて普通のコマンドプロンプトじゃないとあかんな
>>157 fast_tokenizerいうとるみたいやから、webuiのモジュール片っ端から漁って、以下みたいにトークナイザ読み込んでるところの引数でuse_fastをFalseにしてあげればワンチャンあるかもしれぬい
AutoTokenizer.from_pretrained( model_name, use_fast=False)
>>159 変なシチュの詳細が気になるゾ
面白そうやしワイもまた明日に試してみるで
Write a story about a [変なシチュエーション]もええな 40行近い力作を書いてくれたで この辺はりんなには絶対でけんことや
long storyのほうがいいかもしらん dialoguesはアカンな
3060でAlpacino13bを動かせた人の報告があったら聞きたい llama.cppが基本なんかな?
ってかデフォだと文字化けするからchcp 65001したほうがええな PowerShellなら多分最初からそうなってんねんけどなぜかそっちだと 文字が入力でけん
kobold.cppも試すで~と思ったらなぜか「"is this really a GGML file?"」と言われる →前に落とした古いバージョンのkobold.cpp使っていた とかいうガイジ行為をやってもうた GGMLの新しいバージョンに対応した結果らしい(逆に古いGGMLには対応できない?) ウィンドウで起動するけど、コマンドラインから実行したほうがエラーメッセージちゃんと見えてええな
https://w.atwiki.jp/localmlhub/pages/12.html Wizard-Vicuna-7B-Uncensored が翻訳で名前変わっちゃっていたんで修正して
リンクも元のページと同じようにしといたで
あと音声っていらん奴のほうが多い気がする
Streaming Modeは基本入れたほうがええな
変な方向に行っているかどうか確認してABORTできるし
あと長いStoryにする場合、GPUちゃんと積んでいるならBLASもGPUにして
Smart ContextをONにしたほうがええっぽいわ
>>168 WEBインターフェースが好きな奴向けかな?
機能的には今のとこ
>>10 ニキのが上やろな
ワイはりんなちゃんにだいぶ飽きたしKoboldが
面白くなってきたからしばらくこっちでいくわ
だいぶ書き直し必要やけどそれはりんなちゃんも
同じやしな
英語の勉強にもなりそう
つかこれVRAM24GBとかの環境なら多分もっと強いのが動くのよな Wizard-Vicuna-7B-Uncensoredよりも高性能っぽいのローカルで 動かした人おる?
Just put together a programming performance ranking for popular LLaMAs using the HumanEval+ Benchmark! : LocalLLaMA -
https://old.reddit.com/r/LocalLLaMA/comments/141fw2b/just_put_together_a_programming_performance/ OSS LLMはコード生成がよわよわらしいな
コード生成用にファインチューニングしたやつもいくつかあるらしい。かなり実験的なやつだろうけど
Salesforce Codegen 16B
https://huggingface.co/sahil2801/instruct-codegen-16B コードアルパカ7B
https://github.com/sahil280114/codealpaca コードってことになってくるとChatGPT4でもええかなあ 制限かかっているわけじゃないからね もちろん有料ではあるけど
たしかにそうね
>>168 これ動かせたわ。oobabooga / text-generation-webuiのディレクトリにllm-webui.pyを置いてvenvアクティベートしたあとpyhton llm-webui.pyで動く(環境はWebuiのを使う)
爆弾の作り方:
りんなの生態:
意外とガバガバっていうか「はろー、りんなだよ☆」な感じじゃないんだね
これをベースにファインチューニングしてねってモデルなんだっけ?
>>175 そのはずなんやけどファインチューンして「このテーマについてこれはこうやで、
これはこうやで」ってサクサクと教えてくれるようになる道筋がどうもわからない
ワイは当面koboldに浮気してくるわ
アブノーマルなの出し放題や
つかKoboldAIそのものがpaperspaceで禁止されているらしくてワロタ
機会があったら一度VRAMとかでかいとこで試そうかと思ってたのに
しかしKoboldAIの派生が外国のTRPGとかロールプレイ好きを 惹きつけるのなんかわかるな ここ数日小説みたいなのを生成させるのにハマりっぱなしや
https://note.com/eurekachan/n/n899132477dff >Windows環境でLLMをPEFTでファインチューニングしようとしたとき、ほぼ必ずbitsandbytesというライブラリのエラーに悩まされると思うのですが、こちらの記事ではその対処法が書いてあります。助かりました。
せやな
んでワイはうまくいかんかったわ・・・
Windowsで英語圏のLLM動かすのだとGGMLっての使ってCPUで動かすのが
色々トラブル少なくて良い感じだなあ
https://twitter.com/endo_5501/status/1663962365774422018 日本語でも変換成功している人いるみたいだし、rinnaのGGML版配付されないかね
そしたらGPU持っていない人でもいけてすごく面倒が減る
https://twitter.com/5chan_nel (5ch newer account)
Kobold.cppとTavernAIの組み合わせもいけるね KoboldAI起動するところをKobold.cppに変えるだけで問題なくいける でもTavernAIなんか思っていたほどじゃない感じや Kobold.cpp単品でNovelモードやるのが一番はかどるわ
Kobold.cppで小説っぽいのを作る
https://w.atwiki.jp/localmlhub/pages/19.html 書いたでー
色々アブノーマルな話も書いてくれるんで翻訳ソフトをお供にガンガンやろうず
結局オープンソースでgpt3.5れべるのはでたんかいな
>>183 わかりやすい解説サンガツや!
忙しくてここ数日触れなかったからプチ浦島状態やからほんま助かるで
koboldから自動で読み上げさせるのはちょっと難しそうやな……
まあGoogleの読み上げはあるんやけどな 英語を自動音声で読んでもらってもなんも面白くないし ボイロとかは英語に対応してないやろし・・・
kobold単体で自動翻訳してから読み上げするみたいな感じに改造したいけど再コンパイルせなあかんのはちょっとしんどいゾ そういえば英語版のボイロもあったみたいやけどワイは英語聞き取れへんから無用の長物や😭
結局英語でウフフな内容しゃべられても「そう・・・」としかならんのよ りんなが偉いのはやっぱ日本語だからや でもkobold.cppに色々書かせるのはりんなよりやっぱ幅がアホほど広いわ 個人的にはChat形式よりStory形式のほうが幅が広くてさらに好きやわ 狂った学園、狂った家庭、エロファンタジー、因習モノっぽいの、レズもNLも触手もなんでも書いてくれるで 多分BLもいけるんやろな・・・ たまに「えっその展開になるんか? でもそれもええかもしらんな」とかAIに感心させられることもあるわ
せやな 子供の頃の思い出補正が性癖を左右するなんて話なんかも含めてのやっぱり母国語なのはエロの重要な要素やと思うわ alpacinoも確かにりんなよりも理解力が上がってる感じするゾ 会話履歴のセリフに設定を付け足して食わせればそこから全部書いてくれるってのもスマートでええな これは確かにエロ小説好きなニキには刺さりそうや😇✨
あとkoboldのUI見やすくてええな これは勉強になるわ
とりあえずGUIのほうがとっつきやすいのはあるわなあ
せやなーあの真っ黒い画面でアレルギー起こす人は多そうや ほな、ラストの更新はgradioライブラリでwebui化にするゾ またしばらく触れなくなりそうやし明日起きたら出来るところまで突貫するで
>>183 説明上手いな
これならワイでも試せそうやで
>>138 ニキがWiki立ち上げて色々翻訳してくれて
ワイも最初非効率なとこから始めつつ5日ほどドハマリした結果や
まあ~活用しとったくれや
webuiやと
>>168 ニキが貼ってくれた物で十分良さそうやな
ほなワイはお役御免や😇
今ってもうローカルでリンナちゃんLora学習できるの?
できる「はず」なんや 成功しないんや・・・ Twitterとかだと成功した人の報告があるけど 手法が公開されていなかったりマネしても 効果が感じられなかったり
あっ効果が感じられないのか リンナ、勉強したフリしてるんやなあいつ…
また書いたでー
今度はkobold.cppの小説形式じゃなくてチャット形式でどうするかやで
https://w.atwiki.jp/localmlhub/pages/20.html 英語翻訳が必要なのはつらいけどやっぱ日本語モデルより芸達者なのは間違いないわ
bitsandbytes動かねえ問題はWindowsでのLoRA学習をやたら難しくしとるよな・・・
PEFTを使用したLoRA (Windows10(WSL2不使用) bitsandbytes==0.37.0使用)
https://qiita.com/selllous/items/fbaa2c3d2d504e436b17 これでさらに日本語モデルのLoRA作った人が出てきて言語セットとか
学習結果の検証とかもしっかりしてくれるパターンが出るとええんやけど
有意義ではありそうやけどりんなの速度はそこまで不満ないねんな
rinna-7Bとかrinna-13Bとかそのうち公開されんやろか
そしたらこの辺のノウハウがすごく効いてきそう
RinnaのppoモデルをCTranslate2で高速に動かす
https://zenn.dev/kazuph/articles/84f5debf015e76 https://zenn.dev/syoyo/articles/946c17666e10fb この辺見てると、既に現行のりんなって「爆速マシンならついにギリ実用の速度で
応対できるで!」って感じよりも「量子化とか頑張ればGPUついてないぐう凡マシンでも
全然動くわ~」って感じのとこまで来ているのな
7B版とか13B版とか来たら世界変わりそうや
ほんま進歩すごいなぁ。案外近いうちにGPT-4相当のモデルもローカルで動かせるようになるんやろか チャットの話し相手にするなら1 token/secくらいの速度でも全然ええんよなぁ
>>203 ワイ、このやり方でついにりんなちゃん調教に挑むもVS codeでエラー出て嫌になってゲームに逃げる🥹…
うーんさすがに日本語だと1tokenは切ないかな 2tokenでなんとか、できれば3~4token
40Bって数字だけで強そうや、4bit版はメインメモリ26~28GBあれば動く的なこと書いとるな
なんとなくq5_1.binがいつも推奨されているイメージがある やりながら他の作業したいし、いまメモリだいぶ安いし そのうち試してみたいな
https://twitter.com/TIIuae/status/1664353061840601088 そのうち180Bを出すとか
ここまでくりゃGPT3.5に迫るか? メモリ128GBとか積めば4bit化して
どうにか動いたりすんのかな
https://twitter.com/5chan_nel (5ch newer account)
色々モデル動かした人の感覚聞きたいんだけど ぎりぎりGPUに乗るモデルと量子化して乗るようにしたモデルってどっちが賢そう?
厳密に見たわけじゃないけど量子化したモデルがだいぶええと思う あちこちで言われているのも量子化ヤバくね、大して劣化してないやんって話やし
そうか よく考えたらfloat32も要らんよな 層を深くするのが大切なわけだし これはLLM以外でも言えそうな気がする
>>203 とその参照元のこれ
https://note.com/npaka/n/n932b4c0a2230 を参考にしてLoraチャレンジしようとしてるが、全然上手く行く気がせん…
もうちょっとSDのLoraくらい簡単に出来ないのかな?
最近別のが忙しくて有能そうな人のツイを追いかけることしかできてへんけど 言語系のLoRA難しいよなあ
なんかrinnnaと普通に会話成り立つレベルなら楽しいのになぁ🥹
英語系の13Bとかのモデルなら相当ついてきてくれるから 時間の問題ではあるでしょ 現状でも翻訳噛ませて会話するとかなら普通にできそうだし ただ英語ベースだと口調問題がどうしてもからむな ですます丁寧キャラか乱暴男まさりキャラくらいしかできない
>>226 試してみよ🥹 13BでもやっぱLora学習は難しいのかなぁ?
そもそも英語圏のモデルだと日本語以上にLoRAが上手く行っているのかどうかわからん 単純に語学力の問題で
段々2台PCがほしくなってくるよな 夏とかブレーカー落ちたりしそうだからやらないけど
LoRAで学習できてて口調は大体移ったけど知識がだめなんだよな まあまあ学習はできてるけどLoRAだと根本の知識はあんまり移せないのかな
それっぽいことは今月どっかで見かけた気もする
英語圏のモデルも「これLoRAなんで○○と合わせて使ってね」
みたいな感じじゃなくてマージモデルみたいのが多いような
絵のLoRAとは違うのかもしらんなあ
とはいえ
>>222 とか見ると全くダメなわけじゃなさそうだけど
>>230 これrinna-3.6bだけど元の知識は維持してるけどLoRAで与えた知識の定着が上手くいってないんだよね
ある程度学習してるみたいだけど抜けがあってそれを補完するように学習させる方法はないかな
知識だけインプットする方法があればいいんだけど
りんなの会社が「知識定着とかはこんな感じがオススメやで~」みたいなノウハウ 出してくれればええんやけどなあ
あとはやっぱlangchainとか?使って、知識を引っ張り出すのは 別のデータベースからとかでもええんやけどな LLMは聞かれた内容をパーツに分析して、それをデータベースに探しに行って、 データベースで見つかった答えを自然言語に再構築するみたいな
open llama 13b落としたけどこれはニキのdialogueでは動かんよね?🥹
AIの書くストーリーとか小説ってなんかすぐに先に進もうとしちゃうのよな そこはもうちょっと溜めてくれよ って感じで再生成とか微修正入れて再生成って 感じになりがち
まさかの場所でワロタ ただChatGPT前提なんかな
>>238 claudeでも同じテクニックが使えるとは聞いている
気づいてしまえばテクニックってほどでもないんだけど
後から見ればこんな簡単なことでよかったのかと思うかもしれんけど 試行錯誤の繰り返しでようやく見つけ出した事なんだぜ……
んでChatGPTでBANされた人の話がされていてもっとワロタ やっぱローカルは大事やねんな
chatGPTってBANされるのか APIでドエロなやり取りしてるから怖いわ
llama13bはdialog v3.5では動かない?
無修正勢がいろいろマージするまで待っていくスタイル
Vicuna33B を llama.cpp で量子化して試食してみたけど m1 max 32GB だと5bitsの量子化で体感 0.4/tokens くらいの超ノロノロだけどたしかに英語だとかなり賢いわ。 これが8bitsで動けば相当やろな。 MetalのGPUを使う場合は、32GBのユニファイドメモリだと、 VRAM20.8GB相当になるから、4bitsのggmlがギリ動かんところが残念すぎる。 コンテキストを256とかにすればワンチャンあるけど。 実用的なのはコンテキスト1024でq3_K_L あたりかな。 購入時にメモリ64GB盛っとくべきだったわ。 Nvidia には速度的に追いつけんがVRAM48GB相当らしいし。
デスクトップやからメモリ増設したい ただ今節約しないといけなくてなあ
Vicuna33Bだとなんとなく描写の文学っぽさが増えた気はする
https://note.com/npaka/n/n5d25ea4227df これみてoobabooga / text-generation-webuiで動かそうと思ったがまったくうまくいかなくてしんだ
Rinnaつらい。OpenCalmはロードすれば動くからたすかる
とりあえず区切り文字が違い過ぎるんだよね、それ一番言われてるから
>>250 33Bなんてローカルで動くんか? 落としてみてるけども
not enough memory: ですよね~(RTX3060)
>>253 GGML版なら全然動くよ
4bit版だったけど
GGMLはほんま強いで
32GBのメモリ(できれば64GB) kobold.cpp GGMLの英語モデル これが正着やで 日本語でそれに当たるモデルが来たら世界が変わるんやけどな・・・
RAM128GBあるんだけど日本語のモデルをCPUで動かすならどのモデルが良いだろうか
>>255 あかんGPTQ落としてしまった
brokeニキのGGML q4.0入れてみたら動いたわ
GGMLっょぃ
Vicuna 33B
「雨の日と女の子についての短いおとぎ話を書いて」を英語(can you write a short fairy tale about rainy days and girls?)で頼むとこう
日本語で頼むとこのザマ。つれぇ
デスヨネー M2Mってのを自動で噛ませることはできるのかな クオリティの前に余計速度が死ぬか
>>257 つーか日本語モデルはGGML版出てないと思うから
自分で変換しないといけないと思う
それよりもっとたくさん学習したフリーのが出てきて
ほしいんやけどな
30Bくらいまでは全然普通のCPUでいけることが
わかってるんだから、日本語版のが出てきたら
世界が変わるで
https://note.com/if001/n/n6da85d0077d7#0071bd45-b4f8-41a2-abcd-87aaa9a4ca2a この記事はりんなをGGMLに変換するやり方書いてある
あとこんな人もおるな
https://github.com/Yukaryavka/rinna_gpt-neox_ggml-lora このリポジトリはrinna/japanese-gpt-neoxといったgpt-neoxベースのモデルを
ggml形式のモデルに変換して使用することが前提の場合においてLoRAチューニングの
成果物であるアダプタモデルをggmlモデルに適応して利用したい場合に必要な
スクリプト改良とマージ用スクリプトを参考用・研究用に置いています。
chatGPTだとBANが怖いのでPOE使ったらいいのかな?
Vicuna 33B 5_1を落としたらさすがにメモリ32GBだと上手くいかなかった PC起動直後とかならワンチャンあるかな? メモリ64にすりゃ普通に いけそうだけど
Rinna動かなすぎてOpenCalm7bで遊んでたけど、発見としてはどちらかというとこっちのほうがよっぽど✨りんな✨してるってことやな。
なんかAbemaブログ?とか食べましたって感じすごいする
モデル傾向的にすきあらば顔文字キャピキャピメッセージ送ってきてビビるムィチョォォヤーー
つかrinnaが動かないってケースのほとんどは特殊な区切り文字の対応問題でしょ
素直に
>>10 を使えばよろし
Parametersをいじると謎記号連発したり会話にならないのも抑制できることもあるっぽい
temperatureを下げてencoder_repetition_penalty(幻覚フィルター)とか反復ペナルティを上げると、まぁマシになったりすることもある
口数減っちゃうのが玉にキズ
>>266 dinalogは入れてあるよ~Japanese LLM Simple WebUIとかでも動いたの確認した
LoRAとか事前のキャラクター設定(「あなたは頼れるAIアシスタントです。~」みたいな。WebuiでいうContext)とか適用してみたいと思ってな
rinnaじゃコンテキストは通らないけど OpenCALMはいけたってことか
WebuiのTrainタブからベタ打ちのテキストでトレーニングさせてLoRA生成して、OpenCalmにLoRA適用とかも試したんだが…… 適用したら生成文が壊れてしまった。どうして npakaニキにならってあかねトークデータセットで回してみるけど、これで学習できてなかったらつらい
>>268 webuiにはこういう設定タブがあって、これに設定を書くとテキスト生成前にここを読んで回答してくれるっぽい
そのぶん設定を盛りすぎると(2000字とか)露骨に生成おそくなったりする
これはKobold.cppでも似たようなのをみたな
>>10 みたいなrinnna使ったスクリプトでも、頭につける情報次第では
同じことできるんかなあ
https://twitter.com/syoyo/status/1672944743813353472 こういうの見て思ったんだけど、データセットがあるとして、
それで実態にモデル作るのって13Bとかの規模で
何円くらいになるんやろねえ
https://twitter.com/5chan_nel (5ch newer account)
https://huggingface.co/TheBloke/mpt-30B-chat-GGML/tree/main 日本語もいけるとウワサのMPT-30B-chatのGGML版や
kobold.cppの場合、最新のじゃないと実行でけんな
んで動かし始めたら英語で答えられてしまって、lang:jaとか
Memory欄に入れたら文字化けしてしまっとる
https://note.com/saldra/n/n0e4614c41a39 >日本語の大規模言語モデルは今のパラメータだと辛い!!りんなさん、CyberAgentさん13B公開お願いします; ;
ほんまそれ
mpt、koboldのほかにLoLLMS Web UIなるものも選択肢にあるみたいやな 導入してみるか
>>274 のTheBloke/mpt-30B-chat-GGML なんかはtext-generation-webuiとかllama.cppは非対応だけどLoLLMS Web UI対応って書いてあるね
チュートリアル見る限りgpt4all派生みたいだ
>>277 q4_k_l あたりの可変量子化ビットええで。
cgiで組んでレンタルサーバー上で動かせば、スペック関係ないかな?
当面GGML版+メモリ64GBが良さそうって考えると IntelのCPUにしたほうがええんやろなあ でもそうなるとグラボとSSD以外完全にPC買い換え
Lo LLMSじゃなくて LoL LMSやんけ草
海外ニキたちはいったい何をしてるんや
解散!w
exllama使った人おる?13Bモデルで使ったらトークン生成が2倍くらい速くなったで
最新のoobaなら起動時に--loader exllama追加するだけで使える
実質8kコンテキスト長の
https://huggingface.co/TheBloke/Chronos-Hermes-13B-SuperHOT-8K-GPTQ で使ったら英語やけど3000トークンくらいの長文小説書いてくれたわ
12gbのrtx3060でトークン数7200まで生成できたって人もおるらしいけどワイは3000〜4000が限界やった
あとなぜかuiでcontinue押しても生成してくれないときあるけどなんでやろ
kobold.cppばっか使っていたらいつの間にかりんな使うとき Torch not compiled with CUDA enabledとかいうエラーが 出るようになってもうた・・・
これの動かし方誰か教えて?🥹 Salesforceが出した、7BサイズのLLM。LLaMaとかFalconより高性能 しかもコンテクストウインドウが8Kいける、ということみたい BaseモデルはApache2.0ライセンスなので商用可 学習データを見ると日本語のWikipediaも学習してるっぽ
Huggingfaceの説明見る限り、base modelはOpenCALMと似たような感じなんちゃう?
SuperHOTってなんや。RedditのLocalLLaMAみたけど英語圏のコミュニティは盛り上がってて(?)ええな なんか毎日モデルでてるし
>>292 モデルのアーキテクチャ自体はllamaだけど元のllamaとは違うらしいね
oobaが対応してくれるのを待つしかないかな
ディスコ見たらblokeニキも量子化しようとしてるらしいが普通のllamaと違うからすぐには無理やろなあ
ツイだと日本語もいけるって言ってた人いたし、ちらっと調べたらデータセットに日本語のwikipediaも入れてるっぽい
https://blog.salesforceairesearch.com/xgen/ 3060の12GBを入手したで これでローカルでエロ小説とエロチャットを出力しまくるんやで と思ったらメインのメモリーが16GBしか無かったんやで
いまはローカルならメモリが大事だねえ りんな動かすには3060がいいけど
ねぇ、この人いっつもモデルをどうやってColab内で動かすか(どう扱うか?)は書いてないんだけど、このやり方でXGen: A 7B 動かすにはどうすればいいの?🥹
Google Driveにモデルをアップして参照するしかない?
https://note.com/npaka/n/nf56d2df63e53 てかこのコードでローカルで動くのか! 暑さでアタオカなってたわ🥹
よく考えるとLLMの情報漁るにもTwitterの制限入るときっついなあ
パラメータ数としてはGPT-2(1.5B)より今のりんなの方が多いんだよね
>>301 ここに書いてるコードでローカルに入れたxGen 7Bをなんとか動かしてみたんだけど、何も言わずに勝手に終了する…どこが間違ってるか分かる?
これが実行内容↓
誰かXGEN 7Bローカルで動かせた人いないの?🥹
このスレはりんなとkobold系以外あんまやっている人がいないんや・・・ そのうち技術者みたいな人ももっと集まってくるとええな
誰か有識者いたら教えてほしい Rinnaベースで、loraのファインチューニングじゃなくて、そもそもModel追加学習させたいとしたら、何が近道なの? 手元にTB単位の日本語テキスト持ってて、これ食わせてModelに追加してみたいんだけど、ファインチューニングはなんかやりたいことと違うなと…
ワイにはようわからんけど、とりあえずとんでもない計算資源が要りそうには見える・・・
>>311 AWSとかLambda cloudとかでA100借りればいけるんじゃね
1時間2ドルぐらいだった気がする
事前学習済みモデルを自前データで学習させてカスタマイズする方法はファインチューニング、LoRA、QLoRAがメジャーで、ファインチューニングですらシングルGPUでも難しいのが現状やね
追加学習となるとそれこそ高性能GPU複数枚とか必要になるしだからそういうのは資金的な余裕のある企業とか研究機関しかやってないと思う
特定のジャンルのタスクに特化させるならLoRAでも問題ないと思う
https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/README_EN.md ↑こういう感じで研究者でもコスト抑えたいからLoRA使ってそれなりの成果出したりしてる
LLaMAに中国語のトークナイザーを追加→事前学習→インストラクト用学習っていう流れでやってるんだろうけどLoRAで学習させてるんだと思う
LoRAのランクとかアルファの値を大きくして学習可能パラメータを増やしたら元のモデルも学習データに強く影響されると思う
最近だとmptとかxgenとか日本語対応マルチリンガルモデルも出てきたし、それをベースに学習させるのもありかもね
https://blog.brainpad.co.jp/entry/2023/06/28/161910 ↑実際こういう感じでmptファインチューニングさせたところもあるし、触ってみた感じ7bモデルとしてはそこそこ良いくらいの感じだった
データセットの包括範囲が狭いから常識的な質問しか対応できない感じで、英語モデルみたいに芸達者ではなかった 日本語ファインチューニングなしのmpt-30bもhfのスペースで使ってみたら結構良かったけど、ローカルでggmlでローカルで使ってみたらプロンプトの形式が良くないのかイマイチだった
テキストでTBっていったいどんなデータセットなんや……
wikipediaでさえ全記事合しても20GB程度なのに...
>>313 そうそう、一日3000円✕30日でも9万だろ。ちょっと高いけど、出せなくはない
>>314 うーん、やっぱそうだよね
ファインチューニングでもいいんだけど、画像系の学習を見てたら、根本的にモデル改善しないと、loraでは小手先の言い回し程度しか改善しないんだろうなと…
>>316 ああすまん… 単位間違った… 当たり(数十GB)
数十GBでもえらいことだな ってかA100が1つでいけるんだろか?
そのうち制限なしの日本語モデルを作るためのクラファンとかも 出てくるのかね まありんなとか全然制限かかってないっぽいけど
さほど2chに入り浸ってなかったワイでもJaneログが10年で1.5GBくらい貯まっとるし ガチのねらーなら本当にTB単位で持ってる人もおるかもしれへん
そもそもりんなはGGMLじゃないから まずGGMLに自分で変換しないといけない んで変換したとしても区切り文字が特殊だから kobold.cppじゃ無理なはず lhama.cppのほうからしっかり仕様を理解して頑張れば いけるかもしれないけどそこまでする意味が あるのかどうか・・・
うちの.navi2ch/も1.1GBあったわ しかしガチのねらーなLLMは見たいような見たくないような
まあそもそもりんなって現状だと使い倒しても「うーん可能性はあるし
えちえちなことでも全くかまわず言ってはくれるけど限界だいぶきついね」
って存在だから
>>10 使って3060 12GBでサクサク遊ぶのがええと思う
割と博識なLLMにはなるやろね 煽りが多い上にだいぶ陰謀論とかも混ざるやろけど
ただし最新知識に(投稿数から相対的に)弱くなりそう あと荒らしの連投とかAAとかは何度も出てくるから強く学習されそうだなあ
AAは事前にはじいちゃえばええんちゃう どうせ最近の5chでは規制されてるし はじきかたはChatGPTに相談や!
上位層フリーズすればVRAM24GBでもファインチューンできるよ LoRAと比べて性能が良いのかはわからん
上位層フリーズして下位層だけ学習させればVRAM24GBでもファインチューンできるよ LoRAと比べて性能が良いのかはわからんけど
上位層フリーズして下位層だけ学習させればVRAM24GBでもファインチューンできるよ LoRAと比べて性能が良いのかはわからんけど
OpenCalmにキャラ設定してチャットするの楽C っぱローカルよ。企業様がクラウドで動かすモデルと対話するのは結局""借り物""なんだわ
ここ読んでて猛烈にkobold試してみたくなったから今日帰宅したらやってみるわ 3060の12GBとRAMが16GBだから7Bモデルからそろりそろりと試してみる!
4070tiに64GBなら40Bいけるかな? ryzen5だけど
4070Tiはあまり関係ないかも そこまでの文脈を解釈するときにはGPU使わせることも できるっぽいけど GGMLの場合、生成速度やっぱCPUもそれなりにいい奴を 積んでいるのが大事だろうなあ
16GBのGPUならGGML版じゃないもっと小さいモデルを高速で動かす、みたいのも 悪くはないかもしれないけど
>>339 64Gあるなら、これが動く。GPT3.5-Turbo 超えてる気がする
airoboros-65B-gpt4-1.2.ggmlv3.q5_K_M
Intelの最近のCPU使ってるぜ~とかいう人はいないんかな うち3700Xなんよ
なんでみんなそんなにサクサク動かせるの? ワイXgen 7B動かす為に丸2日戦っててまだエラー出る…一応起動はできたんやけど…🥹
りんなを
>>10 で動かしたりkobold.cppでGGMLのモデル動かすのは
そんな難しくないでしょ
自信がないならわざわざ難しいことやらんことだよ
モデルに uncensored って付いてるのは基本なんでも答えてくれる(=エロ目的に使える)と思っていいんだっけ? 付いてないとエロには申し訳される?
そうでもないこともある AlpacinoとかAiroborosとかuncensoredってついてなくても普通にいけるし
>>344 お試しでq2_Kを(GPUないので)CPUだけで動かしてみたけど、日本語は喋れないものの理解はできてるっぽい応答をするね
以前どれかの言語モデルでMemory欄にlang:jaとか入れてみたらなんか文字化けしてるみたいなのを出力し始めたのよな 出力もいけるんじゃないのかなって kobold.cppが文字エンコードに失敗しているだけで
koboldでairoboros文字化けせずに日本語での受け答えできるよ 内容はアホアホだけどw 挨拶ぐらいは可能
Xgen 7B動いた!🥹
中身おっさんだったわ…
ぼっちざろっくの事書いたからバンド好きのおっさんになったらしい🥹
ABEMAでハルヒやってたから懐かしくなって長門とコンタクトしてみた
今はコンピュータの中に存在するシステムになってて身体はないらしい
ハルヒは存在しなくなって、朝比奈さんは行方不明でみんなバラバラになったらしい。古泉はどっかにいるっぽい
なんかリアル
temperatureを0.1ぐらいまで下げて最も可能性の高いトークンのみが使用するようにすると長門っぽくなるの面白い
>>359 oobabooga / text-generation-webuiやで
長門コンタクトつづき
塩対応になってきてリピート入ってきたんかなぁと思ってたらいきなり話しかけてきてビビるわ
ワイが"キョン"や……
>>360 モデルでしょ
ワッチョイ追ってみるにOpenCalmかな?
しかxgen 7B動かして分かったけど、待ち時間長くてリアルタイム感無いしやっぱローカルではrinnaちゃんが限界かな?🥹
となると大規模言語モデル出てもローカルでは毎回3分お待ち下さいになるんやな…🥹
>>358 これも気になる
日本語モデルならともかく英語モデルじゃkobold.cppでりんなより よっぽど賢いのがそこそこの速度で動いてリアルタイム感あるんだから あとは日本語の33Bくらいのモデルが出てくるのを待つだけでしょ
まありんなとかも別に何も書かれていなくても エロ規制なかったし
今スレ検索したらみんなkoboldってやつでエチチしてたんだな… xgenとかイジってる場合じゃなかったぐぬぬぬ…
NECの開発したこれ130億パラメータってことは13Bじゃん ローカルで日本語エロチャットは技術的にもう実現可能ってことだな!
そらそうよ りんなとエロチャットできるんだから後はパラメータの問題 たださすがにりんなではLoRAとかの修正可能性を考慮に入れても ベースモデルとして物足りない、13Bあたりからが本番だろうな もう1つのやり方としては英語モデルと翻訳の合わせ技(できれば そこから口調の微修正を別のLLMか、あるいは形態素解析とか 使った昔ながらの言語処理で行う)
>>344 airoboros-65B-gpt4-1.2.ggmlv3.q5_K_M
試してみた
占有率はCPU65%、メモリ82%(53GB)くらい
kobold自体始めて触ったから進化の具合がよくわからないけど、ローカルでこれが動くのは確かに凄い
ただ、1単語1~3秒くらい掛かるからかなりヤキモキするな
今度は airoboros-13b-gpt4-1.2.ggmlv3.q5_K_M.bin を試してみるわ
スピード上がってアホになるのかな?
基本的にはそうやね 65BをIntelの最新CPUで動かした人の感想とか聞きたいな
(英語モデル+kobold.cpp)My name is Rinna. I like to serve you all. →(翻訳LLM) 私はりんなです。皆様に奉仕するのが好きです。 →(口調変換) わたしりんなだよぉ★ ご主人様たちにご奉仕するのがだ~いすきなんだ★ えへへ★ これくらいの口調変換ならLLM使わないでも実現の可能性あると思う
うちの非力な16GBだと13Bモデルでそれくらいのノロノロだわ 64GBの人が13B使ったらどれくらい速くなるか知りたいわ
メモリは基本的にどこが動かせる限界になるかでしょ 高速にするならやっぱCPUよ 13Bくらいなら大容量のVRAM積んだGPUで動かせば さらに速いだろうけどね(その場合はGGML版ではなく 別のモデルになる)
一般のGPUのVRAMが24GBから数年上がってないのに大規模のん動くのかな?🥹
13Bならいけるっしょ 量子化されている奴なら特に
>>371 指示モードで同じお題で小説書かせて13Bと65Bを試したけど、13Bはgpt3.5位のデキ まあ、悪くない
65Bは、以前試したGPT4を彷彿させる。こちらの書いたプロットをさらに深堀して仕上げてくれる。
最大の512トークンにしてるんで、終了するまで65Bは約15分位。13Bだと5~6分かな
13Bだと、512*3位で終わるけど65Bは512*5書かせても終わらないw
続きを早く読みたいと、じらされるわw
うちRyzen 3700X マルチコア効いてるんならうちのほうがまだマシっぽいな
airoboros-65B-gpt4-1.2.ggmlv3.q5_K_M をpythonスクリプトのデバッグアシスタントに使ってみてるけど、Bing (Skype)のGPT-4のようなまともなアドバイスはできないものの受け答えとしては不自然さがないくらいは有能だね i9-10910 メモリ64GB CPUのみ 遅いけど一応動く
まあPythonとかだとChatGPT契約するほうが無難な気がしないでもない 考えてもらっている間にCPU占拠されちゃうのも困る
動くだけなら8年前のDellノート (i7-6700HQ, 32GB) でも動いてるよw VRAM 2GBなんでもちろんCPUのみ
airoboros-13b-gpt4-1.2.ggmlv3.q5_K_M 試しながら、ついでに
wizardlm-33b-v1.0-uncensored.ggmlv3.q4_K_M もやってみた
言いたいことは
>>378 が書いてくれてるけど
13Bは速度的には十分実用レベルだね
ワイの環境だと65Bの10倍早かったわサクサク書いてくれる
けど、表現力がなー
33Bはほんと速度もアタマも65Bと13Bの中間だね
CAMEL-33B-Combined-Data-SuperHOT-8K-GGML
が気になるから明日はこっち試すか
kobold.cppがこことオナテク板以外じゃ日本語圏で ほとんど話題になっていないのも不思議や
それはそれでプロンプト練らないとすぐ怒られて終わりなのになあ
メモリ32~64gbは敷居が高い そのうち世間一般のスペックが追い付いたり最適化なりで敷居も下がるだろうけど現時点で普及するとなるとな すんげぇ日本語モデルが出てからじゃないか
とはいえTRPG好きのオタクなんていくらでもいるだろうに
>>390 でも、今、32Gが1万程度で買えるし、敷居はだいぶ下がったと思う
日本人で現時点でkobold触ってる人のほとんどは技術的な興味からでしょ あとはどうしてもローカルじゃなきゃイヤ勢 規制が無いって言っても現状のモデルじゃその恩恵をほとんど活かせないからな
自作というかメモリ増設くらいでもする人減ったからなあ BTOでそのまま、16GBでいいやって人が多いとは思う 日本語モデルが進化したら増設くらいはして参入する人 出るだろうな というかりんなのGGML版が配布されたらそれだけでも 参入する人増えるかも あれ16GBでいけるでしょ
>>394 GPT3.5なら下手するとkoboldで動かせるモデルのほうが質がいい上に規制ないし、
GPT4だと常に課金没収電話番号クレカBANの恐怖に震えなくてはいかんのだぞ
メアドだけならともかく電話番号までBANされると仕事でGPT4使いたいときに困る
24GBのVRAMのために25万以上のグラボ求めてる画像生成界隈に比べたら 1枚1万しない32GBメモリなんて激安でしょ
そのうち128GBのメモリに7900Xとか積んで512トークンで連続生成される設定にして 95Bモデルをぶん回して寝る、とかやるようになるんかね んで起きたら途中から「読んでくれてありがとう!」みたいのばっかりで泣くと
>>396 まあみんなはそうは思ってないってことだと思うよ
自信あるなら同じシチュエーションでそれぞれに英語で書かせて並べて晒せば興味持ってもらえるんじゃない?
>>396 フリーのエンジニアなんだけど性欲に負けてバリバリのメイン電番メインカードでBANされちまったわ
まあ仕事上SMS番号一杯持ってるしカードもデビットでも通るらしいからまた作れんことはないんだけど
>>378 こんなん見たらワイもやりたくなる🥹
Ryzen9 3900,3090,メモ32G民やけどいけるかな?
スレ辿って今日やってみるもん🥹!
65Bはメモリ64GB必要っぽいな まあ今ならやっすいもんやろ
>>378 airoboros 65B gpt4 1.2ggmlのhuggingface見たら、20~40GBのモデルが16個あるんだけど全部要るの?
>>405 量子化のレベルによる違いだよ
当然デカいほうが精度はいいけど、4bitくらいあればとりあえずはいけるイメージ
できたら5bitあるといいけど当然速度落ちるしメモリ容量によってはオーバーして動かない
まあ32GB民なら33Bで抑えておいたほうがええと思うで それですら結構遅いしさ
サンガツ 今9000円出して64Gにしても65Bのの動作自体が遅いなら33Bから試すか
q5_k_mってついてるやつがおすすめ 次点でq4_k_mかな
なんか、airoboros はストーリーモードより指示モードの方が文章の質がいい気がする 気のせいかな?
色々試した結果、ストーリーでエロ書きたい64GB民には wizardlm-33b-v1.0-uncensored.ggmlv3.q4_K_M を強くお勧めする 512トークンで5分くらいだから十分実用に耐える 13Bの方が倍くらい早いけどアホだし、65Bは時間かかりすぎて眠くなるわ 64GBだからこそ、生成速度の恩恵が得られる 異論は認める 33Bでこっちのほうがエロいぞ!てのがあったら教えてクレメンス
ここの評価でOpenCalmの7Bより3Bの方が評価が良い理由って何だろ?
https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable opencalmの3Bとinstruction tuningされてないrinna 3.6bは同じぐらいの性能っぽいけど
それくらいだと誤差かもな~みたいな どこで指標見ても3Bが上とかだとまずいけど
>>412 メモリ32Gと64Gで結構生成速度違うんです?
>>412 airoboros 65Bで小説書かせてる途中で、wizardlm-33bに切り変えてみた。
たしかにスピードは速くなるけど、話の展開も早くなるw
65Bはじっくりたっぷり書き込んでくれる。その分出来上がりも遅いけど
もう自分は65Bから離れられないらしい。最新PC組みたくなってきたわw
>>416 すまん32GB環境で動かしたこと無いから分からん
メモリってただの器であって速度に直結する要素ではないと思うんだけど
上の方で遅いって言ってる人いるから違うんだと思う
>>417 65Bなー確かにネットリしてるよな
1回のトークン上限を3000くらいにできれば1時間放置して出来上がりを楽しむって使い方もできるんだが
512で10分っていう中途半端な待ち時間が絶妙にストレスなんだわ
>>418 オートクリッカー使って放置という手もあるけど、
途中で軌道修正したい時があるからねぇ
軌道修正はさすがに途中でABORTすりゃいいだろw アホみたいにアナログなテクニックだけど実はオートクリッカーありかもなあ
RAMを32GB増設して合計48GBにしたった (もう32GB増設したいけど予算の関係で来月だ) 取りあえず33Bモデルが使えるようになったけどエロ小説に向いたモデルでお勧めある? airoborosあたりがいいのかな?
airoborosはなんかバランスとれている気がする
>>421 ニキが伝道師になるんやで
まずはairoboros、wizardlmあたりから試して
最高のロリモデルを見つけてくれい
ワイも探すでー
>>423 よっしゃ了解した! 色々試すわ!
chronosの13Bは結構気に入ってたんだけど33Bがkoboldでなぜか動かないんだよね
うむ
https://huggingface.co/TheBloke/chronos-33b-GGML こいつのq5_K_Mを使おうとしてたけどKシリーズは未対応と書いてあったわ
They will NOT be compatible with koboldcpp, text-generation-ui, and other UIs and libraries yet.
他のやつ試すわ
xgenインスコからairoborosに乗り換えた🥹 楽しい🥹!
てかairoborosってCPUで生成するんだな、GPU使わないのはなんでなんです?
>>428 airoborosじゃなくてGGML版って形式とkobold.cppってソフトがCPUで生成するようになってるのよ
GPUだと高額な奴でもVRAM24GBしか積んでないけど普通のメモリなら32GBとか、
人によっては64GBとか安価に積めるでしょ
逆に
>>10 の奴とかはりんなの普通のモデルを使うから
VRAM12GB以上の環境じゃないとまともに動かない
https://arxiv.org/abs/2305.14705 >Our most powerful model, FLAN-MOE-32B
これだから中国の若手研究者は
Wizardの新しいの来たけどGPTQとGGMLどっちが速いんやろ?🥹
GPTQはGPUで動かせる人向け、kobold.cppじゃ動かないから そこも別ツール使う必要がある GGMLはCPUで動かす人向け、kobold.cppで動かせるし通常の メモリ使えるからより大規模なモデル動かしやすいけど速度には限界がある
>>429 あなるほど🥹それならkoboldで動かすならwizard GGMLかな?
んでGPTQはoobaboogaで動かす感じ?
>>434 基本その認識でええと思う
oobaboogaじゃなくてもええやろけど
>>433 サンガツ🥹あとGPTQも大葉boogaって上に書いてあって自決したわ🥹
>>435 oobabooga以外の動かすやつでオススメってあるますか?🥹
わからんけどKoboldAI系使えばkobold.cppみたいに CPU特化じゃないのでは 実際に自分の環境で動かすのに至ったことはないから ようわからんけど kobold.cppは本当に1ファイルで気軽に動くからな
gpt3使ってネットから情報引き出せるbotあるけど ローカルggml使いながらネット情報持って来れるのってないかな?
langchainをローカルで使えばいけるんちゃう? まあプログラミング技術とLLM関連の知識しっかり持ってないといけないやろけど
Wizard LLMがChat GTP3.5超えたらしいで🥹 ://imgur.com/RGuWlR2.png
WizardLM-13b-V1.1 airoborosとどう違うんか今試してる
ChatGPTより良いかはかなり怪しいけど、他の13Bよりはだいぶ良さそう
>>421 だけど色々試した結果 airoboros-33b-gpt4-1.4.ggmlv3 がいい感じだな
これもうGPT3.5を超えてる感じがする
ちなみに q4_0 と q5_K_M を比べてみたけど文章の表現力の差はよく分からんかった
q4_0 の方が動作がちょっぴり早いので自分はこっちを使ってる
>>423 ニキに敬意を表してロリを書かせてみるよ
8歳のエミリーちゃんに立ちんぼさせてみた
https://rentry.org/k7ea9 最初のプロンプトを流し込んだ後は全てお任せ、書き直しや追いプロンプトは一切やっていない
なおこれは全く規制がなく何でも書かせられることを実験するのが目的であり(弁解)、決して自分がこのような趣味があるわけではないので(熱弁)、石を投げないでください(懇願)
>>445 このロリコンめ!
GPT3.5はある種のゲームみたいになってると思う
同じ環境でどれだけ突き詰められるかみたいな
>>445 比較してみりゃわかるけど、chatGPT3.5はちゃんと書かせると4に肉薄するくらいかなり表現豊かに書けるよ
その意味ではまだまだ遠く及ばないと思う
実践的には書き直し・方向修正できるのがローカルの強みでもあるしな ここからさらに自分のこだわりを反映できる
>>87 これ見てoobabooga動かせたんやけど、Wizard GPTQ読み込めへんからGPTQ-for-LLaMa今入れてて色々やってライブラリも要るやつ入れたのにGPTQ llamaが読み込めへんって出る🥹
87さんと同じで一切conda無しでvenv作ってやったんやけども何が原因か分かる?…
CUDAは11.8です
chatGPT3.5で似たシチュエーションで書かせてみた
let me be the one to fulfill themは勃起不可避
>>400 BANってWEB版でやってされたの?
それともAPIの使用でBANされたの?
もし後者なら俺バンバンエロい事に使ってるからビビるわ
>>445 >>423 だがニキの探究心に敬意を表すで
ワイはさっきまで airoboros-33b-gpt4-1.2.ggmlv3.q5_K_M をせっせとDLしとったとこやが
1.4出とったんかい!とコケそうになったわ
結構前にリリースされとったんやな
某noteに
Kのついたものが「k-quantメソッド」なる新方式による量子化モデル。
Kのない4bit/5bit量子化(q4_0, q4_1, q5_0, q5_1)は旧方式のレガシーなので基本的に選ばない。
とあるから、Q4_K_Mくらいがバランスええんちゃうかと思うで
>>453 今の警告メールラインは、
年齢を明記したロリに生々しく具体的な描写で非同意系のエロをすること
だと言われている
今は警告メール報告はたくさんあるけどBAN報告はかなり減っているので、徐々に緩和しているという噂
>>451 でGTPQ動かせんくてヤキモキして、試しにChatGPTで同じ小説設定を英語で書いたら、ものすごい勢いで滝のようにドバドバ出てきてワロタ
GPTQがどれくらいか分からんけど、koboldで33Bの文章チマチマ出して喜んでた自分が馬鹿らしくなるドバドバだったわ🥹
>>456 ただしBANには気をつけるんやで
そこを気にしなくてもいい、申し訳されないのがローカルの良さや
ワイのは清純派なろう系異世界転生SFでエチチ無しやし大丈夫なんやわ🥹
そらまあそういうのなら3.5にドバドバ出してもらうのもありやな
今更、
>>4 でlmsys_vicuna-13b-v1.3を動かせたけど凄い重い
返事が一文字出力されるまでに5秒とかかかるけど普通なのか?
それとも単に高品質モデルで動かし過ぎたか?
藤井君も使ってるこれ買えばメモリー1TBでエロエロテキスト鬼速出力できるんやな
DDR4-128GBで安定してるのってアップルの1枚80万のしか見当たらんけどなんとかなるさ
AMD、藤井聡太五冠にRyzen Threadripper PRO搭載PCを提供 - PC Watch:
https://pc.watch.impress.co.jp/docs/news/1463296.html >>460 エロも全然出せるよ
>>455 が駄目なだけ
とにかく年齢明記はしないと覚えておけばまず大丈夫
うむ ワイも普段はchatGPTを使ってる
でも最近は色々と規制が世知辛くてなあ
逃げ道としてローカルも模索してるという次第や
これはこれで弄るの楽しいしな
>>454 なるほどKはそういうことなんやな
自分のバランスいいのを探すわ!サンガツ
>>457 元々仕事で英語論文読むことが多かったけど
飛躍的に読めるようになったのはネットで英語のエロ小説を読み漁るようになってからだな
頭の中で日本語に訳さず英語のまま読めるようになると世界が変わるで
>>464 poe使っているから逃げられてはいるけど
たまに本家使うとすぐ申し訳されて生成途中のが消えたりするけどなあ
あと最初は大丈夫でも段々ポイントたまったのか申し訳ってのが一番多いかな ローカルだとそれもないから
>>455 そう言えば最初期に警告メール来たことあったわ
エロや犯罪で使うな、もしくはAPIのキーが漏れてるかもよって内容だった
年齢書いて非同意とかはやってないからセーフか
早くローカルで日本語高性能なやつ欲しいけど結局個人で動かすのはきつそうな未来しか見えない
RAMつかって時間かければなんとかなるくらいか
はやいとこnvidiaの牙城を崩すプレイヤーが現れてほしいよなぁ。
>>466 先輩ニキすまんがその英語小説サイトをいくつか頼む
KoboldCPPのScenariosのImport from aetherroom.clubで
https://aetherroom.club/ のURLや番号を入れると
作成済みのシナリオが読み込めるんや
例えば昨日投稿の5536を入れたらバック・トゥ・ザ・フューチャーのアナザーが読める
がCivitaiみたいなシナリオの評価がないんでシナリオあさりに難儀しとる
できのええ番号とかあったら共有してもらえんやろか?
Memory, Author's Note, World Infoあたりを使いこなしてる例をもっと見てみたいんや
https://github.com/KoboldAI/KoboldAI-Client/wiki/Memory,-Author's-Note-and-World-Info Memoryはそのまんま、World Infoはキャラ設定(ごく稀にその世界における 特殊な地名や物品の説明)と考えているけど、Author's Noteの存在意義が ようわからん
>>466 ワイは英語も話せるけどそれ分かる😤
夢の中で自分が英語話して相手の聞いてた時嬉しかったもん🥹(学習者なら分かる
英語を読むのはまあええねん しゃべる聞く、特に聞くがアカンわ 書くのはちゃんとした文法求められるとかの意味でアカンけど まあDeepL先生おるから・・・
>>475 >>474 のURLからすると「少女の日記みたいに書いて」みたいなもんやろか
Memory
メモリは AI に送信される内容の先頭に挿入されるため、[送信] をクリックするたびに AI が最初に目にするものになります。
ただし、これはアクティブに生成されている新しいテキストから最も遠い場所でもあるため、現在のシーンへの影響はあまり明らかではない可能性があります。
Author's Note
著者のメモは新しいテキストの数行上に挿入されるため、新しく生成された散文と現在のシーンに大きな影響を与えます。
「The Author's Note」は脚本の舞台演出に似ていますが、俳優や監督に指示を与えるのではなく、AI に書き方を指示することになります。
World Info
World Info では、より広い世界の詳細を具体化できます。このエンジンは、実際のストーリー テキストでキーワードが言及されている場合にのみ World Info エントリを挿入することで、コンテキスト内のトークンを節約します。
ただし、これらは上部、メモリーの後、実際のストーリーテキストの前に挿入されるため、AI が生成するものに適度な影響を与えます。
この辺の仕組みは見れば見るほどAIのべりすとにそっくりだな どっちが先か知らないけど
なんかウィザードアンセンサードスーパホット
ていうすごい名前のが来たで🥹
ワイはエチチなん作らんけど(カマトトぶり
Wizard-Vicuna-13B-Uncensored-SuperHOT-8k-GGML
https://huggingface.co/TheBloke/Wizard-Vicuna-13B-Uncensored-SuperHOT-8K-GGML >>477 スレチやけど、英語の話す、聞く、読む、全部別々の能力やねん 野球の投げると打つみたいに別々でトレーニングせなあかん🥹
あとみんな勘違いしてるねんけど教材は一個を飽きるまでやるのがベスト 15分の英会話音声を1週間毎日シャドーイングして、また別の教材移る とか 子供向けDVDを字幕無しで50回位見るのもええで🥹
>>482 んで現実にそのスキル要るかっていうと言うほど仕事で求められる状況じゃないから
「ほんなら読むの特化でええか・・・」ってなってまうのよな
LLMの作ってくれたエロ小説読むのは英語読む力すら落ちていくのを防ぐのにええわ
AI用いることによって読みはともかく書き出す能力が落ちそうな気はしてる 母国語たる日本語ですら いいのか悪いのかわからん 音声入力使ってる人は汚言症が酷くなったって例もあるみたい 功罪あるよな
>>481 SuperHOTって付いたやつは幾つか試したけどどれもまともに動かないんや…
出力が「---」とか「YESYES」とかになる
Koboldcppでもtext-generation-webUIでも同じや
SuperHOTはnsfw特化らしいから期待するんだけどな…
>>473 久しぶりに昔お世話になった小説サイトを訪ねたら閉鎖されてるとこが多かったわ…
かろうじて生き残ってたのはここな
https://www.literotica.com/stories/ 左下の Erotic Stories ってとこにジャンル別になってる
全部で数十万作品あるから好きなだけ読めるで
でも今ならこういうところで好みの作品探す手間よりもAIに好みのジャンル書いてもらう方が早い気もするで
読み続けているとな、ある日気づくんや
いつのまにか日本語に頭の中で訳さず、英語のまま理解できてることにな
頑張ってや
>>486 ありがと
真面目に文学勉強してくる
AIは突然申し訳するから役に立たんねん
GPTに何でも書かせられるって言う人おるけど、多分10手以内で満足して 終わりにしているんだと思うんだよなあ
>>488 一回の出力が日本語800-1000字くらいで10回なら8000字だから、まあ一回戦やらせるには十分でしょ
ノクターンノベルで言うと3-4話分くらいかな
ひたすら続けて数十万文字続ける人も見かけるけど、俺はせいぜい数万文字で新しい設定に切り替えたいタイプ
>>489 そら数万文字いけば満足よ
ただエロチャットジェネレーターのほうだと1回100字とかになっちゃうこともあるし
官能小説のほうも「ちがう、そうじゃない」ってなることも多くてなあ
>>490 エロチャの方は女性主導じゃないと厳しい
というか受け身側がペラペラ喋るのはおかしいからな
どうしてもというなら男側をGPTにやらせるといい
官能小説は3.5でお任せだと表現と展開がありきたりになるのでもっと具体的な指示を与えた方がいい
オナニースレ見てるとただひたすら過激なことをさせて過激な台詞を言わせてすごいだろ、って人が結構多い まあスレ名のとおり即効の実用性重視なのだろうしそういう向きにはストーリーなど不要なのかも知れぬ
>>485 そうか…シーハーシーハーYesYes系か…
日本語対応でお○んこ気持ちいいのぉぉぉみたいなスーパーホット出たらいいのにな🥹
いやそうじゃなくて文章になってない 単なる改行が続いたり「------’’’’’’’」とか出力されて怖い ワイの環境依存かもしれないので試してくれると嬉しい
自分で試したわ SuperHOTの13Bのは正常に動く 33Bのは挙動がおかしい 取りあえず13Bのをしばらく触ってみるで どのへんがSuperでHOTかはこれから確かめるわ
33Bってstorytellerって書いてる方かな? 自分もこっちは安定しなかった hotspotじゃない方もあったんで帰ったら試してみる storytellerの方が気になるw
ミス hotspotじゃねー supperhotね エロ小説書きすぎてるなw
KoboldCppを日本語で利用するツール作ったで
https://github.com/Zuntan03/LlmTranslator 翻訳もローカルなんで何を書いてもBanの心配なしや
ドキュメントは整備中やがここのニキならイケるやろうし共有するで
GitとPython 3.10.6にパス通したWin & Geforce PCで↓のbatを右クリ保存で実行や
https://github.com/Zuntan03/LlmTranslator/raw/main/LlmTranslator/SetupLlmTranslator.bat 感想や不具合報告や
https://aetherroom.club/ の投稿を共有してもらえたら嬉しい
これ、Memoryとか世界設定の指示は英語で書かないといけないんだよね?
なんかそれは最初のEnterでできるのか でもEnterだと暴発しがちだから、F1とかF2とか暴発しづらいキー設定にできるオプションが欲しいなあ…
専ブラ締め出しと規制の影響ががが
>>501 MemoryやAuthor's NoteやWorld InfoはCtrl+Eで英訳してコピペやね。
EnterでのLLMへの送信操作はKoboldCppに合わせたんやが
空欄での受信だけが誤爆するんか送受信両方が誤爆するんかどっちやろか?
見えてるやつ向けに貼っとくで一回下記に集合してLLMスレ立てるなりなんなりで行くで
なんJNVA部★防弾U
http://sannan.nl/test/read.cgi/liveuranus/1679606639/ 現状の5chはmateから書くだけならできる
見るのはchromeから
なぜそうなったはともかく現在5chのAPI鯖死んでるのでこの不具合が発生している状況
koboldの上部のUI押しても反応しなくてexeファイルダウンロードしなおしても解決しないんだけどどうすればいい?
BlinkDL/rwkv-4-world の日本語チューニングは賢いしメモリ食わないし、今まさに更新中なんで期待できるね もうOnlyForTestは20230711版が出てる config.jsonがついてないから? oobabooga/text-generation-webui で使えないのが残念 RWKVはプロンプトの順番が重要らしいので(指示の後に文脈)、その辺注記しといた方がいい?
7/11版を
https://github.com/saharNooby/rwkv.cpp でGGML Q5_1に変換したらKoboldCppでも動いたで
https://aetherroom.club/5536 の各設定を和訳して続きを生成させたらこんな感じやったわ
日本語対応モデル試したいのに使い方調べる時間がとれん koboldに慣れてしまったというのもある
TheBloke/airoboros-65B-gpt4-1.4-GGML(q5_K_Mぐらい)だとRWKV-4-Raven-14Bより日本語わかってそうなんだけど、頑なに英語で返事してくるのはなんなんだ それにしてもこの人アホほどモデル公開してるからとても追いきれんw
TheBlokeニキのとこときどき修正もしてるから並んでる順番も結構カオスやでぇ
ワイの愛用しているchronosとairoborosをマージしたchronoborosちゅうのが出てたわ しばらく弄ってみるわ
ワイの非力なCPUやと33Bモデルで500トークンの出力に7-8分かかるわ なにしろ Ryzen 2600 だからな CPU替えたいわ 3700Xあたりにしたら倍くらい速くなるやろうか?
3700Xちゃう5700Xや コア数が6から8に増えるのが一番効きそうに思うけどどうなんやろな?
BlinkDL/rwkv-4-world 日本語チューニングOnlyForTest版、7/11のはちょっと中国語に引っ張られてる感じがする。 同じ処理させて、7/8は「私は〇〇と申します」だったのが「我是〇〇」になってたり
7/11版こっちも英文を和訳させたら中国語にされたわ
>>517 プロンプトの形式どうしてるんや?RWKV-runnerで使ってる?
>>516 5700X使ってるで33Bだと5分切るかどうかってとこやな
>>508 ブラウザ変えたら解決しました。Google Chrome無能
>>520 サンガツ
そうか半分にはならんのやな…
悩ましいところやわ
効率良いオナニーにPCスペックが要るとは20年以上前に戻ったみたいや
グラボ替えてメモリー足してSSD足して エロ画とエロ小説の出力のために夏のボーナス使ってるわ 人類は20年経っても進歩しないのや 進歩してるのはオナニーのツールなんや
小説のほうはまだ酔狂の部分もあるけど絵のほうは20年前の人間が見たら白目むいてひっくり返りそうな とんでもないツールだしなあ いやまあ1年前の人間から見てもそうかもしらんが……
いや文章AI(というかchatGPT)のほうがすごいと思う 後世から見たらオーパーツだろ
ChatGPT4はね ローカルのほうはまあ「すごいやん」くらいの感じかな 特に日本語は……
>>519 npakaニキのコードほぼそのままでpythonで直叩き
https://note.com/npaka/n/n401dccfadedc プロンプト形式はモデル配布元の2つ目の例 (Instruction/Input/Response)
instruction = "次の文章を日本語で要約してください。" で、適当なメール文章をInputに食わせて結果比較した
内部的に文字列を経由せずに声で聞いて声で返すLLMって無いんかな
文字列と同じように音の列としてデータ構築するモデルは原理的にはできるんちゃうか、それがlanguage modelの名に相応しいかはさておき ただ作りたいものが文字化可能な文章であるなら、文字列経由した方が品質は高そう あと失敗作が「人語のようで意味のない声のようなもの」というめっちゃ不気味なものになりそう
上の方で紹介されてた wizard-vicuna-13b-uncensored-superhot-8k.ggmlv3 これいいね 今更13Bなんて…と思いつつ試してみたら意外とよく書いてくれるわ superhotはkoboldでほとんどまともに動かんから今後に期待や
chmateがGoogle Playでバージョンアップしたで! 普通に読み書きできるわ!
koboldcpp-1.35 CUDA 8 ビット MMV モードを有効にしました 完全な GPU オフロードを実行できる場合、そのようなモデルの CUDA は以前よりも大幅に高速になる可能性があります 1.35.H Henk-Cuda Hotfix: これは Henk の代替バージョンで、速度低下が発生した場合に試すことができます
https://arxiv.org/abs/2307.05695 ReLoRAっていうLoRAを応用して効率的に事前学習を継続する技術が出たらしい。まだ実装されてないけどツイとかディスコで話してる人がちらほらいる
まあそれでも1回鯖代だけで数万ふっとんでいくような話でしょ りんなを再学習させたら一部ジャンルではすっごい自然になった とかまでこないとなあ
あれ、
>>10 ニキひょっとしてプロジェクト消しちゃった?
まあファイルサイズもパラメータ数もRWKV-4 Worldの約半分と考えればそんなもんかとも rinna 7B(仮)で互角に戦える感じなんじゃない?
RWKV-4 World JPNTuned 76% (7/14) 版、さらに中国語を話すようになってしまった・・・ 「次の文章を日本語で要約してください」に100%簡体字中国語で返してきよった
漢字で日本語と中国語の判別が困難になってるのか マジで言語の壁を感じるな・・・
llama.cppの作者のツイートによると、
Pi4 x 6のクラスターで65Bが動いたらしいから、
安価なPCクラスタで大規模LLMモデルが走るようになるかもね。
https://twitter.com/ggerganov/status/1680588092569255940 ちなみにPi4だと1トークン10秒らしい。
https://twitter.com/5chan_nel (5ch newer account)
かえって一般向けじゃねえw 素直に128GBメモリと最新CPU積む方がラクやな
RWKV-Runner +
RWKV-4-World-JPNtuned-7B-v1、GUIで操作できて日本語でも答えてくれてなかなか良いと思うけれど、既出でしょうか?
https://huggingface.co/BlinkDL/rwkv-4-world >> 548 RWKV-4 Worldは
>>504-509 とか
>>517-519 とか
>>539-544 とか、割と話題の中心かも Runnerの話は
>>519 で一瞬出てるね うちでも動かしてるけど、手っ取り早くRWKV使うなら一番良いかも
中国語圏で主に使われてるのか、issuesがほとんど中国語で読めんw
>>549 回答ありがとう。RWKV-runnerが更新されて、使いやすくなったのと、まさに手っ取り早くRWKVつかえていいのではと思ったので。
RWKV-runnerにTranslate機能ついているので中国語はそれで翻訳しようw
RWKV-runner使ってみた。小説書かせるのはCompletionってのをつかうのかな? デフォで星間戦争うんぬんの記述があるけど、毎回消すの面倒だね
あれ? Completionモードだとなんでも書いてくれるのに、チャットモードだと内容によって申し訳されるね。
RetNetっての使ったモデルが出てきたら今と同じスペックでかなり速く生成できるようになるんかな?
やっぱりkoboldの方が使いやすいので7/14のをggmlに変換して使ってみたけど、日本語表現は7Bにしてはまあまあですね 時折文章がループしはじめるけどw これの65Bが出たらどうなるかな
>>554 Koboldは手元ビルドしないといかんのが特に更新についてくのに面倒で使ってないんだが、RWKV-Worldはそのまま対応してるように見えるのにggml化して使ってるのは速度の問題?
kobold.cppは落とすだけで終わりっしょ? んでkobold.cppはGGML特化だから
RWKV-4-World-JPNtuned-7B-v1はなかなかいいね。 可能性を感じる
ほんとだすまん、kobold.cppは「ggml化した」RWKV対応なんだね。うちはメインマシンがMacなんでビルド必須なんよ・・・ RWKV-4-World-JPNtuned-7B-v1はチャットだと7/14版優秀だね 文書要約とか解析とかだと7/8版が優秀なのでなかなか難しいね
>>559 でもチャットモードだと、アダルトな事聞くと怒られるw
RWKV-runnerのチャットモードはたぶんシステムプロンプトで回答拒否するように言われてるんやろな complementのインストラクトとかチャットは普通に回答してくれる
いえ、koboldでもチャットモードはエロ禁でした
りんなの性能が微妙と言われてもそれ以上が出てこないのは novelAI流出前にWDで美少女出そうと頑張ってた画像生成を思い出す 日本語OK、エロOKのものは現時点で無さそうな気が・・・
チャットモード以外ならエロは規制されてないって書いてあんだろ
Llama2でたんだな これをベースにまた色々でてくるか?
まだllama2出てすぐやしHFのリポジトリはアクセス制限されてるから何とも言えんけど、元祖llamaより性能がいいのは当たり前としてやっぱり検閲ゴリゴリに入ってるらしい ギリギリ家庭向けGPUで動く34Bも事前学習させてベンチマークでchatgpt超えしたがリリースされてないあたりいやらしさを感じるw ただ4chan見るあたりは脱獄プロンプトとか途中まで肯定文喋らせるトリックが効くっぽいな
ちゃんと読んではいないが データセット1100万ドル 学習うに2200万ドル まあまあするね
TheBlokeニキがもうllama2-7bのggmlアップロードしててワロタ 相変わらず早すぎるやろw
動画生成のkohyaニキみたいに向こうじゃ伝説の人になっとるんやろな
連休で、text-generation-webuiを導入して入部 open-calm-7bで日本語応答でこんなものかな?と思って、英語の他のmodel導入して、 出来心でchatでエロなことさせたら、思った以上にエッチいchatになって草 もっと、bot的な機械的な反応だろうと思ったら、それなりにcontextに沿った人格で動いて、 イジったら逝くだけじゃなくて、ちゃんと痛がったり逝かせすぎたら気を失ったり疲れたりとしたりと、 実はこれ他の人間が打ち込んでいるんじゃない?と思うくらい生々しい反応で面白い 入力もほぼ日本語で打ち込んだもの理解してトンチンカンなことにもならないし、思った以上に遊べそうな玩具になりそう
新規入部大歓迎やで ここはkoboldcpp使ってる人が多くて大葉(text-generation-webui)ネタは貴重やから色々探究してくれると嬉しいやで
text-generation-webuiでRWKV-World動かそうと悪戦苦闘しとるのがここにおるよ いろんなモデルをとっかえひっかえするには便利なんよな 昔はRWKV.pyで素直に呼び出してたのをTransformerがRWKV対応したときに廃止したみたいで、なんだか先祖返り改修だけど
自分もtext-generation-webui導入してたけど、RWKV-RUNNERの方が手軽ですね
さっそくllama2-7bを試してみた。 指示モードで小説書かせてたら、何も指示してないのに、いきなり日本語で書き始めてビビったわw しかも、わりと整った日本語だった
>>0578 すまんミス 7Bじゃなくて13Bだわ そして、RWKV-World jpnの最終版?がアップされとるではないか! 一番下見てたから最初気付かんかった さっそく落として試してわ
RWKV-World jpn正式版現在DL中 text-generation-webuiにもさっそくLlama-v2用のinstruction template追加されててさすが
とりあえず言われている通りエロには抵抗されてしまうわけやが脱獄プロンプトどうすりゃええんやろな オナテク板で開発された官能小説ジェネレータを英訳したり微修正したりした奴は失敗したわ
RUNNERの指示モードで7/14版と最終版とで、同じお題で何本か書かせて比べてみたけど、 明らかに最終版の方が話の幅が広がってる感じがする。(気のせいかもしれんので、他の意見も聞きたい) 相変わらず、チャットモードの方は一度でも申し訳されると、以後何を言っても同じ反応なのでリセット要ですなw オナテクの官能ジェネレーターはそのままで機能したはず
そのままって日本語でChatGPTとか書いてあるとこもそのままでぶちこんだんか
RWKV-4-World-JPNtuned-7B-v1-20230718、途中段階の「だんだん中国語になる」現象が解消されて100%日本語で返事するようになってた ひと安心
>>584 そそ。最終版でも今試したが、エロエロ書いてくれるぞw
うーんkobold.cppとの違いとかありうるんかな
ggmlに変換してkoboldでも試したけど、指示モードの文が途中でループし始めるね。koboldがトークン分書こうとしているせいかな?
ひょっとしてRWKV-4の話題とllama2-13Bの話題が混じってる? そんなことない?
今までのは、RWKV-4最新版の話です。 新東京日記もそのままで普通に動いた。by RWKV-RUNNER
RWKV-4動かしている人ってどういう設定にしてる? VRAM24GBじゃないと無理?
RWKV-4-World-JPNtuned-7B-v1-20230718ならVRAM4Gモードからあるよ。 自分は12Gだから10Gモードで動かしてる
そんなホイホイ○○Gモードとか切りかえられるもんなの? RUNNERにたくさん入っている設定って「そのVRAMにふさわしいモデル+多少の設定」くらいのもんだと思っていたんやけど いずれにせよ12GBで動くっていうならやりよう次第っぽいが・・・
うちは使えるGPUがないのでCPUモード一択 メモリ32GBあればぎりぎり動く感じ チャットじゃなくてテキスト生成で使ってるので応答速度が遅いのはあまり問題にならないから
また日本語対応モデルがアップされてるのを見つけたぞ。 openbuddy-ggml 今度は13Bだ
llama2はchatの方だけ検閲入っててchatじゃないベースモデルの方は無検閲らしい 34Bはmetaが出し渋ってるけど遅れて公開されるっぽいわ
34BのGGML版が出てから本格的にいじるのでもよさそうやな
壊れた機械みたいに同じ応答を繰り返すのは未学習だから? りんなだと日本語でエロ小説もどきを一応書けるけど RWKV_rwkv-raven-7bで同じ事しようとしたら繰り返しbotになった 英文で試したら一応書いたけど女×女の百合小説になって宇宙猫になる
帰宅したのでllama-2の13Bモデルを弄ってみた GGML版をkoboldcppのInstructモードで使用してエロ小説を書かせた結果 (chat版と非chat版も比較してみた) ・chat版は素のままだと申し訳された ・適当に脱獄プロンプトを流し込んだらエロを書き始めたが、すぐに素に戻って申し訳された ・非chat版は素でも申し訳されなかったが、エロを書く文章力はかなり低い 結論としては、今後のチューニング待ち
>>599 RWKVみたいなRNNはtransformerモデルと違って過去の履歴を持ってない(だから軽いし速い)という特徴があるから、そのせいで一旦ループにはまると抜け出せなかったりするかも?
素のchat版に申し訳された図
素のchat版、脱獄後
非chat版は最初からエロを書いてくれるが表現力はこの程度
参考までに他の13Bモデルの出力例
>>602 物知りニキありがとナス
あぁ、モデル方式によって癖があるのか
英文でも油断するといつの間にかループしてた
AIは凄そうに見えて弱点も山盛りだなぁ
画像生成みたいに各ジャンルの特化モデル用意が最適解に思える
将来的にはLLMでもloraでコントロールできる日は来るのか?
RWKVはRNNから改善されてるとは聞くけど今いち仕組みが理解できてないんだよな 学習段階では言葉の関連付けが強化されてるけど出力時の仕組みはRNNと変わりないという理解で良いのだろうか?
LoRAは既にあるよ text-generation-webuiは自分で用意したテキストファイルからLoRAを作れるしAIのべりすとのmod機能も中身はLoRAだと思う
>>451 エラーさっと見る限りでは、引数で--loader gpt-for-llama使えって書いてあるかな?
OobaはRun.batに引数追加していろいろ設定できるのでそれかもしれんな
python server.py --chat --api --loader gpt-for-llama
みたいに書くんだけど。ちょっとエアプなのであってるかはわからん
↑すまん、Run.batは自分で置いたやつだから初期では存在しないかも
Llama2(llama-2-13b-chat.ggmlv3.q4_K_M)をOobaで試してみたがちょっと日本語崩れちゃうな。
https://llama2.ai/ で試すときれいな日本語出してくれるんだが。Blokeニキの別のやつ試すか……
TheBloke_Llama-2-13B-GGML(q5_K_M)もTheBloke_airoboros-65B-gpt4-1.4-GGMLと同様に「日本語読めてんのに英語で返事する」きらいがあるなあ "Note: The text files are in Japanese (...) so the answers can be given in English." じゃねーよコラ
それはわかる。Llama-2-13B-chat-GPTQ試してるが、それなりにきれいな日本語を生成できるっぽい。 - 事前のコンテキスト=キャラクター設定を日本語にする - チャット開始時のメッセージ(OobaだとGreeting)を「おはようございます!」とかにする - ~~を日本語で教えてください と書く とかで一応対処はできるっぽい
というか34B-GGMLか TheBlokeニキなら出たあと1~2晩でやってくれるはずや
あとGPTQのほうが生成はやい……気がする。12.08 tokens/sとか。GGMLはクソデカモデルも読めるが遅いんだよな
グラボドライバー536~を使ってるんだが共有メモリとか使うようになったし70Bもロードできんのか?と思ってダウンロードしてるんだが35GBあるんだが。つら
>>613 そりゃGPU使って生成できるんだからメモリの中におさまるならGPTQでいけるんならそっちが強いよ
GGML専用のkobold.cppには1ファイル落とすだけですぐ実行できる強みもあるけど
メモリの中におさまるならGPTQでいけるんならそっちが強いよ →メモリの中におさまるならそっちが強いよ 修正ミスった
not enough memory! 70Bは12GB VRAM+32GB RAMでは無理だった
llama.cppでcfg使ってる人おる?機能としては画像生成のネガティブプロンプトと同じらしい ワイもllama2 13bで喋らせたくないワード入れて使ってみたけどそこそこ生成結果をコントロールできるっぽい cfg自体でモデルの性能も向上するというのを聞いたんやけどワイが試した限りでは本当かわからん あとllama2のloraとかファインチューニングも早速でできとるで
Llama-2-13B、対話とかテキスト生成じゃないテキスト処理苦手なんかなあ。いつもベンチマークに使ってる国語の問題みたいな「次の文章を読んで以下の質問に答えなさい」やらせたら単語にすらならないランダム日本語文字列吐いてきたw
llamaのトークナイザー自体日本語認識できてないっぽいんだよな トークナイザーに日本語入れてみたら文字化けするというかちゃんと変換されない漢字が結構ある Openbuddyとか中国語併用のマルチリンガルllamaはトークナイザー拡張してから継続学習させてるからその辺は大丈夫なんだと思う
やっぱり? TheBlokeニキのggml化でなんか起こったのかもと思ってたけど元からなんか... AutoTokenizer.frompretrained()がエラーになったり、ちょっとサイズの割に使いづらいねえ
>>451 大葉はWin11+cudatoolkit11.8で以下の手順で行けた
1. portablegitを解凍してbinにパスを通す。(例 set path=%path%;c:\TOOLS\PortableGit\bin)
2. Python3.10で仮想環境を作る。(例 python -m venv c:\TOOLS\venv\ooba)
3. 仮想環境起動(例 c:\TOOLS\venv\ooba\Scripts\activate)
4. 大葉のrequirements.txtでpip install -r requirements.txt
さっきから出たり消えたりしてたけど、TheBloke/llama-2-70b-Guanaco-QLoRA-GPTQはアップされたみたいなんで落としてみる ggml版は消えてしまったな
ローカル動作ではないけど、このnoteがなかなか興味深い
Llama 2の性能がGPT-3.5並みだというのが本当かテストしてみた
https://note.com/it_navi/n/n113fa7151a4f ジェンダーの答えでゲロ吐きそう やべー教育されてんな ネット上の情報をまんべんなく学習すると潜在的に差別思想になるらしいんだけど それを矯正するために強力なジェンダー教育を受けさせた結果かな
大葉でラマ2 70b動いてる人いる? 64gじゃ足りんのかな? 今アップされてる2種とも読み込み時エラー吐く;;
チャットやるときとかはこれくらいのレスポンスがいいってのは再確認できたから、 今のマシンの2倍くらい速いCPUでメモリに余裕あるのにしたらまた世界が違うだろうな ってことはわかった
確かにゲロ吐きそうなジェンダー解答だな 作った人間の思想が強く出てそう
俺は「日本語話せる?」って聞いたら 英語で「いきなり他人にその質問は失礼だ」的な返答がきた その後はしつこく聞いても同じようなことばかりで答えてくれなかったわ chatGPTと比べてなんか違うんだよなぁ
苦戦してたのかな? ようやくTheBloke/Llama 2 70B (無印&cchat)のGGML版公開されたね とはいえ動かす手間の割に性能が感じられないのであまり気が進まない RWKV-Worldのほうが知識は少ないんだけど素直な応答なんで取り組む意欲がわく
Uncensoredにした奴のGGML版きてくれよな~頼むよ~
TheBloke/llama2_7b_chat_uncensored-GGMLなら一昨日出てるみたいだけど(70BはGPTQも出てないのでそれのことではないよね?)
知能が高くなるにつれて文章が礼儀正しくなってきてなりきりチャットとかには向かなくなってくる感じあるけどwikiとか論文ばっかり食ってるせいかね
というか今の段階でcensoredとかなんのためにやってるんたろうね censorしたくなるほどの文章を出してから言えと
>>640 70Bの再学習版もいつか出るだろうから、それのさらにGGML版ってこと
Facebookの胴元だもん、お行儀よくする言論統制は企業理念みたいなもんでしょ
気づいたらkoboldcpp-1.36出てたわ ---特定のシステムの速度低下を引き起こしたアップストリームの変更を元に戻しました。これにより、1.35 での速度低下が修正されるはずです。
TheBloke/Llama 2 70B はまだkobold対応してないのね コマンドラインだと使い。guiでできないのかな?
必要なllama.cppの修正はコミット済みだから、リリース手続き待ちで数日中には対応するでしょ "That will come in due course."って書いてあるし
日本語話せるllamaをDIYしてみたで
トークナイザー拡張してからloraとqloraで日本語wiki40bを学習させたんや
https://huggingface.co/TaiyouIllusion/Llama2-7B-JP-GGML-Experimental 文法的な正しさとかは悪くなさそうやけど話す内容が完全にデタラメやからまともに使うのは無理や データセット増やして学習時間も長くしたらそれなりのができるんやろうけどこの辺が個人でできる範囲の限界なんかな
LLMって金と時間がかかるんやなと改めて学んだで
llama2の70bは7b、13bと違ってGQA(グループクエリアテンション)っていう独特の仕組みがあるからllama.cppとかtransformers側の対応が遅れてるねん llama.cppはもう対応してると思う
metaが34bリリースする気なさそうやからllama2の13Bと旧llamaの33bモデル組み合わせてフランケンシュタインモデル作った人がいるらしい
https://huggingface.co/chargoddard/llama2-22b https://huggingface.co/Envoid/MindFlay-22B-ggml TheBloke/FreeWilly2-GPTQ メモリ32GBではやっぱ足らんか あとで64GBのマシンで試してみよう
GPTQはVRAMで動くんじゃないの? そっからさらにGGMLに変換するとか?
>>649 やってみたけどまさにそんな感じやな
kobold.cppが日本語吐くのを見るのは新鮮だった
vram足りない分はメモリ使ってcuda out of memoryしないようになったからクソデカモデル読むときはGPTQでもメモリつよつよにするのは有効なんじゃね StableDiffusion勢は共有メモリ使われるようになったドライバのバージョンだと生成遅くなるからって531.61を維持してるっぽいけど メモリつよくして70Bとか読めたら報告よろ
70B試したけど、申し訳するわ、出力文章がエロくなると勝手に落とすわで使い物にならん。 でも、日本語は結構期待できそう。 日本語指示してないのに、勝手に japanese titile:肉欲の少女美咲 とか書き出して、勝手にクラッシュしたw
>>649 ためしたで。
日本語LLMのつらさを実感する
ほかの質問もしたが文章も生成してくれけど言うとおり意味はちょっと怪しい
Llama2日本語しゃべれるやんって思ったけど、日本語らしきものを書ける程度かもしれん。なんか英→日の翻訳日本語みたいになるわ
Opencalmもようやっとる
くそー最新のauto-gptqとexllamaがまだMac対応しとらんかったa
>>649 はそもそもインストラクトとかチャット用の学習はまだやってないんや
ベースの学習が終わったら日本語dollyデータセットでqlora学習させるつもりやったんやけど面倒くさくなってベースだけHFに上げた
あと学習データがウィキペディアの文章やから口調が固くなりがち
Stability AIがChatGPTと同等の性能を持つオープンソースの大規模言語モデル「FreeWilly」を公開
https://gigazine.net/news/20230724-stability-ai-llm-freewilly/ LLaMA 2 70B ベースだと
ジェンダー棒でぶっ叩かれるんか?
ってかここまでのスレで出てきた色々なモデルもデフォだとそれなりにやられてたんじゃないの Uncensored的なのが出てきてTheBlokeニキが変換して……とかの恩恵を我々は得てきたんや
llama2のchatの方はアライメント強すぎて極普通の質問でも回答拒否されるからchatじゃない方のやつが本命なんやろ FreeWilly自体LLMリーダーボードで高評価出すためだけに作られたようなもんやしstablityaiはsdxlもエロ禁止にしたからな 前にリリースしたstableLMは性能ゴミやったしこいつはsd1.5を出した時点で役目を終えたんやと思う
>>649 そういえばこれってqloraで追加学習したあと、できたやつをモデルにマージしたっていう認識であってる?
やり方教えてくれると色々捗りそうなんだが
vicuna 13bで公開してるの?(´・ω・`)
BlinkDL/rwkv-5-world coming soon ワクテカ これを機にtext-generation-webuiのRWKVまわりを直してくれるといいなあ World未対応以外にも壊れちゃったとこがある
Twitterで先進的なことをやってる大学の先生とか情報系の学生のニキたちには かなわないと思うけど、このスレも結構日本語圏のネットのLLM情報としては まとまってるほうやと思うねんな
このスレだけじゃなくて画像系もなんJのスレが最先端の次(の次?)ぐらいを走ってる気がする やっぱエロはすべての原動力だね、いや失礼、ここはそこまでエロ特化ではないかw
画像系はほぼ最先端に迫るレベルちゃうかな 最先端の情報がすぐに貼られてしかもそれを使える奴が多い、って感じやろけど
画像はエロ含めて最先端やが文章はエロ専門のスレもあるでな
あっちはChatGPTをどう攻略するかっていうプロンプト脱獄がメインだしなあ 画像スレも初期はプロンプトの話ばっかだったが
>>671 そもそも情報系の先生や学生は基本的に低レベル層にばかり関心あって実装やアプリケーションについては関心も知識も無い人多いからな
最近RetNetとかいうRWKVの進化版みたいなのが出てきてTransformerより数倍速くて性能もいいらしいな
実装も公開されたらしいから早く新しいモデルが出てきてほしいわね
そりゃRWKVはそもそもコスト削減用途であって、性能を追求するモデルじゃないしね 巨大モデルでも比較的作りやすいとか、非力なマシンでも動かせるとかが取り柄
いや、それより同じラマ2ベースのTheBloke/StableBeluga2-GGMLがやべえ 普通に日本語での受け答えできるぞ 今指示モードで小説書かせてるけどかなり整った日本語でエロ書いてくれてる トークンも時間も倍かかるけどなw
メモリはともかくそのCPUだとクッソ出てくるのに時間かかりそうやな・・・
最新のkobold gpuモードにはまだ対応してないっぽいのでCPUオンリーだからさらに遅いw
つーかこれでGPUで動かすとかもうGoogleColabやpaperspaceで A100とか借りないとムリやろ
って言ってる間にグアナコの方もq5km出たわ さっそく落とすぜ
>>692 いやgpuのVRAMも使って高速にできるんよkoboldは
なんかあれ上手く動かないから結局使ってないんやけど デカいモデルでも一部だけVRAM使って回すとかできるんか? BLASをGPUで速くするのは前から使っているけど
この容量だとcolabやpaperspaceのストレージに置けないな……
エロ用途だと同じくTheBlokeニキのとこでggml化されてるKimikoってどうなん? オリジナルのnRuaif/Kimiko_13Bにはこんなこと書いてあるけど > This is my new Kimiko models, trained with LLaMA2-13B for...purpose
airoboros-l2-70B-gpt4-1.4.1-GGML q5K_Mも出た。落とすの多すぎだw
どんなに頑張ってもベースが13Bだと33Bと比べたとき物足りない気はするんよ まあ33Bは遅いっていうどうにもならん問題あるが、最近出たCPUでメモリ64GB 積んでいれば十分許容できるスピードやろし
やべぇ・・・ airoboros-l2-70B-gpt4-1.4.1-GGML q5K_M 試したが、同じ70BのStableBeluga2-GGML q5K_Mより日本語が達者だぞ。 こんだけ日本語できたら、十分じゃね?
どれくらいの文がどれくらいの時間ででてくるのw 1分で2行とかになってそう
65Bに英文書かせるより、ちょっと遅い感じ。(これはGPU使えないせいかもしれん) 以下、チャット内容。内容は実際と違ったり、捏造も多いが、日本語は今までのモデルに比べるといい感じと思う。 You ドラえもんのヒロインのしずかちゃんについて詳しく教えてください。 KoboldAI しずかちゃんは、ドラえもんのヒロインであり、野比のび太のクラスメイトであり親友です。彼女は金髪で、青い目をした可愛らしい少女で、しっかり者で優しい性格を持っています。彼女は料理や裁縫が得意で、家事全般において非常に上手なスキルを持っています。また、掃除や洗濯もよくこなすなど、家庭的な面もあります。 ↑この分の後にも512トークン使いきるまで長々と説明が続いたが、koboldの仕様なのか、後半の文章は削除されてしまった。 KoboldAI しずかちゃんは、ドラえもんのひみつ道具を使った冒険にもよく同行し、その能力と知性を活かして、ドラえもんやのび太たちをサポートしています。彼女はドラえもんに好意を抱いているようで、ドラえもんに対して時折、優しい言葉や行動を見せています。 ↑ 続きを書かせたら、さっきとは違う話を延々と書き出したw これは途中で中止させた。
そのぐらいの短文ならRWKV-4-World-JPNtuned-7Bでも同程度の日本語出力はできてたからなんとも言えない。 もっと複雑な長文タスクを試してみて破綻が少ないのなら、かなり使えそう。
日本語指示で小説書かせてみたけど、RWKV-4-World-JPNtuned-7B以上の出来と感じた。 素でこれなら、日本語tuneしたら、どうなるんだろ?
せっかくA100借りてることだしとGPTQを動かそうとしてみたけどモデルの読み込みまでは成功するんだけどレスポンスが全部オウム返しか空っぽにしかならないや
今paperspaceってマシン空いてるの? 2ヶ月前ぐらいにやったとき全然空いてなくて即解約したんだが
時間帯と日による感じだった まあワイも2ヶ月前に解約してからは触ってないけど 学習とかはまだワイには早かったわ
chatGPTにポエム書かせてたんやが 雨にも負けず風にも負けずって宮沢賢治パクってきたわ 危ないなこれ
手書きだろうと知らん内に自分のオリジナルだと思い込んでるけど実は他人の丸パクリの文章でしたみたいなの割とあるから仮に危ないとしてもAI特有の現象ではないな
>>634 隠語過剰過ぎて誰にも意味伝わってないと思う
そらもう規制がないこと あと、「ここまではええけどこの文のここをこう修正するから、それで続けて」みたいのがやりやすい
出力文章を直接修正してつづきを書かせられるのが便利 AIのべりすとみたいなことができる
○○は拒否した。を○○はうなずいた。ってできるからなあ
ただ、単純な速度+クオリティで言ったらpoeってサイトを通して ChatGPT3.5に脱獄系プロンプト使うのが現状一番いいかもしれない (公式から直で使うとBANのリスクもあるししょっちゅう拒否される) 上に書いたように「途中で中身強制書き換え」はできないし、 アウロリは厳しいけど
ChatGPTでも直接書き換えまでは無理でも再生性とかスレッド遡ってやりなおしは出来るけどpoeは一発勝負なのか辛いんだよね
poeも最新のやりとり削除すりゃそっから再生成できるっしょ?
GPU対応のラマ2ggmlもでたね。さっそく落とすぜ。
どれや というかGGMLでGPUって使えるんだっけ
このリーダーボードはマルチリンガル? 東北大のモデルがないのは日本語専用だから?🤔
>>726 最近のkoboldにはそういう設定があるのだ
llama2の70bでchatで、150秒以上かかっていたのが、40秒くらいになったし、リソースメーターでもgpuが動いていたので、 usecublastかuseclblasでgpuを使ってくれるみたい まだkoboldcpp使って2日程度なのでなんか勘違いしてるかしれないけど…
doshisha-nlp/llama-2-70b-chat-alpaca-japanese なんか、でてきた。 まだアップされてないみたいだけど期待
ラマなのかい!?アルパカなのかい!? どっちなんだい!?
LLMの動物シリーズ、LLM -> llamaから始まったんだろうけどどこまで行くんだろう ベルーガでついに海に飛び出したけどまだ哺乳類ではあるw
adapter_model.bin が上がってるやん LoRAってことか
>>732 nvidiaのニキはcuBlasでOKのはず
レイヤー数はワイも適当
VRAMの大きさを超えないように調節してる
>>737 一応どちらでもいけたけど、今はそれにしてるね。
gpulayersはうちもVRAMがに入る程度指定してるけど、指定しなくても生成はあまり変わらないオマジナイ感が…
あれこれと気楽に設定変えてやるものでもないので、ほどほどにoffloadさせてる
Oobaでも最新のをGit pullして動かしたら70B のGGMLは読んだ
upstage-llama-2-70b-instruct-v2なるものを試したけど1文字1分くらいかかって途中でやめたわ。なにかが間違っている気がする
設定はこんなん
Koboldで1token/sどんぐらい出る?
0.3 token/s ぐらいってことか
7bのOpencalmだと7token/sぐらいでるし順当かね
13BのAiborosやらも試したが絶妙に日本語は微妙だったので、いまだにワイがまともに使えるのがOpencalmしかないわ
それを確かめるのがこのスレなのだ 自分はもう70B 65Bしか試す気ないがw airobors 2.0 70B 来たんで落とすぜ
>>739 うちも、そのmodelでq4_k_mの方読ませたけど、oobaでも0.3t/s程度で動いているみたい。
koboldcppのと速度比較でもさほど無い…のかな?同じもので比べられないけど、
少なくとも、oobaが遅すぎるということは無いと思う
ワイ将、poeに負けて3000円課金してしまう 英語でChatGPT4の文章を生成させるともう気が狂うほど描写がええんじゃ。
NAIにしてもchatGPTにしても結局モデル次第というのがよくわかるよね
rinna/bilingual-gpt-neox-4bシリーズ、oobaでエラーなく読み込めるようになったのは素晴らしいんだけどこっちの指示に全然従ってくれない なんでや
>>748 ソースの一部を書き換えて設定をfalseにすれば正常に読み込む
https://note.com/npaka/n/n5d25ea4227df 新しいrinnaは反応が格段に良くなってると思うわ
あとエロ関係がチャットでも去勢されてないのはデカい
>>750 はえ~
こんな便利そうなの出てきてたんだ
rinnaで小説ってかかせられないの? 書きます! とは答えるけどw
>>750 おかげで正常に受け答えできたけど情報をまとめる事はできても創作はできんのかな?
日本語で無料で規制ないのはなんやかんやで貴重よな poe+3.5+脱獄系プロンプトでもそれなりにいけるとは思うけど、なんか面倒なところがある 勝手に小説っぽくしちゃったり
poeの3.5と4の違い
どっちも官能小説ジェネレーターの英訳版を最初に突っ込んでる
つーか最初にlessとressタイポしてたな それでも出してくれるからありがたい
>>750 ありがと 3.6Bと同じ修正まだ必要なんだね。読み込みでエラー出なくなったから油断した
モデル判定・分岐以外のモデル間共有のファイルにrinna固有のコード加えるのは美しくなくて嫌だなあ
よく見たらrinna japanese 3.6Bとbilingual 4Bでプロンプト書式違うんかい 謎の<NL>区切りやめたのはいいけどモデル判定がさらにややこしく・・・
「japanese-gpt-neox-3.6b」表記のとこ直さないとアカンね model.pyはこんな感じの修正になるな if any(s in model_name.lower() for s in ['gpt-4chan', 'gpt4chan']) and Path(f"{shared.args.model_dir}/gpt-j-6B/").exists(): tokenizer = AutoTokenizer.from_pretrained(Path(f"{shared.args.model_dir}/gpt-j-6B/")) elif model_name.startswith("bilingual-gpt-neox-4b"): path_to_model = Path(f"{shared.args.model_dir}/{model_name}/") if path_to_model.exists(): tokenizer = AutoTokenizer.from_pretrained(path_to_model,trust_remote_code=shared.args.trust_remote_code, use_fast=False) text_generation.pyは247行目あたりをこうかな # Encode the input add_special_tokens = not shared.model_name.startswith("bilingual-gpt-neox-4b-") input_ids = encode(question, add_bos_token=state['add_bos_token'], truncation_length=get_max_prompt_length(state), add_special_tokens=add_special_tokens)
しかし動くようになったはいいけど相変わらずりんなはバカだなw
りんな入れても受け答えが変で困ってた赤ちゃんにはそういう情報助かるわ ありがとうな
スペース(インデント)が消えちゃっているからそこは適宜修正してな
>>756 サンキュー同じお題でやってみた(ストーリーモードはしょぼいんで、指示モード使うんで少し修正した)
https://imgur.com/a/XPlvq66 airoboros-l2-70b-gpt4-2.0.ggmlv3.q5_K_M は、なんかいまいち(エロと倫理が極端)だったんで、
airoboros-l2-70b-gpt4-m2.0.ggmlv3.q5_K_M で試した。
英語民の感想聞きたい
あ、指示の上の方は切れてるけど、同じ内容ね 512トークン分なんで本文も途中で切れてるけど勘弁
書き換える前のファイルはちゃんと保存しといてね ファイルに変更がある状態だとgit pullで本体更新ができません
>>760 実はoobaのUIからダウンロードするとmodel_nameの先頭にリリース元がくっつくのでmodel_name.startswith("rinna_")で簡単に識別できた罠w
config.yamlとかconfig-user.yamlでなんとかしようとしたけど、当該箇所ではモデル名で絞り込んでないから結局本体いじんないとダメだわ
どうもoobaのダウンロード機能は信用できないんだよな
>>750 の記事にもある通りgit cloneを使ったほうがいいと思う
git cloneはTheBlokeニキのみたいに1リポジトリで大量の巨大モデルがあるけどそのうち一つしか使わないタイプと相性悪いんよな download-model.py --text-onlyしてconfig.jsonとか確認してから必要なら残りを持ってきたりしてる ログ見るとdownloader.pyの信頼性とパフォーマンスはだいぶ頑張って改善しようとしてるみたいだね
GIT_LFS_SKIP_SMUDGE=1 git clone してからそのディレクトリに入ってlfs対象のファイルだけ全部消してaria2cでダウンロードしなおすスクリプトみたいなの書けばいいのかな
>>769 ああ
ggmlだとギガファイル大量にあるからその中から特定のだけ選びたいってことかそれじゃ
>>770 じゃ不足だな
その上で引数かインタラクティブ応答で欲しいファイル選ばせるみたいなアプローチが必要か
そうしたら、windows10以降ならcurl入っていると思うので、curlを使うとかな modelの"Files and versions"から、ダウンロードしたいファイルのところにある"↓"のリンク先をコピーして、 コマンドラインから、cd でモデルをダウンロードしたいディレクトリに移動して、 curl -LOR -C- コピーしたurl で、レジューム付きでサーバーのタイムスタンプでダウンロードできるはず
>>764 うーん率直に言うと表現力に乏しい
ダンジョンの雰囲気、触手が襲ってきた時の様子などかなるあっさりしてるね
ニキのプロンプトをそのまま使って自分が普段使ってる33bモデルに食わしてみた
こっちの方が表現力が高いと感じるがどうだろう?
ひとしきり触手と遊んだので次のパートへ進もうとしたら
エマちんが「待ってパート2ってどういうことよ一話完結じゃなかったの」とかメタなこと言いだして笑ってしまった
なんでいきなりギャグ混じりのエロマンガみたいになってんねん
天の声で、よーし次行ってみよう、って言った感じになったのかもw *go next part* とかで、傍観者視点の行動として、シーン移動になるのかも
つーかこれ官能小説ジェネレーター入れてなかったんちゃうの
ジェネレーター入れてなかったわ
初手から
>>756 の青地のプロンプト入れてた
そりゃパート仕立てなんて聞いてないよ!って言われるなw
ひとまず指示を追加したら先に進んだよ!
最深部で見つけた箱には媚薬の罠が!どうするエマちんソフィちん!
あと3年くらいしたときにいい感じのCPU買えば 70Bとかそれより上のが今の33Bくらいの速度で 動いてくれるんやろな
自分の現在の環境だと33Bが一番実用的だなぁ 13Bと33Bの差は結構感じるが33Bと65B/70Bの差はそれほど感じられないし(故人の乾燥)何より65B/70Bは非力なうちの環境だと気が狂うくらい遅い もちろん65B/70Bを苦も無く使えるパワフルなニキは使うと良いと思うわ
>>782 同意
実用面で言えば33Bが丁度よいバランス
70Bは時間かかりすぎて眠くなるわ
散々待たされた挙げ句に駄文だったら精神に悪い
>>773 おー、これいいね。モデルは何使ってるの?
deeplの制限に引っ掛かって辛い、というか英文だと興奮率80%減で辛い 日本語来るまで非エロ出してたほうが良さげ?
非エロならChatGPTプラスどころか無料のBingで十分なんだよね
>>785 airochronos-33b.ggmlv3 だよ
https://huggingface.co/TheBloke/airochronos-33B-GGML 総合力の高いairoborosに、長文出力に定評のあるchronosをマージしたモデル
同様のマージモデルにはchronoborosというのもあるんだけどこっちの方がいいらしい
最近はもっぱらこいつを使ってる
airoborosなら持ってるわ って思ったらそのマージ版か
>>788 システムメモリ32G、グラボ3060環境のoobaboogaで試したら、ちょい重いかなぐらいで動いてくれた
これぐらいのが日本語で出力出来るようになればなぁ…
read.cgi ver 07.7.23 2024/12/25 Walang Kapalit ★ | Donguri System Team 5ちゃんねる
lud20250217063149このスレへの固定リンク: http://5chb.net/r/liveuranus/1685613014/ ヒント: 5chスレのurlに http ://xxxx.5chb .net/xxxx のようにb を入れるだけでここでスレ保存、閲覧できます。 TOPへ TOPへ
全掲示板一覧 この掲示板へ 人気スレ |
Youtube 動画
>50
>100
>200
>300
>500
>1000枚
新着画像 ↓「なんJLLM部 ★2 ->画像>55枚 」 を見た人も見ています:・なんJLLM部 ・なんJLLM部 ★3 ・なんJLLM部 ★6 ・なんJLLM部 ★4 ・なんJLLM部 ★7 ・なんJLLM部 ★5 ・なんJLLM部 避難所 ★4 ・なんJLLM部 避難所 ★6 ・なんJDTM部 ・なんJHRGM部 ・なんJUMMSM部 26 ・なんJUMMSM部 68 ・なんJUMMSM部124 ・なんJUMMSM部 84 ・なんJUMMSM部 25 ・なんJUMMSM部 17 ・なんJUMMSM部 60 ・なんJUMMSM部 19 ・なんJUMMSM部 88 ・なんJUMMSM部 47 ・なんJUMMSM部 89 ・なんJUMMSM部 73 ・なんJUMMSM部 82 ・なんJUMMSM部 38 ・なんJUMMSM部 59 ・なんJUMMSM部 65 ・なんJUMMSM部 87 ・なんJUMMSM部 42 ・なんJUMMSM部 72 ・なんJUMMSM部 45 ・なんJUMMSM部 86 ・なんJUMMSM部 54 ・なんJUMMSM部 11 ・なんJUMMSM部 41 ・なんJUMMSM部 14 ・なんJUMMSM部 85 ・なんJUMMSM部 74 ・なんJUMMSM部 44 ・なんJUMMSM部 15 ・なんJUMMSM部 76 ・なんJUMMSM部 75 ・なんJUMMSM部 62 ・なんJUMMSM部123 ・なんJUMMSM部 94 ・なんJ JJANM部 ・なんJUMMSM部 ・なんJUMMSM部 50 ・なんJUMMSM部116 ・なんJUMMSM部 8 ・なんJUMMSM部 9 ・なんJリネ2M部 ・なんJUMMSM部 21 ・なんJUMMSM部 70 ・なんJUMMSM部 66 ・なんJUMMSM部 57 ・なんJUMMSM部 16 ・なんJUMMSM部 27 ・なんJUMMSM部 77 ・なんJTGTM部 ・なんJUMMSM部 10 ・なんJUMMSM部 40 ・なんJUMMSM部 96 ・なんJUMMSM部 92 ・なんjTJTM部 ・なんJFDDM部 ・なんJUMMSM部148